国产成人精品白浆久久69,大学生小嫩模无套内谢50p,粗大黑人巨精大战欧美成人,插插射啊爱视频日a级,国产97色在线 | 免费

新能源汽車網(wǎng)歡迎您!

蔚來NOMI怎么知道你是在和TA說話?

作者:森林 2024-09-24 11:11:21 來源:新能源汽車網(wǎng)

  隨著蔚來智能系統(tǒng)「Banyan 榕 3.0.0」的到來和升級,NOMI擁有了全艙免喚醒功能,這意味著用戶無需再通過特定的喚醒詞(如「Hi NOMI」),就能直接向NOMI下達指令,用戶與NOMI的交互變得更加自然、便捷與高效。

  那么,從「Hi NOMI,打開車窗」到「打開車窗」,在不喚醒NOMI的情況下,NOMI是如何準確拿捏回應(yīng)時機,判斷哪些指令是下給它的,又是誰下達的?

  本期Tech Talk,我們邀請到了蔚來大模型主任算法工程師Anna W,為我們一起探秘「NOMI GPT 認知中樞」中的「多模拒識」能力。

蔚來

  什么是「多模拒識」 ?

  「多模拒識」,顧名思義,就是利用視覺、文本、音頻、壓感等多種輸入模態(tài)的信息,來分析和判斷用戶的對話指向,從而識別并拒絕響應(yīng)無關(guān)話語。簡單來說就是判斷車內(nèi)用戶在自然交流狀態(tài)下,哪些話是對NOMI說的(需要響應(yīng)),哪些話是用戶之間的閑聊(不要插嘴),以便做到精準對話:該響應(yīng)的要及時響應(yīng),不該回答的別插嘴。

蔚來

  「多模拒識」是「NOMI GPT認知中樞」中的重要一環(huán)。其實「多模拒識」對用戶來說并不陌生,自NOMI連續(xù)對話功能上線以來,「多模拒識」就一直在線上保障用戶自由流暢的交互體驗。目前,經(jīng)過持續(xù)不斷地迭代,「多模拒識」已經(jīng)能在全艙免喚醒、連續(xù)對話、大模型百科對話等場景為NOMI提供拒識能力。但隨著「NOMI GPT大模型」百科能力的增強, NOMI具備了更豐富的知識儲備,能夠回答的問題也更多,這也就意味著「多模拒識」需要對更廣泛領(lǐng)域的問題進行聆聽與識別,對它的判斷能力提出了更高的要求。

蔚來

  「多模拒識」如何做到精確判斷對話指向和用戶意圖的?

  座艙實際場景非常復(fù)雜,既包含常規(guī)的車輛控制指令/任務(wù)型對話場景,也包含寬泛的百科問答場景,分辨用戶說話對象、判斷用戶意圖并給出正確響應(yīng)是極具挑戰(zhàn)的,這非??简灐付嗄>茏R」系統(tǒng)的場景辨別能力。在「多模拒識」系統(tǒng)中,我們通過「大模型+多模感知」的技術(shù)方案來實現(xiàn)場景辨別。

  自研「多模拒識」模型直接判斷語音指令

  蔚來自研了基于語音和文本構(gòu)建的「多模拒識」模型,幫助NOMI判斷哪些對話是用戶指令,哪些對話是用戶閑聊。我們使用「語音預(yù)訓(xùn)練模型 Wav2Vec 」和「文本預(yù)訓(xùn)練模型 TinyBert 」來建模,聯(lián)合預(yù)訓(xùn)練NOMI「多模拒識」模型。同時,我們還會讓NOMI進行多視圖的對比學習,幫助NOMI識別用戶對話并進行分類。

蔚來

  簡單來說,「多模拒識」模型有左「語音預(yù)訓(xùn)練模型 Wav2Vec」和右「文本預(yù)訓(xùn)練模型 TinyBert」兩顆大腦,左腦負責聽,右腦負責讀,兩顆大腦提前學習了大量需要NOMI響應(yīng)的指令。

  在真實場景中,當NOMI聽到用戶對話,兩顆大腦就會同時工作,分別處理聽到的聲音和內(nèi)容,然后對比之前學習的內(nèi)容,如果二者比較接近,則判斷對話為「指令」,即建議NOMI回應(yīng)用戶。

  所以NOMI學習的語音/文本數(shù)據(jù)越多,「多模拒識」模型判斷的準確性就越高。NOMI經(jīng)過了超12,000小時車載語音、超2,000萬條文本的學習,讓「多模拒識」在全領(lǐng)域的對話判斷準確率達96.8%以上。

蔚來

  面對紛繁復(fù)雜的對話場景,如果NOMI聆聽到的對話不在小字典范圍內(nèi),「多模拒識」無法直接判斷對話是指令還是閑聊,又該怎么辦呢?這時候就需要一位「助理」來輔助它,即下文中的「REJ Agent」。

  「高情商助理」:REJ Agent

  在連續(xù)對話或多人對話場景中,用戶可能會在閑聊對話中插入對NOMI的指令,這種指令很可能「只可意會,不可言傳」。例如:「車里太熱了」。面對如此情景,「多模拒識」模型便無法通過小字典直接比對判斷,這時候如何判斷用戶的真實意圖及對話指向,便尤為重要。

  而大語言模型恰好可以幫忙,它很擅長理解對話,理解上下文的關(guān)系。借助它結(jié)合用戶對話歷史、對話上下文便可以判斷用戶的真實意圖和對話指向性,幫助NOMI判斷是否回應(yīng)用戶。這就是我們利用大語言模型構(gòu)建的「高情商助理」:REJ Agent。

蔚來

  作為「多模拒識」模型的助理,我們在REJ Agent中設(shè)計了三層邏輯,輔助NOMI做出判斷:

蔚來

  第一層邏輯:REJ Agent會先判斷聽到的對話是否為「人話」,對話語句是否有邏輯,是否屬于正常語言。如果是「人話」,REJ Agent會給出提示,「多模拒識」模型就會傾向于通過、回復(fù),但是否要讓NOMI回應(yīng),還需要第二層邏輯的判斷。

  例如:

蔚來

  第二層邏輯:REJ Agent將繼續(xù)判斷,判定當前對話內(nèi)容與上下文/對話歷史是否有關(guān)聯(lián),這里主要依靠「大語言模型」的上下文理解能力。

  如果對話與上下文關(guān)聯(lián),意味著用戶可能延續(xù)上文話題繼續(xù)對話,REJ Agent會給出建議,提示本輪對話可能需要NOMI回應(yīng),「多模拒識」也會給出通過和回復(fù)標識。

  如無關(guān)聯(lián),意味著用戶可能重新開啟了新的對話,或者不是在跟NOMI對話,REJ Agent會建議忽略,「多模拒識」給出拒識標識,NOMI則無回應(yīng)。

  例如:

蔚來

  第三層邏輯:REJ Agent同時也會判斷,對話是否對NOMI說。借助「大語言模型」對上下文/歷史對話信息的理解,判斷當前對話的指向是否和NOMI相關(guān)。如果與NOMI相關(guān),REJ Agent會建議「多模拒識模型」給出通過和回復(fù)標識,NOMI也會回應(yīng)。

  例如:

蔚來

  綜合以上三層邏輯的篩選判斷,REJ Agent作為「多模拒識」模型的「助理」,接收、理解,并判斷用戶對話的意圖和指向,幫助「多模拒識」模型更精準的判斷是否需要NOMI回應(yīng)。

  但這還不夠,為了讓「多模拒識」模型擁有更加精準的判斷,我們還引入了「多模感知特征」,給「多模拒識」模型疊加一層Buff,提升它在多用戶對話場景下的判斷精準度。

  Buff加持:「多模感知特征」輔助判斷對話人數(shù)和場景

  「多模感知特征」基于OMS視覺檢測、座椅傳感器、喚醒音區(qū)占用等信息,判斷車上乘客人數(shù)、所在位置以及對話場景。

  判斷用戶位置是為了更好響應(yīng)對方指令,例如針對不同座位的用戶指令調(diào)節(jié)座椅通風、加熱、按摩檔位等,而定位對話場景則是為了更好調(diào)整拒識策略,例如在閑聊模式或者展車模式下,用戶傾向更多地與朋友對話,需要更寬松的拒識策略,NOMI也會盡量保持靜默。

蔚來

  總之,有了「多模感知特征」這一Buff,「多模拒識」模型就能夠更加有效判斷是否對NOMI說話,從而過濾無關(guān)對話信息。

蔚來

  綜上可以看出,首先「多模拒識」模型通過預(yù)學習和「左右腦」可以判斷用戶對話是否為指令信息。在此基礎(chǔ)上,面對更加復(fù)雜的多人對話場景,它還有REJ Agent這個「高情商助理」去輔助它做判斷。同時,它還疊加了「多模感知特征」這個Buff,以提升在復(fù)雜場景下的判斷準確性。正是基于這三點,NOMI GPT不僅無需喚醒,還可以高情商回應(yīng),也懂得及時保持安靜,真正做到了準確「拿捏」回應(yīng)時機,和你的交流更自然、更流暢。

蔚來

  事實上,在引入Agent多智能體架構(gòu)后,NOMI已經(jīng)可以實現(xiàn)從「單點功能」向「主動智能」的進化,例如處理更復(fù)雜的用戶溝通,理解模糊意圖,并預(yù)測用戶需求。同時NOMI擁有的端側(cè)多模態(tài)感知能力,即使在沒有網(wǎng)絡(luò)連接的情況下也能「看得見,認得出」,提供安全的智能體驗,并保護用戶隱私。未來NOMI還會不斷進化,它不僅僅是一個智能助手,更是一個能夠深刻理解用戶需求、情感和意圖的智能伙伴,為用戶帶來更加豐富和便捷的智能體驗。

0
生成海報
下載海報
試駕、服務(wù)、優(yōu)惠購
網(wǎng)友評論
推薦閱讀