蔚來NOMI怎么知道你是在和TA說話?

作者：森林 2024-09-24 11:11:21 來源：新能源汽車網(wǎng)

　　隨著蔚來智能系統(tǒng)「Banyan 榕 3.0.0」的到來和升級，NOMI擁有了全艙免喚醒功能，這意味著用戶無需再通過特定的喚醒詞(如「Hi NOMI」)，就能直接向NOMI下達指令，用戶與NOMI的交互變得更加自然、便捷與高效。

　　那么，從「Hi NOMI，打開車窗」到「打開車窗」，在不喚醒NOMI的情況下，NOMI是如何準確拿捏回應(yīng)時機，判斷哪些指令是下給它的，又是誰下達的?

　　本期Tech Talk，我們邀請到了蔚來大模型主任算法工程師Anna W，為我們一起探秘「NOMI GPT 認知中樞」中的「多模拒識」能力。

　　什么是「多模拒識」 ?

　　「多模拒識」，顧名思義，就是利用視覺、文本、音頻、壓感等多種輸入模態(tài)的信息，來分析和判斷用戶的對話指向，從而識別并拒絕響應(yīng)無關(guān)話語。簡單來說就是判斷車內(nèi)用戶在自然交流狀態(tài)下，哪些話是對NOMI說的(需要響應(yīng))，哪些話是用戶之間的閑聊(不要插嘴)，以便做到精準對話：該響應(yīng)的要及時響應(yīng)，不該回答的別插嘴。

　　「多模拒識」是「NOMI GPT認知中樞」中的重要一環(huán)。其實「多模拒識」對用戶來說并不陌生，自NOMI連續(xù)對話功能上線以來，「多模拒識」就一直在線上保障用戶自由流暢的交互體驗。目前，經(jīng)過持續(xù)不斷地迭代，「多模拒識」已經(jīng)能在全艙免喚醒、連續(xù)對話、大模型百科對話等場景為NOMI提供拒識能力。但隨著「NOMI GPT大模型」百科能力的增強， NOMI具備了更豐富的知識儲備，能夠回答的問題也更多，這也就意味著「多模拒識」需要對更廣泛領(lǐng)域的問題進行聆聽與識別，對它的判斷能力提出了更高的要求。

　　「多模拒識」如何做到精確判斷對話指向和用戶意圖的?

　　座艙實際場景非常復(fù)雜，既包含常規(guī)的車輛控制指令/任務(wù)型對話場景，也包含寬泛的百科問答場景，分辨用戶說話對象、判斷用戶意圖并給出正確響應(yīng)是極具挑戰(zhàn)的，這非?？简灐付嗄＞茏R」系統(tǒng)的場景辨別能力。在「多模拒識」系統(tǒng)中，我們通過「大模型+多模感知」的技術(shù)方案來實現(xiàn)場景辨別。

　　自研「多模拒識」模型直接判斷語音指令

　　蔚來自研了基于語音和文本構(gòu)建的「多模拒識」模型，幫助NOMI判斷哪些對話是用戶指令，哪些對話是用戶閑聊。我們使用「語音預(yù)訓(xùn)練模型 Wav2Vec 」和「文本預(yù)訓(xùn)練模型 TinyBert 」來建模，聯(lián)合預(yù)訓(xùn)練NOMI「多模拒識」模型。同時，我們還會讓NOMI進行多視圖的對比學習，幫助NOMI識別用戶對話并進行分類。

　　簡單來說，「多模拒識」模型有左「語音預(yù)訓(xùn)練模型 Wav2Vec」和右「文本預(yù)訓(xùn)練模型 TinyBert」兩顆大腦，左腦負責聽，右腦負責讀，兩顆大腦提前學習了大量需要NOMI響應(yīng)的指令。

　　在真實場景中，當NOMI聽到用戶對話，兩顆大腦就會同時工作，分別處理聽到的聲音和內(nèi)容，然后對比之前學習的內(nèi)容，如果二者比較接近，則判斷對話為「指令」，即建議NOMI回應(yīng)用戶。

　　所以NOMI學習的語音/文本數(shù)據(jù)越多，「多模拒識」模型判斷的準確性就越高。NOMI經(jīng)過了超12,000小時車載語音、超2,000萬條文本的學習，讓「多模拒識」在全領(lǐng)域的對話判斷準確率達96.8%以上。

　　面對紛繁復(fù)雜的對話場景，如果NOMI聆聽到的對話不在小字典范圍內(nèi)，「多模拒識」無法直接判斷對話是指令還是閑聊，又該怎么辦呢?這時候就需要一位「助理」來輔助它，即下文中的「REJ Agent」。

　　「高情商助理」：REJ Agent

　　在連續(xù)對話或多人對話場景中，用戶可能會在閑聊對話中插入對NOMI的指令，這種指令很可能「只可意會，不可言傳」。例如：「車里太熱了」。面對如此情景，「多模拒識」模型便無法通過小字典直接比對判斷，這時候如何判斷用戶的真實意圖及對話指向，便尤為重要。

　　而大語言模型恰好可以幫忙，它很擅長理解對話，理解上下文的關(guān)系。借助它結(jié)合用戶對話歷史、對話上下文便可以判斷用戶的真實意圖和對話指向性，幫助NOMI判斷是否回應(yīng)用戶。這就是我們利用大語言模型構(gòu)建的「高情商助理」：REJ Agent。

　　作為「多模拒識」模型的助理，我們在REJ Agent中設(shè)計了三層邏輯，輔助NOMI做出判斷：

　　第一層邏輯：REJ Agent會先判斷聽到的對話是否為「人話」，對話語句是否有邏輯，是否屬于正常語言。如果是「人話」，REJ Agent會給出提示，「多模拒識」模型就會傾向于通過、回復(fù)，但是否要讓NOMI回應(yīng)，還需要第二層邏輯的判斷。

　　例如：

　　第二層邏輯：REJ Agent將繼續(xù)判斷，判定當前對話內(nèi)容與上下文/對話歷史是否有關(guān)聯(lián)，這里主要依靠「大語言模型」的上下文理解能力。

　　如果對話與上下文關(guān)聯(lián)，意味著用戶可能延續(xù)上文話題繼續(xù)對話，REJ Agent會給出建議，提示本輪對話可能需要NOMI回應(yīng)，「多模拒識」也會給出通過和回復(fù)標識。

　　如無關(guān)聯(lián)，意味著用戶可能重新開啟了新的對話，或者不是在跟NOMI對話，REJ Agent會建議忽略，「多模拒識」給出拒識標識，NOMI則無回應(yīng)。

　　例如：

　　第三層邏輯：REJ Agent同時也會判斷，對話是否對NOMI說。借助「大語言模型」對上下文/歷史對話信息的理解，判斷當前對話的指向是否和NOMI相關(guān)。如果與NOMI相關(guān)，REJ Agent會建議「多模拒識模型」給出通過和回復(fù)標識，NOMI也會回應(yīng)。

　　例如：

　　綜合以上三層邏輯的篩選判斷，REJ Agent作為「多模拒識」模型的「助理」，接收、理解，并判斷用戶對話的意圖和指向，幫助「多模拒識」模型更精準的判斷是否需要NOMI回應(yīng)。

　　但這還不夠，為了讓「多模拒識」模型擁有更加精準的判斷，我們還引入了「多模感知特征」，給「多模拒識」模型疊加一層Buff，提升它在多用戶對話場景下的判斷精準度。

　　Buff加持：「多模感知特征」輔助判斷對話人數(shù)和場景

　　「多模感知特征」基于OMS視覺檢測、座椅傳感器、喚醒音區(qū)占用等信息，判斷車上乘客人數(shù)、所在位置以及對話場景。

　　判斷用戶位置是為了更好響應(yīng)對方指令，例如針對不同座位的用戶指令調(diào)節(jié)座椅通風、加熱、按摩檔位等，而定位對話場景則是為了更好調(diào)整拒識策略，例如在閑聊模式或者展車模式下，用戶傾向更多地與朋友對話，需要更寬松的拒識策略，NOMI也會盡量保持靜默。

　　總之，有了「多模感知特征」這一Buff，「多模拒識」模型就能夠更加有效判斷是否對NOMI說話，從而過濾無關(guān)對話信息。

　　綜上可以看出，首先「多模拒識」模型通過預(yù)學習和「左右腦」可以判斷用戶對話是否為指令信息。在此基礎(chǔ)上，面對更加復(fù)雜的多人對話場景，它還有REJ Agent這個「高情商助理」去輔助它做判斷。同時，它還疊加了「多模感知特征」這個Buff，以提升在復(fù)雜場景下的判斷準確性。正是基于這三點，NOMI GPT不僅無需喚醒，還可以高情商回應(yīng)，也懂得及時保持安靜，真正做到了準確「拿捏」回應(yīng)時機，和你的交流更自然、更流暢。

　　事實上，在引入Agent多智能體架構(gòu)后，NOMI已經(jīng)可以實現(xiàn)從「單點功能」向「主動智能」的進化，例如處理更復(fù)雜的用戶溝通，理解模糊意圖，并預(yù)測用戶需求。同時NOMI擁有的端側(cè)多模態(tài)感知能力，即使在沒有網(wǎng)絡(luò)連接的情況下也能「看得見，認得出」，提供安全的智能體驗，并保護用戶隱私。未來NOMI還會不斷進化，它不僅僅是一個智能助手，更是一個能夠深刻理解用戶需求、情感和意圖的智能伙伴，為用戶帶來更加豐富和便捷的智能體驗。

生成海報

下載海報

試駕、服務(wù)、優(yōu)惠購

網(wǎng)友評論

国产成人精品白浆久久69,大学生小嫩模无套内谢50p,粗大黑人巨精大战欧美成人,插插射啊爱视频日a级,国产97色在线 | 免费

蔚來NOMI怎么知道你是在和TA說話?