蔚來NOMI怎么知道你是在和TA說話?
隨著蔚來智能系統(tǒng)「Banyan 榕 3.0.0」的到來和升級,NOMI擁有了全艙免喚醒功能,這意味著用戶無需再通過特定的喚醒詞(如「Hi NOMI」),就能直接向NOMI下達指令,用戶與NOMI的交互變得更加自然、便捷與高效。
那么,從「Hi NOMI,打開車窗」到「打開車窗」,在不喚醒NOMI的情況下,NOMI是如何準確拿捏回應(yīng)時機,判斷哪些指令是下給它的,又是誰下達的?
本期Tech Talk,我們邀請到了蔚來大模型主任算法工程師Anna W,為我們一起探秘「NOMI GPT 認知中樞」中的「多模拒識」能力。

什么是「多模拒識」 ?
「多模拒識」,顧名思義,就是利用視覺、文本、音頻、壓感等多種輸入模態(tài)的信息,來分析和判斷用戶的對話指向,從而識別并拒絕響應(yīng)無關(guān)話語。簡單來說就是判斷車內(nèi)用戶在自然交流狀態(tài)下,哪些話是對NOMI說的(需要響應(yīng)),哪些話是用戶之間的閑聊(不要插嘴),以便做到精準對話:該響應(yīng)的要及時響應(yīng),不該回答的別插嘴。

「多模拒識」是「NOMI GPT認知中樞」中的重要一環(huán)。其實「多模拒識」對用戶來說并不陌生,自NOMI連續(xù)對話功能上線以來,「多模拒識」就一直在線上保障用戶自由流暢的交互體驗。目前,經(jīng)過持續(xù)不斷地迭代,「多模拒識」已經(jīng)能在全艙免喚醒、連續(xù)對話、大模型百科對話等場景為NOMI提供拒識能力。但隨著「NOMI GPT大模型」百科能力的增強, NOMI具備了更豐富的知識儲備,能夠回答的問題也更多,這也就意味著「多模拒識」需要對更廣泛領(lǐng)域的問題進行聆聽與識別,對它的判斷能力提出了更高的要求。

「多模拒識」如何做到精確判斷對話指向和用戶意圖的?
座艙實際場景非常復(fù)雜,既包含常規(guī)的車輛控制指令/任務(wù)型對話場景,也包含寬泛的百科問答場景,分辨用戶說話對象、判斷用戶意圖并給出正確響應(yīng)是極具挑戰(zhàn)的,這非??简灐付嗄>茏R」系統(tǒng)的場景辨別能力。在「多模拒識」系統(tǒng)中,我們通過「大模型+多模感知」的技術(shù)方案來實現(xiàn)場景辨別。
自研「多模拒識」模型直接判斷語音指令
蔚來自研了基于語音和文本構(gòu)建的「多模拒識」模型,幫助NOMI判斷哪些對話是用戶指令,哪些對話是用戶閑聊。我們使用「語音預(yù)訓(xùn)練模型 Wav2Vec 」和「文本預(yù)訓(xùn)練模型 TinyBert 」來建模,聯(lián)合預(yù)訓(xùn)練NOMI「多模拒識」模型。同時,我們還會讓NOMI進行多視圖的對比學習,幫助NOMI識別用戶對話并進行分類。

簡單來說,「多模拒識」模型有左「語音預(yù)訓(xùn)練模型 Wav2Vec」和右「文本預(yù)訓(xùn)練模型 TinyBert」兩顆大腦,左腦負責聽,右腦負責讀,兩顆大腦提前學習了大量需要NOMI響應(yīng)的指令。
在真實場景中,當NOMI聽到用戶對話,兩顆大腦就會同時工作,分別處理聽到的聲音和內(nèi)容,然后對比之前學習的內(nèi)容,如果二者比較接近,則判斷對話為「指令」,即建議NOMI回應(yīng)用戶。
所以NOMI學習的語音/文本數(shù)據(jù)越多,「多模拒識」模型判斷的準確性就越高。NOMI經(jīng)過了超12,000小時車載語音、超2,000萬條文本的學習,讓「多模拒識」在全領(lǐng)域的對話判斷準確率達96.8%以上。

面對紛繁復(fù)雜的對話場景,如果NOMI聆聽到的對話不在小字典范圍內(nèi),「多模拒識」無法直接判斷對話是指令還是閑聊,又該怎么辦呢?這時候就需要一位「助理」來輔助它,即下文中的「REJ Agent」。
「高情商助理」:REJ Agent
在連續(xù)對話或多人對話場景中,用戶可能會在閑聊對話中插入對NOMI的指令,這種指令很可能「只可意會,不可言傳」。例如:「車里太熱了」。面對如此情景,「多模拒識」模型便無法通過小字典直接比對判斷,這時候如何判斷用戶的真實意圖及對話指向,便尤為重要。
而大語言模型恰好可以幫忙,它很擅長理解對話,理解上下文的關(guān)系。借助它結(jié)合用戶對話歷史、對話上下文便可以判斷用戶的真實意圖和對話指向性,幫助NOMI判斷是否回應(yīng)用戶。這就是我們利用大語言模型構(gòu)建的「高情商助理」:REJ Agent。

作為「多模拒識」模型的助理,我們在REJ Agent中設(shè)計了三層邏輯,輔助NOMI做出判斷:

第一層邏輯:REJ Agent會先判斷聽到的對話是否為「人話」,對話語句是否有邏輯,是否屬于正常語言。如果是「人話」,REJ Agent會給出提示,「多模拒識」模型就會傾向于通過、回復(fù),但是否要讓NOMI回應(yīng),還需要第二層邏輯的判斷。
例如:

第二層邏輯:REJ Agent將繼續(xù)判斷,判定當前對話內(nèi)容與上下文/對話歷史是否有關(guān)聯(lián),這里主要依靠「大語言模型」的上下文理解能力。
如果對話與上下文關(guān)聯(lián),意味著用戶可能延續(xù)上文話題繼續(xù)對話,REJ Agent會給出建議,提示本輪對話可能需要NOMI回應(yīng),「多模拒識」也會給出通過和回復(fù)標識。
如無關(guān)聯(lián),意味著用戶可能重新開啟了新的對話,或者不是在跟NOMI對話,REJ Agent會建議忽略,「多模拒識」給出拒識標識,NOMI則無回應(yīng)。
例如:

第三層邏輯:REJ Agent同時也會判斷,對話是否對NOMI說。借助「大語言模型」對上下文/歷史對話信息的理解,判斷當前對話的指向是否和NOMI相關(guān)。如果與NOMI相關(guān),REJ Agent會建議「多模拒識模型」給出通過和回復(fù)標識,NOMI也會回應(yīng)。
例如:

綜合以上三層邏輯的篩選判斷,REJ Agent作為「多模拒識」模型的「助理」,接收、理解,并判斷用戶對話的意圖和指向,幫助「多模拒識」模型更精準的判斷是否需要NOMI回應(yīng)。
但這還不夠,為了讓「多模拒識」模型擁有更加精準的判斷,我們還引入了「多模感知特征」,給「多模拒識」模型疊加一層Buff,提升它在多用戶對話場景下的判斷精準度。
Buff加持:「多模感知特征」輔助判斷對話人數(shù)和場景
「多模感知特征」基于OMS視覺檢測、座椅傳感器、喚醒音區(qū)占用等信息,判斷車上乘客人數(shù)、所在位置以及對話場景。
判斷用戶位置是為了更好響應(yīng)對方指令,例如針對不同座位的用戶指令調(diào)節(jié)座椅通風、加熱、按摩檔位等,而定位對話場景則是為了更好調(diào)整拒識策略,例如在閑聊模式或者展車模式下,用戶傾向更多地與朋友對話,需要更寬松的拒識策略,NOMI也會盡量保持靜默。

總之,有了「多模感知特征」這一Buff,「多模拒識」模型就能夠更加有效判斷是否對NOMI說話,從而過濾無關(guān)對話信息。
綜上可以看出,首先「多模拒識」模型通過預(yù)學習和「左右腦」可以判斷用戶對話是否為指令信息。在此基礎(chǔ)上,面對更加復(fù)雜的多人對話場景,它還有REJ Agent這個「高情商助理」去輔助它做判斷。同時,它還疊加了「多模感知特征」這個Buff,以提升在復(fù)雜場景下的判斷準確性。正是基于這三點,NOMI GPT不僅無需喚醒,還可以高情商回應(yīng),也懂得及時保持安靜,真正做到了準確「拿捏」回應(yīng)時機,和你的交流更自然、更流暢。

事實上,在引入Agent多智能體架構(gòu)后,NOMI已經(jīng)可以實現(xiàn)從「單點功能」向「主動智能」的進化,例如處理更復(fù)雜的用戶溝通,理解模糊意圖,并預(yù)測用戶需求。同時NOMI擁有的端側(cè)多模態(tài)感知能力,即使在沒有網(wǎng)絡(luò)連接的情況下也能「看得見,認得出」,提供安全的智能體驗,并保護用戶隱私。未來NOMI還會不斷進化,它不僅僅是一個智能助手,更是一個能夠深刻理解用戶需求、情感和意圖的智能伙伴,為用戶帶來更加豐富和便捷的智能體驗。
-
起售價超74萬元 蔚來EL8開啟歐洲首批用戶交付
9月18日,蔚來汽車官方宣布,蔚來EL8(國內(nèi)對應(yīng)車型為ES8)開啟歐洲首批用戶交付。此前,蔚來EL8于6月開始正式在挪威、德國、荷蘭、瑞典、丹麥五國上市,以德國市場為例,蔚來EL8購買價格為94900歐元(約合人民幣74 6萬元)。
2024-09-19 -
將9月24日上線生效 蔚來換電定價正式發(fā)布
日前,我們從官方獲悉,蔚來換電定價將由“一口價”模式調(diào)整為“按度收費”模式,調(diào)整將于2024年9月24日00:00上線生效。具體調(diào)整如下:
2024-09-15 -
蔚來加速布局歐洲市場,第56座換電站正式上線
近日,蔚來歐洲2座換電站上線,它們分別于荷蘭東北部城市阿森(Assen)和挪威奧斯陸東部富魯塞(Oslo - Furuset),將為兩地用戶提供便捷的加電體驗,這也標志著蔚來在歐洲的充換電網(wǎng)絡(luò)建設(shè)邁入新階段。截至目前,蔚來在歐洲共有56座換電站,其中荷蘭共有10座換電站,挪威共有19座換電站。
2024-09-06 -
“換/加電縣縣通”計劃開始啟動!蔚來發(fā)布8月加電報告
9月4日,蔚來官方發(fā)布了《蔚來能源8月加電報告》,同時宣稱:“8月,蔚來發(fā)布并正式啟動全新基建布局計劃”。此次報告中顯示,“換電縣縣通”計劃已經(jīng)開始布局,同時充電縣縣通計劃也已啟動。
2024-09-04 -
新的里程碑時刻!蔚來在中國的第2500座換電站上線
9月2日,我們從蔚來品牌官方了解到,蔚來在中國的第2500座換電站于內(nèi)蒙古通遼上線,這也是蒙東地區(qū)的首座換電站,展現(xiàn)了蔚來對換電縣縣通計劃的落實與踐行。
2024-09-02
- 冠軍再進化:第二代宋Pro DM-i引領(lǐng)A級SUV新趨勢
- 折扣價18.88萬元起 寶馬iX1/i3/iX3開啟限時折扣
- 售32.99萬元起 全新嵐圖夢想家上市72小時累計大定8637臺
- 極越07開啟全國多城首批用戶交付 CEO夏一平親自交車
- 阿維塔11&12煥新華為乾崑ADS 3.0高階智駕
- A級SUV銷冠再出牌!比亞迪新宋Pro DM-i與海獅05DM-i重上市
- 百公里虧電油耗3.79L!第二代宋Pro DM-i上市11.28萬元起
- 引領(lǐng)“新豪華”時代,阿維塔科技展現(xiàn)中國汽車工業(yè)新實力
- 提供純電、增程車型 深藍S05開啟先享搶訂
- 推出五大升級 長安啟源A07全新真香版配置曝光