蔚來(lái)NOMI怎么知道你是在和TA說(shuō)話?
隨著蔚來(lái)智能系統(tǒng)「Banyan 榕 3.0.0」的到來(lái)和升級(jí),NOMI擁有了全艙免喚醒功能,這意味著用戶無(wú)需再通過(guò)特定的喚醒詞(如「Hi NOMI」),就能直接向NOMI下達(dá)指令,用戶與NOMI的交互變得更加自然、便捷與高效。
那么,從「Hi NOMI,打開(kāi)車窗」到「打開(kāi)車窗」,在不喚醒NOMI的情況下,NOMI是如何準(zhǔn)確拿捏回應(yīng)時(shí)機(jī),判斷哪些指令是下給它的,又是誰(shuí)下達(dá)的?
本期Tech Talk,我們邀請(qǐng)到了蔚來(lái)大模型主任算法工程師Anna W,為我們一起探秘「NOMI GPT 認(rèn)知中樞」中的「多模拒識(shí)」能力。

什么是「多模拒識(shí)」 ?
「多模拒識(shí)」,顧名思義,就是利用視覺(jué)、文本、音頻、壓感等多種輸入模態(tài)的信息,來(lái)分析和判斷用戶的對(duì)話指向,從而識(shí)別并拒絕響應(yīng)無(wú)關(guān)話語(yǔ)。簡(jiǎn)單來(lái)說(shuō)就是判斷車內(nèi)用戶在自然交流狀態(tài)下,哪些話是對(duì)NOMI說(shuō)的(需要響應(yīng)),哪些話是用戶之間的閑聊(不要插嘴),以便做到精準(zhǔn)對(duì)話:該響應(yīng)的要及時(shí)響應(yīng),不該回答的別插嘴。

「多模拒識(shí)」是「NOMI GPT認(rèn)知中樞」中的重要一環(huán)。其實(shí)「多模拒識(shí)」對(duì)用戶來(lái)說(shuō)并不陌生,自NOMI連續(xù)對(duì)話功能上線以來(lái),「多模拒識(shí)」就一直在線上保障用戶自由流暢的交互體驗(yàn)。目前,經(jīng)過(guò)持續(xù)不斷地迭代,「多模拒識(shí)」已經(jīng)能在全艙免喚醒、連續(xù)對(duì)話、大模型百科對(duì)話等場(chǎng)景為NOMI提供拒識(shí)能力。但隨著「NOMI GPT大模型」百科能力的增強(qiáng), NOMI具備了更豐富的知識(shí)儲(chǔ)備,能夠回答的問(wèn)題也更多,這也就意味著「多模拒識(shí)」需要對(duì)更廣泛領(lǐng)域的問(wèn)題進(jìn)行聆聽(tīng)與識(shí)別,對(duì)它的判斷能力提出了更高的要求。

「多模拒識(shí)」如何做到精確判斷對(duì)話指向和用戶意圖的?
座艙實(shí)際場(chǎng)景非常復(fù)雜,既包含常規(guī)的車輛控制指令/任務(wù)型對(duì)話場(chǎng)景,也包含寬泛的百科問(wèn)答場(chǎng)景,分辨用戶說(shuō)話對(duì)象、判斷用戶意圖并給出正確響應(yīng)是極具挑戰(zhàn)的,這非常考驗(yàn)「多模拒識(shí)」系統(tǒng)的場(chǎng)景辨別能力。在「多模拒識(shí)」系統(tǒng)中,我們通過(guò)「大模型+多模感知」的技術(shù)方案來(lái)實(shí)現(xiàn)場(chǎng)景辨別。
自研「多模拒識(shí)」模型直接判斷語(yǔ)音指令
蔚來(lái)自研了基于語(yǔ)音和文本構(gòu)建的「多模拒識(shí)」模型,幫助NOMI判斷哪些對(duì)話是用戶指令,哪些對(duì)話是用戶閑聊。我們使用「語(yǔ)音預(yù)訓(xùn)練模型 Wav2Vec 」和「文本預(yù)訓(xùn)練模型 TinyBert 」來(lái)建模,聯(lián)合預(yù)訓(xùn)練NOMI「多模拒識(shí)」模型。同時(shí),我們還會(huì)讓NOMI進(jìn)行多視圖的對(duì)比學(xué)習(xí),幫助NOMI識(shí)別用戶對(duì)話并進(jìn)行分類。

簡(jiǎn)單來(lái)說(shuō),「多模拒識(shí)」模型有左「語(yǔ)音預(yù)訓(xùn)練模型 Wav2Vec」和右「文本預(yù)訓(xùn)練模型 TinyBert」兩顆大腦,左腦負(fù)責(zé)聽(tīng),右腦負(fù)責(zé)讀,兩顆大腦提前學(xué)習(xí)了大量需要NOMI響應(yīng)的指令。
在真實(shí)場(chǎng)景中,當(dāng)NOMI聽(tīng)到用戶對(duì)話,兩顆大腦就會(huì)同時(shí)工作,分別處理聽(tīng)到的聲音和內(nèi)容,然后對(duì)比之前學(xué)習(xí)的內(nèi)容,如果二者比較接近,則判斷對(duì)話為「指令」,即建議NOMI回應(yīng)用戶。
所以NOMI學(xué)習(xí)的語(yǔ)音/文本數(shù)據(jù)越多,「多模拒識(shí)」模型判斷的準(zhǔn)確性就越高。NOMI經(jīng)過(guò)了超12,000小時(shí)車載語(yǔ)音、超2,000萬(wàn)條文本的學(xué)習(xí),讓「多模拒識(shí)」在全領(lǐng)域的對(duì)話判斷準(zhǔn)確率達(dá)96.8%以上。

面對(duì)紛繁復(fù)雜的對(duì)話場(chǎng)景,如果NOMI聆聽(tīng)到的對(duì)話不在小字典范圍內(nèi),「多模拒識(shí)」無(wú)法直接判斷對(duì)話是指令還是閑聊,又該怎么辦呢?這時(shí)候就需要一位「助理」來(lái)輔助它,即下文中的「REJ Agent」。
「高情商助理」:REJ Agent
在連續(xù)對(duì)話或多人對(duì)話場(chǎng)景中,用戶可能會(huì)在閑聊對(duì)話中插入對(duì)NOMI的指令,這種指令很可能「只可意會(huì),不可言傳」。例如:「車?yán)锾珶崃恕?。面?duì)如此情景,「多模拒識(shí)」模型便無(wú)法通過(guò)小字典直接比對(duì)判斷,這時(shí)候如何判斷用戶的真實(shí)意圖及對(duì)話指向,便尤為重要。
而大語(yǔ)言模型恰好可以幫忙,它很擅長(zhǎng)理解對(duì)話,理解上下文的關(guān)系。借助它結(jié)合用戶對(duì)話歷史、對(duì)話上下文便可以判斷用戶的真實(shí)意圖和對(duì)話指向性,幫助NOMI判斷是否回應(yīng)用戶。這就是我們利用大語(yǔ)言模型構(gòu)建的「高情商助理」:REJ Agent。

作為「多模拒識(shí)」模型的助理,我們?cè)赗EJ Agent中設(shè)計(jì)了三層邏輯,輔助NOMI做出判斷:

第一層邏輯:REJ Agent會(huì)先判斷聽(tīng)到的對(duì)話是否為「人話」,對(duì)話語(yǔ)句是否有邏輯,是否屬于正常語(yǔ)言。如果是「人話」,REJ Agent會(huì)給出提示,「多模拒識(shí)」模型就會(huì)傾向于通過(guò)、回復(fù),但是否要讓NOMI回應(yīng),還需要第二層邏輯的判斷。
例如:

第二層邏輯:REJ Agent將繼續(xù)判斷,判定當(dāng)前對(duì)話內(nèi)容與上下文/對(duì)話歷史是否有關(guān)聯(lián),這里主要依靠「大語(yǔ)言模型」的上下文理解能力。
如果對(duì)話與上下文關(guān)聯(lián),意味著用戶可能延續(xù)上文話題繼續(xù)對(duì)話,REJ Agent會(huì)給出建議,提示本輪對(duì)話可能需要NOMI回應(yīng),「多模拒識(shí)」也會(huì)給出通過(guò)和回復(fù)標(biāo)識(shí)。
如無(wú)關(guān)聯(lián),意味著用戶可能重新開(kāi)啟了新的對(duì)話,或者不是在跟NOMI對(duì)話,REJ Agent會(huì)建議忽略,「多模拒識(shí)」給出拒識(shí)標(biāo)識(shí),NOMI則無(wú)回應(yīng)。
例如:

第三層邏輯:REJ Agent同時(shí)也會(huì)判斷,對(duì)話是否對(duì)NOMI說(shuō)。借助「大語(yǔ)言模型」對(duì)上下文/歷史對(duì)話信息的理解,判斷當(dāng)前對(duì)話的指向是否和NOMI相關(guān)。如果與NOMI相關(guān),REJ Agent會(huì)建議「多模拒識(shí)模型」給出通過(guò)和回復(fù)標(biāo)識(shí),NOMI也會(huì)回應(yīng)。
例如:

綜合以上三層邏輯的篩選判斷,REJ Agent作為「多模拒識(shí)」模型的「助理」,接收、理解,并判斷用戶對(duì)話的意圖和指向,幫助「多模拒識(shí)」模型更精準(zhǔn)的判斷是否需要NOMI回應(yīng)。
但這還不夠,為了讓「多模拒識(shí)」模型擁有更加精準(zhǔn)的判斷,我們還引入了「多模感知特征」,給「多模拒識(shí)」模型疊加一層Buff,提升它在多用戶對(duì)話場(chǎng)景下的判斷精準(zhǔn)度。
Buff加持:「多模感知特征」輔助判斷對(duì)話人數(shù)和場(chǎng)景
「多模感知特征」基于OMS視覺(jué)檢測(cè)、座椅傳感器、喚醒音區(qū)占用等信息,判斷車上乘客人數(shù)、所在位置以及對(duì)話場(chǎng)景。
判斷用戶位置是為了更好響應(yīng)對(duì)方指令,例如針對(duì)不同座位的用戶指令調(diào)節(jié)座椅通風(fēng)、加熱、按摩檔位等,而定位對(duì)話場(chǎng)景則是為了更好調(diào)整拒識(shí)策略,例如在閑聊模式或者展車模式下,用戶傾向更多地與朋友對(duì)話,需要更寬松的拒識(shí)策略,NOMI也會(huì)盡量保持靜默。

總之,有了「多模感知特征」這一Buff,「多模拒識(shí)」模型就能夠更加有效判斷是否對(duì)NOMI說(shuō)話,從而過(guò)濾無(wú)關(guān)對(duì)話信息。
綜上可以看出,首先「多模拒識(shí)」模型通過(guò)預(yù)學(xué)習(xí)和「左右腦」可以判斷用戶對(duì)話是否為指令信息。在此基礎(chǔ)上,面對(duì)更加復(fù)雜的多人對(duì)話場(chǎng)景,它還有REJ Agent這個(gè)「高情商助理」去輔助它做判斷。同時(shí),它還疊加了「多模感知特征」這個(gè)Buff,以提升在復(fù)雜場(chǎng)景下的判斷準(zhǔn)確性。正是基于這三點(diǎn),NOMI GPT不僅無(wú)需喚醒,還可以高情商回應(yīng),也懂得及時(shí)保持安靜,真正做到了準(zhǔn)確「拿捏」回應(yīng)時(shí)機(jī),和你的交流更自然、更流暢。

事實(shí)上,在引入Agent多智能體架構(gòu)后,NOMI已經(jīng)可以實(shí)現(xiàn)從「單點(diǎn)功能」向「主動(dòng)智能」的進(jìn)化,例如處理更復(fù)雜的用戶溝通,理解模糊意圖,并預(yù)測(cè)用戶需求。同時(shí)NOMI擁有的端側(cè)多模態(tài)感知能力,即使在沒(méi)有網(wǎng)絡(luò)連接的情況下也能「看得見(jiàn),認(rèn)得出」,提供安全的智能體驗(yàn),并保護(hù)用戶隱私。未來(lái)NOMI還會(huì)不斷進(jìn)化,它不僅僅是一個(gè)智能助手,更是一個(gè)能夠深刻理解用戶需求、情感和意圖的智能伙伴,為用戶帶來(lái)更加豐富和便捷的智能體驗(yàn)。
-
起售價(jià)超74萬(wàn)元 蔚來(lái)EL8開(kāi)啟歐洲首批用戶交付
9月18日,蔚來(lái)汽車官方宣布,蔚來(lái)EL8(國(guó)內(nèi)對(duì)應(yīng)車型為ES8)開(kāi)啟歐洲首批用戶交付。此前,蔚來(lái)EL8于6月開(kāi)始正式在挪威、德國(guó)、荷蘭、瑞典、丹麥五國(guó)上市,以德國(guó)市場(chǎng)為例,蔚來(lái)EL8購(gòu)買價(jià)格為94900歐元(約合人民幣74 6萬(wàn)元)。
2024-09-19 -
將9月24日上線生效 蔚來(lái)?yè)Q電定價(jià)正式發(fā)布
日前,我們從官方獲悉,蔚來(lái)?yè)Q電定價(jià)將由“一口價(jià)”模式調(diào)整為“按度收費(fèi)”模式,調(diào)整將于2024年9月24日00:00上線生效。具體調(diào)整如下:
2024-09-15 -
蔚來(lái)加速布局歐洲市場(chǎng),第56座換電站正式上線
近日,蔚來(lái)歐洲2座換電站上線,它們分別于荷蘭東北部城市阿森(Assen)和挪威奧斯陸東部富魯塞(Oslo - Furuset),將為兩地用戶提供便捷的加電體驗(yàn),這也標(biāo)志著蔚來(lái)在歐洲的充換電網(wǎng)絡(luò)建設(shè)邁入新階段。截至目前,蔚來(lái)在歐洲共有56座換電站,其中荷蘭共有10座換電站,挪威共有19座換電站。
2024-09-06 -
“換/加電縣縣通”計(jì)劃開(kāi)始啟動(dòng)!蔚來(lái)發(fā)布8月加電報(bào)告
9月4日,蔚來(lái)官方發(fā)布了《蔚來(lái)能源8月加電報(bào)告》,同時(shí)宣稱:“8月,蔚來(lái)發(fā)布并正式啟動(dòng)全新基建布局計(jì)劃”。此次報(bào)告中顯示,“換電縣縣通”計(jì)劃已經(jīng)開(kāi)始布局,同時(shí)充電縣縣通計(jì)劃也已啟動(dòng)。
2024-09-04 -
新的里程碑時(shí)刻!蔚來(lái)在中國(guó)的第2500座換電站上線
9月2日,我們從蔚來(lái)品牌官方了解到,蔚來(lái)在中國(guó)的第2500座換電站于內(nèi)蒙古通遼上線,這也是蒙東地區(qū)的首座換電站,展現(xiàn)了蔚來(lái)對(duì)換電縣縣通計(jì)劃的落實(shí)與踐行。
2024-09-02
- 冠軍再進(jìn)化:第二代宋Pro DM-i引領(lǐng)A級(jí)SUV新趨勢(shì)
- 折扣價(jià)18.88萬(wàn)元起 寶馬iX1/i3/iX3開(kāi)啟限時(shí)折扣
- 售32.99萬(wàn)元起 全新嵐圖夢(mèng)想家上市72小時(shí)累計(jì)大定8637臺(tái)
- 極越07開(kāi)啟全國(guó)多城首批用戶交付 CEO夏一平親自交車
- 阿維塔11&12煥新華為乾崑ADS 3.0高階智駕
- A級(jí)SUV銷冠再出牌!比亞迪新宋Pro DM-i與海獅05DM-i重上市
- 百公里虧電油耗3.79L!第二代宋Pro DM-i上市11.28萬(wàn)元起
- 引領(lǐng)“新豪華”時(shí)代,阿維塔科技展現(xiàn)中國(guó)汽車工業(yè)新實(shí)力
- 推出五大升級(jí) 長(zhǎng)安啟源A07全新真香版配置曝光