国产成人精品白浆久久69,大学生小嫩模无套内谢50p,粗大黑人巨精大战欧美成人,插插射啊爱视频日a级,国产97色在线 | 免费

新能源汽車網(wǎng)歡迎您!

蔚來(lái)NOMI怎么知道你是在和TA說(shuō)話?

作者:森林 2024-09-24 11:11:21 來(lái)源:新能源汽車網(wǎng)

  隨著蔚來(lái)智能系統(tǒng)「Banyan 榕 3.0.0」的到來(lái)和升級(jí),NOMI擁有了全艙免喚醒功能,這意味著用戶無(wú)需再通過(guò)特定的喚醒詞(如「Hi NOMI」),就能直接向NOMI下達(dá)指令,用戶與NOMI的交互變得更加自然、便捷與高效。

  那么,從「Hi NOMI,打開(kāi)車窗」到「打開(kāi)車窗」,在不喚醒NOMI的情況下,NOMI是如何準(zhǔn)確拿捏回應(yīng)時(shí)機(jī),判斷哪些指令是下給它的,又是誰(shuí)下達(dá)的?

  本期Tech Talk,我們邀請(qǐng)到了蔚來(lái)大模型主任算法工程師Anna W,為我們一起探秘「NOMI GPT 認(rèn)知中樞」中的「多模拒識(shí)」能力。

蔚來(lái)

  什么是「多模拒識(shí)」 ?

  「多模拒識(shí)」,顧名思義,就是利用視覺(jué)、文本、音頻、壓感等多種輸入模態(tài)的信息,來(lái)分析和判斷用戶的對(duì)話指向,從而識(shí)別并拒絕響應(yīng)無(wú)關(guān)話語(yǔ)。簡(jiǎn)單來(lái)說(shuō)就是判斷車內(nèi)用戶在自然交流狀態(tài)下,哪些話是對(duì)NOMI說(shuō)的(需要響應(yīng)),哪些話是用戶之間的閑聊(不要插嘴),以便做到精準(zhǔn)對(duì)話:該響應(yīng)的要及時(shí)響應(yīng),不該回答的別插嘴。

蔚來(lái)

  「多模拒識(shí)」是「NOMI GPT認(rèn)知中樞」中的重要一環(huán)。其實(shí)「多模拒識(shí)」對(duì)用戶來(lái)說(shuō)并不陌生,自NOMI連續(xù)對(duì)話功能上線以來(lái),「多模拒識(shí)」就一直在線上保障用戶自由流暢的交互體驗(yàn)。目前,經(jīng)過(guò)持續(xù)不斷地迭代,「多模拒識(shí)」已經(jīng)能在全艙免喚醒、連續(xù)對(duì)話、大模型百科對(duì)話等場(chǎng)景為NOMI提供拒識(shí)能力。但隨著「NOMI GPT大模型」百科能力的增強(qiáng), NOMI具備了更豐富的知識(shí)儲(chǔ)備,能夠回答的問(wèn)題也更多,這也就意味著「多模拒識(shí)」需要對(duì)更廣泛領(lǐng)域的問(wèn)題進(jìn)行聆聽(tīng)與識(shí)別,對(duì)它的判斷能力提出了更高的要求。

蔚來(lái)

  「多模拒識(shí)」如何做到精確判斷對(duì)話指向和用戶意圖的?

  座艙實(shí)際場(chǎng)景非常復(fù)雜,既包含常規(guī)的車輛控制指令/任務(wù)型對(duì)話場(chǎng)景,也包含寬泛的百科問(wèn)答場(chǎng)景,分辨用戶說(shuō)話對(duì)象、判斷用戶意圖并給出正確響應(yīng)是極具挑戰(zhàn)的,這非常考驗(yàn)「多模拒識(shí)」系統(tǒng)的場(chǎng)景辨別能力。在「多模拒識(shí)」系統(tǒng)中,我們通過(guò)「大模型+多模感知」的技術(shù)方案來(lái)實(shí)現(xiàn)場(chǎng)景辨別。

  自研「多模拒識(shí)」模型直接判斷語(yǔ)音指令

  蔚來(lái)自研了基于語(yǔ)音和文本構(gòu)建的「多模拒識(shí)」模型,幫助NOMI判斷哪些對(duì)話是用戶指令,哪些對(duì)話是用戶閑聊。我們使用「語(yǔ)音預(yù)訓(xùn)練模型 Wav2Vec 」和「文本預(yù)訓(xùn)練模型 TinyBert 」來(lái)建模,聯(lián)合預(yù)訓(xùn)練NOMI「多模拒識(shí)」模型。同時(shí),我們還會(huì)讓NOMI進(jìn)行多視圖的對(duì)比學(xué)習(xí),幫助NOMI識(shí)別用戶對(duì)話并進(jìn)行分類。

蔚來(lái)

  簡(jiǎn)單來(lái)說(shuō),「多模拒識(shí)」模型有左「語(yǔ)音預(yù)訓(xùn)練模型 Wav2Vec」和右「文本預(yù)訓(xùn)練模型 TinyBert」兩顆大腦,左腦負(fù)責(zé)聽(tīng),右腦負(fù)責(zé)讀,兩顆大腦提前學(xué)習(xí)了大量需要NOMI響應(yīng)的指令。

  在真實(shí)場(chǎng)景中,當(dāng)NOMI聽(tīng)到用戶對(duì)話,兩顆大腦就會(huì)同時(shí)工作,分別處理聽(tīng)到的聲音和內(nèi)容,然后對(duì)比之前學(xué)習(xí)的內(nèi)容,如果二者比較接近,則判斷對(duì)話為「指令」,即建議NOMI回應(yīng)用戶。

  所以NOMI學(xué)習(xí)的語(yǔ)音/文本數(shù)據(jù)越多,「多模拒識(shí)」模型判斷的準(zhǔn)確性就越高。NOMI經(jīng)過(guò)了超12,000小時(shí)車載語(yǔ)音、超2,000萬(wàn)條文本的學(xué)習(xí),讓「多模拒識(shí)」在全領(lǐng)域的對(duì)話判斷準(zhǔn)確率達(dá)96.8%以上。

蔚來(lái)

  面對(duì)紛繁復(fù)雜的對(duì)話場(chǎng)景,如果NOMI聆聽(tīng)到的對(duì)話不在小字典范圍內(nèi),「多模拒識(shí)」無(wú)法直接判斷對(duì)話是指令還是閑聊,又該怎么辦呢?這時(shí)候就需要一位「助理」來(lái)輔助它,即下文中的「REJ Agent」。

  「高情商助理」:REJ Agent

  在連續(xù)對(duì)話或多人對(duì)話場(chǎng)景中,用戶可能會(huì)在閑聊對(duì)話中插入對(duì)NOMI的指令,這種指令很可能「只可意會(huì),不可言傳」。例如:「車?yán)锾珶崃恕?。面?duì)如此情景,「多模拒識(shí)」模型便無(wú)法通過(guò)小字典直接比對(duì)判斷,這時(shí)候如何判斷用戶的真實(shí)意圖及對(duì)話指向,便尤為重要。

  而大語(yǔ)言模型恰好可以幫忙,它很擅長(zhǎng)理解對(duì)話,理解上下文的關(guān)系。借助它結(jié)合用戶對(duì)話歷史、對(duì)話上下文便可以判斷用戶的真實(shí)意圖和對(duì)話指向性,幫助NOMI判斷是否回應(yīng)用戶。這就是我們利用大語(yǔ)言模型構(gòu)建的「高情商助理」:REJ Agent。

蔚來(lái)

  作為「多模拒識(shí)」模型的助理,我們?cè)赗EJ Agent中設(shè)計(jì)了三層邏輯,輔助NOMI做出判斷:

蔚來(lái)

  第一層邏輯:REJ Agent會(huì)先判斷聽(tīng)到的對(duì)話是否為「人話」,對(duì)話語(yǔ)句是否有邏輯,是否屬于正常語(yǔ)言。如果是「人話」,REJ Agent會(huì)給出提示,「多模拒識(shí)」模型就會(huì)傾向于通過(guò)、回復(fù),但是否要讓NOMI回應(yīng),還需要第二層邏輯的判斷。

  例如:

蔚來(lái)

  第二層邏輯:REJ Agent將繼續(xù)判斷,判定當(dāng)前對(duì)話內(nèi)容與上下文/對(duì)話歷史是否有關(guān)聯(lián),這里主要依靠「大語(yǔ)言模型」的上下文理解能力。

  如果對(duì)話與上下文關(guān)聯(lián),意味著用戶可能延續(xù)上文話題繼續(xù)對(duì)話,REJ Agent會(huì)給出建議,提示本輪對(duì)話可能需要NOMI回應(yīng),「多模拒識(shí)」也會(huì)給出通過(guò)和回復(fù)標(biāo)識(shí)。

  如無(wú)關(guān)聯(lián),意味著用戶可能重新開(kāi)啟了新的對(duì)話,或者不是在跟NOMI對(duì)話,REJ Agent會(huì)建議忽略,「多模拒識(shí)」給出拒識(shí)標(biāo)識(shí),NOMI則無(wú)回應(yīng)。

  例如:

蔚來(lái)

  第三層邏輯:REJ Agent同時(shí)也會(huì)判斷,對(duì)話是否對(duì)NOMI說(shuō)。借助「大語(yǔ)言模型」對(duì)上下文/歷史對(duì)話信息的理解,判斷當(dāng)前對(duì)話的指向是否和NOMI相關(guān)。如果與NOMI相關(guān),REJ Agent會(huì)建議「多模拒識(shí)模型」給出通過(guò)和回復(fù)標(biāo)識(shí),NOMI也會(huì)回應(yīng)。

  例如:

蔚來(lái)

  綜合以上三層邏輯的篩選判斷,REJ Agent作為「多模拒識(shí)」模型的「助理」,接收、理解,并判斷用戶對(duì)話的意圖和指向,幫助「多模拒識(shí)」模型更精準(zhǔn)的判斷是否需要NOMI回應(yīng)。

  但這還不夠,為了讓「多模拒識(shí)」模型擁有更加精準(zhǔn)的判斷,我們還引入了「多模感知特征」,給「多模拒識(shí)」模型疊加一層Buff,提升它在多用戶對(duì)話場(chǎng)景下的判斷精準(zhǔn)度。

  Buff加持:「多模感知特征」輔助判斷對(duì)話人數(shù)和場(chǎng)景

  「多模感知特征」基于OMS視覺(jué)檢測(cè)、座椅傳感器、喚醒音區(qū)占用等信息,判斷車上乘客人數(shù)、所在位置以及對(duì)話場(chǎng)景。

  判斷用戶位置是為了更好響應(yīng)對(duì)方指令,例如針對(duì)不同座位的用戶指令調(diào)節(jié)座椅通風(fēng)、加熱、按摩檔位等,而定位對(duì)話場(chǎng)景則是為了更好調(diào)整拒識(shí)策略,例如在閑聊模式或者展車模式下,用戶傾向更多地與朋友對(duì)話,需要更寬松的拒識(shí)策略,NOMI也會(huì)盡量保持靜默。

蔚來(lái)

  總之,有了「多模感知特征」這一Buff,「多模拒識(shí)」模型就能夠更加有效判斷是否對(duì)NOMI說(shuō)話,從而過(guò)濾無(wú)關(guān)對(duì)話信息。

蔚來(lái)

  綜上可以看出,首先「多模拒識(shí)」模型通過(guò)預(yù)學(xué)習(xí)和「左右腦」可以判斷用戶對(duì)話是否為指令信息。在此基礎(chǔ)上,面對(duì)更加復(fù)雜的多人對(duì)話場(chǎng)景,它還有REJ Agent這個(gè)「高情商助理」去輔助它做判斷。同時(shí),它還疊加了「多模感知特征」這個(gè)Buff,以提升在復(fù)雜場(chǎng)景下的判斷準(zhǔn)確性。正是基于這三點(diǎn),NOMI GPT不僅無(wú)需喚醒,還可以高情商回應(yīng),也懂得及時(shí)保持安靜,真正做到了準(zhǔn)確「拿捏」回應(yīng)時(shí)機(jī),和你的交流更自然、更流暢。

蔚來(lái)

  事實(shí)上,在引入Agent多智能體架構(gòu)后,NOMI已經(jīng)可以實(shí)現(xiàn)從「單點(diǎn)功能」向「主動(dòng)智能」的進(jìn)化,例如處理更復(fù)雜的用戶溝通,理解模糊意圖,并預(yù)測(cè)用戶需求。同時(shí)NOMI擁有的端側(cè)多模態(tài)感知能力,即使在沒(méi)有網(wǎng)絡(luò)連接的情況下也能「看得見(jiàn),認(rèn)得出」,提供安全的智能體驗(yàn),并保護(hù)用戶隱私。未來(lái)NOMI還會(huì)不斷進(jìn)化,它不僅僅是一個(gè)智能助手,更是一個(gè)能夠深刻理解用戶需求、情感和意圖的智能伙伴,為用戶帶來(lái)更加豐富和便捷的智能體驗(yàn)。

0
生成海報(bào)
下載海報(bào)
試駕、服務(wù)、優(yōu)惠購(gòu)
網(wǎng)友評(píng)論
推薦閱讀