如今,手機(jī)地圖導(dǎo)航推出語音助手已經(jīng)成為行業(yè)標(biāo)配,但是效果并不完美,常常出現(xiàn)用戶說話,導(dǎo)航無法識別,或是給出不詳細(xì),甚至錯誤信息的情況。最關(guān)鍵的是,操作手機(jī)導(dǎo)航可能會引發(fā)交通事故,為行車安全帶來巨大的隱患。
那么,如何解決地圖導(dǎo)航的語音使用難題?
搜狗地圖總經(jīng)理孔祥來在近日表示,搜狗地圖正在試圖用人工智能技術(shù)來解決這一問題。在今年7月,搜狗地圖推出了“搜狗智能副駕”,基于語音識別、語義理解等人工智能技術(shù),“搜狗智能副駕”可以通過與駕駛員的多輪對話,了解用戶真實意圖,給出最佳的出行方案和搜索結(jié)果,而整個過程駕駛員也無需分心,可以專注駕駛,保證出行安全。
與傳統(tǒng)語音導(dǎo)航解決方案不同的是,搜狗智能副駕所強(qiáng)調(diào)的語音交互,并不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了,而是要通過后續(xù)一系列的語意、地圖層面做一些分析工作,最終給用戶一個正確的反饋結(jié)果。
“目前,搜狗智能副駕使用的全部是搜狗自有的人工智能技術(shù)。”孔祥來說。出于這一原因,搜狗智能副駕的相關(guān)技術(shù)能夠像引擎一樣精密協(xié)作,達(dá)到松耦合無法達(dá)成的成功率,加上獨特的語音糾錯功能,已經(jīng)完全可以解放用戶的手眼,在保障安全行駛的情況下自在導(dǎo)航。
有專家認(rèn)為,搜狗地圖可能是目前國內(nèi)首家將自主人工智能技術(shù)與地圖導(dǎo)航進(jìn)行結(jié)合的產(chǎn)品。用戶對于導(dǎo)航產(chǎn)品的依賴程度達(dá)到一個空前的水平,與駕駛相關(guān)的導(dǎo)航需求達(dá)到92%,搜狗智能副駕的落地,可以有效改善傳統(tǒng)的導(dǎo)航方式,提供更加便捷安全的駕駛環(huán)境。相信用不了多久,越來越多的用戶都會感受到這份人工智能力量帶來的魅力。
以下為孔祥來在鈦媒體 T-EDGE 國際年度盛典上的部分演講實錄:
孔祥來:搜狗在過去一年以來在AI領(lǐng)域里面所做的嘗試,即把語音識別技術(shù)、語意理解技術(shù)和地圖導(dǎo)航技術(shù)結(jié)合起來,在汽車場景中向用戶提供內(nèi)容解決方案。
現(xiàn)在我們發(fā)現(xiàn),用戶在車內(nèi)信息交互的需求,其實主要就是兩類,一類是駕駛相關(guān)的,比如說導(dǎo)航、路況、沿途信息等,大概要占到92%。還有一類是互聯(lián)網(wǎng)相關(guān)的,比如說聽音樂、廣播、新聞、聊微信等這些東西,用戶在車內(nèi)的信息交互需求,占比最高的主要就是這兩類。
目前,用戶的這種需求是怎么被滿足的呢?在汽車場景里面,凡是用戶想聽歌、打電話的時候,汽車制造商都已經(jīng)為用戶提供了一些解決方案,但是以前主要都是基于物理的這種按鍵或旋紐,很不方便,所以我們也注意到在最近的一兩年里邊,汽車制造商已經(jīng)開始把這種語音識別的技術(shù)引入到車內(nèi)來。
語音交互毫無疑問是在車?yán)锩嬉粋€最合理的一種交互方式,因為畢竟你在開車的時候,你的手跟、眼都是屬于被占用的一個狀態(tài)。
汽車廠商做出來的語音交互主要問題就是聽不懂,你跟系統(tǒng)絮絮叨叨說了半天,系統(tǒng)只按它自己的邏輯去解釋,你如果不按它的方法來輸入指令的話,它就拒絕配合你。
現(xiàn)在除了汽車廠商在提供這種語音交互的這種解決方案之外,互聯(lián)網(wǎng)廠商不是也在做這些事情嗎?有很多的互聯(lián)網(wǎng)廠商現(xiàn)在已經(jīng)開始在自己的車內(nèi)的場景里,比如導(dǎo)航功能中開始植入這種語音交互的能力,互聯(lián)網(wǎng)廠商目前做得怎么樣?
導(dǎo)航供應(yīng)商所提供的語音交互的表現(xiàn)主要所反應(yīng)出來的問題其實就是說不清,我們知道語音交互它是個雙向的概念,不光是你說的東西機(jī)器能聽懂,同時機(jī)器也應(yīng)該說人能聽懂的東西,不能當(dāng)人說完了之后,機(jī)器只管把結(jié)果給你列出來,然后讓你再去重新選擇和交互,如果是這樣一種交互方式的話,在車內(nèi)毫無疑問是非常不安全的。
所以,我們總結(jié)下來就是,就目前來看,用戶體驗到的語音交互,要么就是聽不懂,要不就是說不清,用戶真正需要的語音交互是什么呢?它是需要一個自然的語言對話,能夠聽懂用戶想要什么,能夠像人一樣地去講出這個答案。下面我們看一下,我們認(rèn)為真正的語音交互應(yīng)該是什么樣的。
這就是我們想為大家推出的搜狗智能副駕的一個初衷,我們希望真正能在車內(nèi),用戶是以這樣一種交互方式去跟系統(tǒng)打交道的,而我們這個產(chǎn)品實際已經(jīng)在7月初的時候發(fā)布了,現(xiàn)在安卓和iPhone手機(jī)都可以下載搜狗地圖,搜狗地圖里面會有一個模式叫做智能副駕,進(jìn)到這個模式之后就可以跟汪仔進(jìn)行語音交互,你可以說出你的需求是什么,它對話的方式大概就是這樣的。
你先喚醒它,比如“你好汪仔”,他就會問你要去哪兒,你說去奧森,它知道奧森是有南門跟北門的,于是乎它會說奧森有兩個你去哪一個,是南門還是北門。如果你說南門,最終它就會找到奧森的南門并且自動為你啟動導(dǎo)航。
大家不要小看這個簡單的過程,實際上這個過程背后是有非常復(fù)雜的技術(shù)的支撐,才能保證有這樣一個良好的體驗的。在汽車上的一個智能助手,如果想做到一個良好的語音交互體驗的話,我們認(rèn)為有4點需要做到:
第一個,聽得對。這是最基本的,當(dāng)用戶說出一段話后能夠正確地轉(zhuǎn)譯成文字。
第二個,聽得懂。就是你光聽對了不行,你得知道他想表達(dá)什么,什么意思。
第三個,能夠說。幫用戶搜索到結(jié)果反饋后,需要正確地把它表達(dá)出來。
第四個,要有相關(guān)非常豐富的知識,否則無法解決想要的問題。
我們來看一個實際的例子,比如說用戶對系統(tǒng)說要去某個地方,系統(tǒng)會識別到很多的可能性,進(jìn)入到語意分析環(huán)節(jié),當(dāng)我們把地圖引入進(jìn)來的時候,決策后會發(fā)現(xiàn)某個地方的概率更高,所以最終分析下來用戶應(yīng)該想去這個地方。
我說這個例子是想跟大家說,在聽得對這個環(huán)節(jié),不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了,而是說你要通過后續(xù)的一系列的像語意、地圖層面做的一些分析的工作,然后你才能知道用戶說的哪一個是對的。通過這個例子就能發(fā)現(xiàn),我們通過語意和地圖的糾錯,使最終系統(tǒng)選出了正確的目的地。
像我們剛才在視頻里看到的一些例子,比如你想在路上順便加油、吃麥當(dāng)勞等行為,目前在搜狗一個龐大的語意網(wǎng)絡(luò)里面,已經(jīng)能夠聽懂10萬個類似像這樣的語意路徑,也就說你表達(dá)一種需求,你可能有不同的說法,在語意分析引擎這邊,它能夠兼容很多種說法,現(xiàn)在我們整個的對話路徑已經(jīng)超過了10萬個。
接下來我們來看看,比如說在傳統(tǒng)語音交互里面,你說你要去首都機(jī)場的時候,它會說我給你找到5個目的地,我們的做法是直接精簡成你要去哪個航站樓或者航班號(這樣只有15個字),這種方式就是用戶所能接受的非常自然的語音交互。
所有的這些能夠聽得懂,是建立在一個非常重要的基礎(chǔ)上,我們對地圖數(shù)據(jù)做了非常重要的重構(gòu),我們把這個稱之為主子關(guān)系,我們大概能夠挖掘出500多萬的主子關(guān)系。
除了主子關(guān)系還有所謂的容器關(guān)系(比如說搜狗公司在搜狗網(wǎng)絡(luò)大廈里面),還有很多的商圈地片,當(dāng)你說你要去大鐘寺的時候,不是簡單給你導(dǎo)到大鐘寺地鐵站,而是問你要去大鐘寺的什么地方,這些都是我們定義的叫做地圖知識。
除了地圖知識之外還有很多跨域的知識,像航班、洗車、車站等都是我們所謂的有知識的范疇。傳統(tǒng)模式的語音基本上是這樣一個漏斗的模型:
第一級:語音識別率。
第二級:受限于語意理解的正確率。
第三級:受限于搜索的正確率。
最終一個漏斗剩下來,會話的成功率只有68.4%,大家可能會疑問怎么第一個環(huán)節(jié)語音識別正確率只有80%,這是因為現(xiàn)在有很多的語音的識別雖然都說自己的所謂字正確率能夠達(dá)到90%幾,但是你一旦把它變成一個句子的話,馬上迅速地識別率就會下降下來。
而搜狗這邊的做法是,每一級我們都會有一個糾錯,都會根據(jù)后面的結(jié)果對前面進(jìn)行反向糾錯的過程。我們最后做下來的話,會話成功率能夠做到90%,這個都是搜狗的自有技術(shù)。
搜狗這次所提供的智能副駕,核心關(guān)鍵點是在于所有的東西全部都是自己的核心技術(shù),能夠確保有最佳的用戶體驗,屬于一個技術(shù)與體驗的閉環(huán)。
(本文部分素材來源于鈦媒體)
{{item.content}}