如今手機(jī)地圖導(dǎo)航推出語音助手雖已成為行業(yè)標(biāo)配，但其使用率和用戶體驗仍然不容樂觀。對此，人工智能能做些什么?

　　如今，手機(jī)地圖導(dǎo)航推出語音助手已經(jīng)成為行業(yè)標(biāo)配，但是效果并不完美，常常出現(xiàn)用戶說話，導(dǎo)航無法識別，或是給出不詳細(xì)，甚至錯誤信息的情況。最關(guān)鍵的是，操作手機(jī)導(dǎo)航可能會引發(fā)交通事故，為行車安全帶來巨大的隱患。

　　那么，如何解決地圖導(dǎo)航的語音使用難題?

　　搜狗地圖總經(jīng)理孔祥來在近日表示，搜狗地圖正在試圖用人工智能技術(shù)來解決這一問題。在今年7月，搜狗地圖推出了“搜狗智能副駕”，基于語音識別、語義理解等人工智能技術(shù)，“搜狗智能副駕”可以通過與駕駛員的多輪對話，了解用戶真實意圖，給出最佳的出行方案和搜索結(jié)果，而整個過程駕駛員也無需分心，可以專注駕駛，保證出行安全。

　　與傳統(tǒng)語音導(dǎo)航解決方案不同的是，搜狗智能副駕所強(qiáng)調(diào)的語音交互，并不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了，而是要通過后續(xù)一系列的語意、地圖層面做一些分析工作，最終給用戶一個正確的反饋結(jié)果。

　　“目前，搜狗智能副駕使用的全部是搜狗自有的人工智能技術(shù)。”孔祥來說。出于這一原因，搜狗智能副駕的相關(guān)技術(shù)能夠像引擎一樣精密協(xié)作，達(dá)到松耦合無法達(dá)成的成功率，加上獨特的語音糾錯功能，已經(jīng)完全可以解放用戶的手眼，在保障安全行駛的情況下自在導(dǎo)航。

　　有專家認(rèn)為，搜狗地圖可能是目前國內(nèi)首家將自主人工智能技術(shù)與地圖導(dǎo)航進(jìn)行結(jié)合的產(chǎn)品。用戶對于導(dǎo)航產(chǎn)品的依賴程度達(dá)到一個空前的水平，與駕駛相關(guān)的導(dǎo)航需求達(dá)到92%，搜狗智能副駕的落地，可以有效改善傳統(tǒng)的導(dǎo)航方式，提供更加便捷安全的駕駛環(huán)境。相信用不了多久，越來越多的用戶都會感受到這份人工智能力量帶來的魅力。

　　以下為孔祥來在鈦媒體 T-EDGE 國際年度盛典上的部分演講實錄：

　　孔祥來：搜狗在過去一年以來在AI領(lǐng)域里面所做的嘗試，即把語音識別技術(shù)、語意理解技術(shù)和地圖導(dǎo)航技術(shù)結(jié)合起來，在汽車場景中向用戶提供內(nèi)容解決方案。

　　現(xiàn)在我們發(fā)現(xiàn)，用戶在車內(nèi)信息交互的需求，其實主要就是兩類，一類是駕駛相關(guān)的，比如說導(dǎo)航、路況、沿途信息等，大概要占到92%。還有一類是互聯(lián)網(wǎng)相關(guān)的，比如說聽音樂、廣播、新聞、聊微信等這些東西，用戶在車內(nèi)的信息交互需求，占比最高的主要就是這兩類。

　　目前，用戶的這種需求是怎么被滿足的呢?在汽車場景里面，凡是用戶想聽歌、打電話的時候，汽車制造商都已經(jīng)為用戶提供了一些解決方案，但是以前主要都是基于物理的這種按鍵或旋紐，很不方便，所以我們也注意到在最近的一兩年里邊，汽車制造商已經(jīng)開始把這種語音識別的技術(shù)引入到車內(nèi)來。

　　語音交互毫無疑問是在車?yán)锩嬉粋€最合理的一種交互方式，因為畢竟你在開車的時候，你的手跟、眼都是屬于被占用的一個狀態(tài)。

　　汽車廠商做出來的語音交互主要問題就是聽不懂，你跟系統(tǒng)絮絮叨叨說了半天，系統(tǒng)只按它自己的邏輯去解釋，你如果不按它的方法來輸入指令的話，它就拒絕配合你。

　　現(xiàn)在除了汽車廠商在提供這種語音交互的這種解決方案之外，互聯(lián)網(wǎng)廠商不是也在做這些事情嗎?有很多的互聯(lián)網(wǎng)廠商現(xiàn)在已經(jīng)開始在自己的車內(nèi)的場景里，比如導(dǎo)航功能中開始植入這種語音交互的能力，互聯(lián)網(wǎng)廠商目前做得怎么樣?

　　導(dǎo)航供應(yīng)商所提供的語音交互的表現(xiàn)主要所反應(yīng)出來的問題其實就是說不清，我們知道語音交互它是個雙向的概念，不光是你說的東西機(jī)器能聽懂，同時機(jī)器也應(yīng)該說人能聽懂的東西，不能當(dāng)人說完了之后，機(jī)器只管把結(jié)果給你列出來，然后讓你再去重新選擇和交互，如果是這樣一種交互方式的話，在車內(nèi)毫無疑問是非常不安全的。

　　所以，我們總結(jié)下來就是，就目前來看，用戶體驗到的語音交互，要么就是聽不懂，要不就是說不清，用戶真正需要的語音交互是什么呢?它是需要一個自然的語言對話，能夠聽懂用戶想要什么，能夠像人一樣地去講出這個答案。下面我們看一下，我們認(rèn)為真正的語音交互應(yīng)該是什么樣的。

　　這就是我們想為大家推出的搜狗智能副駕的一個初衷，我們希望真正能在車內(nèi)，用戶是以這樣一種交互方式去跟系統(tǒng)打交道的，而我們這個產(chǎn)品實際已經(jīng)在7月初的時候發(fā)布了，現(xiàn)在安卓和iPhone手機(jī)都可以下載搜狗地圖，搜狗地圖里面會有一個模式叫做智能副駕，進(jìn)到這個模式之后就可以跟汪仔進(jìn)行語音交互，你可以說出你的需求是什么，它對話的方式大概就是這樣的。

　　你先喚醒它，比如“你好汪仔”，他就會問你要去哪兒，你說去奧森，它知道奧森是有南門跟北門的，于是乎它會說奧森有兩個你去哪一個，是南門還是北門。如果你說南門，最終它就會找到奧森的南門并且自動為你啟動導(dǎo)航。

　　大家不要小看這個簡單的過程，實際上這個過程背后是有非常復(fù)雜的技術(shù)的支撐，才能保證有這樣一個良好的體驗的。在汽車上的一個智能助手，如果想做到一個良好的語音交互體驗的話，我們認(rèn)為有4點需要做到：

　　第一個，聽得對。這是最基本的，當(dāng)用戶說出一段話后能夠正確地轉(zhuǎn)譯成文字。

　　第二個，聽得懂。就是你光聽對了不行，你得知道他想表達(dá)什么，什么意思。

　　第三個，能夠說。幫用戶搜索到結(jié)果反饋后，需要正確地把它表達(dá)出來。

　　第四個，要有相關(guān)非常豐富的知識，否則無法解決想要的問題。

　　我們來看一個實際的例子，比如說用戶對系統(tǒng)說要去某個地方，系統(tǒng)會識別到很多的可能性，進(jìn)入到語意分析環(huán)節(jié)，當(dāng)我們把地圖引入進(jìn)來的時候，決策后會發(fā)現(xiàn)某個地方的概率更高，所以最終分析下來用戶應(yīng)該想去這個地方。

　　我說這個例子是想跟大家說，在聽得對這個環(huán)節(jié)，不是簡單地用語音識別把用戶說的話簡單翻譯過來就結(jié)束了，而是說你要通過后續(xù)的一系列的像語意、地圖層面做的一些分析的工作，然后你才能知道用戶說的哪一個是對的。通過這個例子就能發(fā)現(xiàn)，我們通過語意和地圖的糾錯，使最終系統(tǒng)選出了正確的目的地。

　　像我們剛才在視頻里看到的一些例子，比如你想在路上順便加油、吃麥當(dāng)勞等行為，目前在搜狗一個龐大的語意網(wǎng)絡(luò)里面，已經(jīng)能夠聽懂10萬個類似像這樣的語意路徑，也就說你表達(dá)一種需求，你可能有不同的說法，在語意分析引擎這邊，它能夠兼容很多種說法，現(xiàn)在我們整個的對話路徑已經(jīng)超過了10萬個。

　　接下來我們來看看，比如說在傳統(tǒng)語音交互里面，你說你要去首都機(jī)場的時候，它會說我給你找到5個目的地，我們的做法是直接精簡成你要去哪個航站樓或者航班號(這樣只有15個字)，這種方式就是用戶所能接受的非常自然的語音交互。

　　所有的這些能夠聽得懂，是建立在一個非常重要的基礎(chǔ)上，我們對地圖數(shù)據(jù)做了非常重要的重構(gòu)，我們把這個稱之為主子關(guān)系，我們大概能夠挖掘出500多萬的主子關(guān)系。

　　除了主子關(guān)系還有所謂的容器關(guān)系(比如說搜狗公司在搜狗網(wǎng)絡(luò)大廈里面)，還有很多的商圈地片，當(dāng)你說你要去大鐘寺的時候，不是簡單給你導(dǎo)到大鐘寺地鐵站，而是問你要去大鐘寺的什么地方，這些都是我們定義的叫做地圖知識。

　　除了地圖知識之外還有很多跨域的知識，像航班、洗車、車站等都是我們所謂的有知識的范疇。傳統(tǒng)模式的語音基本上是這樣一個漏斗的模型：

　　第一級：語音識別率。

　　第二級：受限于語意理解的正確率。

　　第三級：受限于搜索的正確率。

　　最終一個漏斗剩下來，會話的成功率只有68.4%，大家可能會疑問怎么第一個環(huán)節(jié)語音識別正確率只有80%，這是因為現(xiàn)在有很多的語音的識別雖然都說自己的所謂字正確率能夠達(dá)到90%幾，但是你一旦把它變成一個句子的話，馬上迅速地識別率就會下降下來。

　　而搜狗這邊的做法是，每一級我們都會有一個糾錯，都會根據(jù)后面的結(jié)果對前面進(jìn)行反向糾錯的過程。我們最后做下來的話，會話成功率能夠做到90%，這個都是搜狗的自有技術(shù)。

　　搜狗這次所提供的智能副駕，核心關(guān)鍵點是在于所有的東西全部都是自己的核心技術(shù)，能夠確保有最佳的用戶體驗，屬于一個技術(shù)與體驗的閉環(huán)。

　　(本文部分素材來源于鈦媒體)