777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

分享
Scan me 分享到微信

王立劭:一種入口,兩個(gè)引擎,三個(gè)緯度

為期兩天的2012地理信息開發(fā)者大會(huì)(簡(jiǎn)稱:WGDC)在北京國家會(huì)議中心舉行,在第二天的“Telematics與車載智能終端”分會(huì)場(chǎng),深圳車音網(wǎng)科技有限公司總經(jīng)理王力劭發(fā)表了題為《基于地理信息的非結(jié)構(gòu)化語音識(shí)別搜索技術(shù)》的演講。

  3sNews訊 為期兩天的2012地理信息開發(fā)者大會(huì)(簡(jiǎn)稱:WGDC)在北京國家會(huì)議中心舉行,本次大會(huì)以“新技術(shù)、新模式、新商業(yè)”為主題,是地理信息領(lǐng)域最具影響力的技術(shù)性盛會(huì),其宗旨是不斷引領(lǐng)和促進(jìn)地理信息技術(shù)的創(chuàng)新與變革。在第二天的“Telematics與車載智能終端”分會(huì)場(chǎng),深圳車音網(wǎng)科技有限公司總經(jīng)理王力劭發(fā)表了題為《基于地理信息的非結(jié)構(gòu)化語音識(shí)別搜索技術(shù)》的演講。

  以下為文字實(shí)錄:

  非常感謝各位在一個(gè)昏昏欲睡的時(shí)段還能堅(jiān)持在聽我們的演講,也非常感謝地理信息開發(fā)者大會(huì)給我們這樣的機(jī)會(huì)去展示一下自己的應(yīng)用。

  首先闡述一下什么叫Telematics,Telematics我們認(rèn)為就是在移動(dòng)過程當(dāng)中通過移動(dòng)互聯(lián)網(wǎng)獲取信息的服務(wù)。其中地理信息尤其是位置信息的獲取是動(dòng)態(tài)的,這就是Telematics。這是我們從市場(chǎng)上獲得的真實(shí)的Telematics用戶資料數(shù)據(jù),可以看到服務(wù)商全部的服務(wù)位置查詢占75%,位置服務(wù)查詢價(jià)值大概是在40%,在這樣的服務(wù)里面可以看到兩個(gè)信息,第一個(gè)信息,重大服務(wù)當(dāng)中基于位置服務(wù)的查詢和獲取是一個(gè)非常強(qiáng)烈的需求。第二,高端車德威治信息獲取需求強(qiáng)于一般車主的這說明高端車主可能跑的地方更多一些所以這樣的需求更多。

  基于這樣的服務(wù)重要性,我把整個(gè)結(jié)構(gòu)變成了一種入口、兩個(gè)引擎。

  一種入口,包括GUI是鍵盤鼠標(biāo)和屏幕的交互,一種是VUI,就是語音與界面的交互。VUI用的是口和耳的交互,通過語音識(shí)別之后在的聲音獲取,這個(gè)口和耳使人和機(jī)器更進(jìn)一步。

  兩個(gè)引擎。在語音識(shí)別過程中目前有兩類引擎,講這兩個(gè)引擎之前我先做一個(gè)結(jié)構(gòu)化搜索和非結(jié)構(gòu)化搜索的介紹。比如我們想搜索雍和宮2室100萬到150萬的房子,我們首先搜索雍和宮,然后是1號(hào)線或者2號(hào)線等等,這是結(jié)構(gòu)化的搜索。非結(jié)構(gòu)化搜索是后臺(tái)引擎進(jìn)行過濾,提取重要的信息進(jìn)行搜索。這也掀起了互聯(lián)網(wǎng)時(shí)代的革命,所以非結(jié)構(gòu)化搜索是通過入口完成的。語音識(shí)別的一般原理,比如用戶想去國家會(huì)議中心,我們通過聲音傳遞獲取之后,后端要識(shí)別出來,識(shí)別出來之后會(huì)得到相應(yīng)的說詞然后是語音處理,之后再通過語音智能通過模型分詞預(yù)取你的動(dòng)機(jī)。動(dòng)詞是要去,目標(biāo)是國家會(huì)議中心。這個(gè)過程之后系統(tǒng)會(huì)自動(dòng)起動(dòng)導(dǎo)航和定位?;谶@樣的一般原理非結(jié)構(gòu)化搜索我們提出了兩種引擎,一種是通用的引擎,它通過語音識(shí)別將用戶的動(dòng)機(jī)獲取到,獲取到之后再通過知識(shí)庫提取你的意思,把它分成兩個(gè)階段,這個(gè)更著眼于識(shí)別的技術(shù)和AI的推理,是屬于演繹性的歸納?,F(xiàn)在作為以我們的理解來看,目前機(jī)器智能程度還沒有達(dá)到一個(gè)算法可依突破的極限,所以基于這種理解,我們玩一玩可以,但是深度利用還是有一定的問題。

  這種引擎能力被大大的縮小了,但是專門的領(lǐng)域里,它的準(zhǔn)確度和可用度卻是大大提高。這是我們最近研究的垂直領(lǐng)域引擎這種方式是基于實(shí)際的統(tǒng)計(jì),用戶到底會(huì)在某一個(gè)領(lǐng)域里說哪一些詞或者哪些句式形成的引擎。比如有這樣一個(gè)表格,橫向是表達(dá)方法,越靠近左邊的表達(dá)方法越常用,右邊的可能只有一兩個(gè)人想說的。比如更多的人可能會(huì)說,我想去哪兒,也有不少人你帶我到哪兒,可能很少有人說什么地方在哪兒,你能不能帶我去,這樣的人很少。所以構(gòu)成了這樣一個(gè)曲線,這個(gè)就是我們要處理語音的所有的內(nèi)容。我們把所有的地名,再加上問詢地名所有的方法,構(gòu)建起來以后最終形成一個(gè)封閉的數(shù)據(jù)和識(shí)別的空間。這個(gè)空間如果講識(shí)別,最后用戶效果其動(dòng)態(tài)就是高準(zhǔn)確率和低相應(yīng)時(shí)間的。

  3個(gè)緯度。一個(gè)是SOLOMO,一個(gè)是LBS,一個(gè)是O2O。第一種方式是會(huì)議中心在哪兒?第二種方式就是會(huì)議中心附近都有什么酒店或飯店?這是我們所求的一個(gè)點(diǎn),第三種方式,從會(huì)議中心到雍和宮怎么走?我們可以通過一種模式求得一條路徑,這是一種查詢方式。另一種方式這是典型位置的社交,比如現(xiàn)在很多線下應(yīng)用,要么通過地理信息的應(yīng)用形成O2O?;谶@樣的理論,我們提出了地理信息在非結(jié)構(gòu)化語音搜索里面的三個(gè)緯度。第一個(gè)緯度是“實(shí)體內(nèi)涵”就是里求得的位置和名稱是什么,經(jīng)緯度在哪兒。第二個(gè)緯度是“外延”。就是找某一個(gè)酒店或者找某一類餐館、咖啡廳、加油站等等,通過實(shí)體的外延進(jìn)行的搜索。第三個(gè)緯度“是通過熱度搜索”比如我們看更多人所關(guān)注的飯店,這是通過熱度進(jìn)行搜索。所有基于語音非結(jié)構(gòu)化搜索最終都是由這三個(gè)緯度體現(xiàn)的。

  基于這樣的一種應(yīng)用最后系統(tǒng)構(gòu)成是什么樣的,基于這個(gè)系統(tǒng)的視角我們可以看到語音輸入通過移動(dòng)互聯(lián)網(wǎng)、IVR、把語音送到了識(shí)別器,由識(shí)別器進(jìn)行了處理,然后再通過并行的搜索方式,軟件通過并行的方式,硬件通過網(wǎng)格計(jì)算、負(fù)載均衡,最后通過熱度排序反饋給用戶最需要的結(jié)果。這是非結(jié)構(gòu)化在地理信息上典型的應(yīng)用。

  從用戶視角,用戶可以說周邊的加油站在哪兒,就是系統(tǒng)識(shí)別和搜索所得到的一系列的加油站,這些加油站有可能會(huì)按照價(jià)格最低、用戶到達(dá)頻率最高、或者用戶評(píng)價(jià)指數(shù)最高這樣的方式排序,最后給用戶。用戶此時(shí)所獲得的信息就是通過檢索獲得的,這個(gè)信息對(duì)他來說是最有用的。

  這樣一個(gè)平臺(tái)大致的結(jié)構(gòu)。四層:

  一是基于語音特征庫的,如果在車載產(chǎn)品尤其導(dǎo)航服務(wù)中,能夠讓語音產(chǎn)品介入,其實(shí)更在意的時(shí)候口音容忍度和抗音性,我們花了大量時(shí)間形成了語音特征庫。有語法庫和搜索引擎,在引擎之上可以通過網(wǎng)絡(luò)和IVR引入我們的數(shù)據(jù),在應(yīng)用平臺(tái)層可以提供數(shù)據(jù)挖掘、數(shù)據(jù)下發(fā)等等。第三層,我們提供了供車載環(huán)境的接口,能夠輕易的做APP,這個(gè)平臺(tái)可以是租用的方式調(diào)用。

  最后我想講五個(gè)問題。實(shí)際上語音識(shí)別作為目前全球能夠掌握的并不多的高端識(shí)別技術(shù),語音識(shí)別能夠達(dá)到的可用性和未來發(fā)展空間,我們認(rèn)為還有很多工作要做。語音識(shí)別只能用在最合適的平臺(tái)和環(huán)境,如果超越了語音識(shí)別本身的特性,目前的局限性我們不承認(rèn)的話,會(huì)帶來很多問題。我們實(shí)際跟車廠服務(wù)和車主服務(wù)最難解決的五個(gè)問題:

  1、口音問題,2、實(shí)體別名,自然交互的語音意圖,信源錯(cuò)誤,信源干擾下的容錯(cuò)算法。

  第一個(gè)是語音識(shí)別真正做到很好的應(yīng)用還有口音的問題;第二個(gè)是實(shí)體別名的問題,我們愛聽一段錄音,這是很典型的別名問題,比如央視主樓有一個(gè)大家耳熟能詳?shù)膭e名,這種別名我們?nèi)绾螀^(qū)分,這也是一個(gè)問題。我們處理過1500萬的POI,深度挖掘,發(fā)現(xiàn)15%到25%左右存在著別名的叫法,這對(duì)語音識(shí)別來說是很難很難達(dá)到的。

  第三個(gè)是自然交互的語音意圖。比如在南昌,我說請(qǐng)導(dǎo)航到北京飯店,按照這個(gè)話搜索原理會(huì)分詞猜測(cè)你的意圖,發(fā)現(xiàn)是北京,在南昌搜北京飯店,可以有這樣一條路到達(dá),但是非結(jié)構(gòu)化搜索很有可能是你穿越了大半個(gè)中國到了北京,所以這也是我們的一個(gè)課題,也是我們正在攻克的難題。

  第四個(gè)信源錯(cuò)誤,信源本身發(fā)生的不可確定的情況下語音識(shí)別是沒有辦法解決的,它是信源發(fā)生錯(cuò)誤后臺(tái)OI同時(shí)發(fā)生錯(cuò)誤的現(xiàn)象。

  還有一個(gè)就是信源干擾下的容錯(cuò)算法,就是信來周圍發(fā)生了一種語音干擾進(jìn)來的時(shí)候,那出現(xiàn)的問題并不可預(yù)知。所以語音搜索未來達(dá)到實(shí)用小首先要突破的重要問題是這五個(gè)。我們認(rèn)為雖然面臨這樣的一些難題,但是我很開幕式的那個(gè)大片的一句話說“人類的視野從最早木取可視的范圍之內(nèi),能夠發(fā)展到今天能夠以上帝的眼光俯視世界”,隨著搜索技術(shù)和非結(jié)構(gòu)式搜索的到來,我們認(rèn)為基于地理信息的語音識(shí)別系統(tǒng),沒有什么是不可能的,謝謝!

  (以上內(nèi)容根據(jù)速記整理,未經(jīng)本人審核)

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評(píng)論

【登錄后才能評(píng)論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦