3sNews訊 為期兩天的2012地理信息開發(fā)者大會(簡稱:WGDC)在北京國家會議中心舉行,本次大會以“新技術(shù)、新模式、新商業(yè)”為主題,是地理信息領(lǐng)域最具影響力的技術(shù)性盛會,其宗旨是不斷引領(lǐng)和促進地理信息技術(shù)的創(chuàng)新與變革。在第二天的“Telematics與車載智能終端”分會場,捷通華聲語音技術(shù)有限公司總經(jīng)理武衛(wèi)東發(fā)表了題為《靈云——感知Telematics服務(wù)》的演講。
以下為文字實錄:
大家下午好!今天非常有幸,能跟大家一起探討在智能人機交互技術(shù)與Telematics應(yīng)用的一些研究。今天在我前面有兩位都是從事語音行業(yè)的資深企業(yè),也是很有幸第一次同臺給大家展現(xiàn)國內(nèi)目前在語音領(lǐng)域里幾家技術(shù)的觀點和意見。但是我想大家的目的是一樣的,都是希望通過這樣一個同臺的交流,能夠在語音技術(shù)包括交互技術(shù)上,在Telematics上有共同的發(fā)展。
捷通華聲是專注于語音識別和手寫等技術(shù)的公司,目前經(jīng)過十幾年的發(fā)展,公司在語音行業(yè)和手寫行業(yè)已經(jīng)發(fā)展了上千家合作伙伴。目前,我們在語音技術(shù)市場已經(jīng)有50%市場占有率,手寫領(lǐng)域已經(jīng)有30%幾的市場占有率。同時公司不僅是在核心技術(shù)這塊,我們在一些增值服務(wù)方面,公司這么多年我們也有與中國電信、中國移動、中國聯(lián)通建立了很好的合作。比如中國電信CDMA的業(yè)務(wù)的合作。公司經(jīng)過多年的發(fā)展,我們總結(jié)公司的使命和愿景就是我們希望通過智能人機交互技術(shù)能夠切實的使人與機器的交流向人與人交流一樣的簡單起來。
下面是我們在各地的一些分公司;這是一些有關(guān)鍵影響的事件。我給大家分享一下在這些事件中我們的語音合成技術(shù)所起的作用。第一個就是08年奧運會,我們參與了很多語音支撐服務(wù)平臺的項目,而且這個項目在奧運會中實際的發(fā)生了作用。第二個就是高鐵,目前為止全國高體站立有2、3百個捷通華聲高鐵百分之百的站廳使用了我們的技術(shù),還有世博會的我們的語音識別系統(tǒng)的應(yīng)用。還有廣州亞運會的應(yīng)用。因為捷通華聲本身這些年我們在這個產(chǎn)業(yè)內(nèi)建立了很多合作伙伴,我們一直做的技術(shù)都是在背后,可能大家在生活中會聽到,比如銀行或者呼叫中心聽到過我們一些語音聲音的播報,但是不知道是哪家公司。所以今天有機會跟產(chǎn)業(yè)界的同仁包括開發(fā)者有機會見面。
(這個片子)是我們這些年在汽車的前裝市場、后裝市場、地圖導(dǎo)航,包括手機終端這些廠商的一些導(dǎo)航應(yīng)用廠家的合作伙伴案例。隨著現(xiàn)在移動互聯(lián)網(wǎng)包括云計算的發(fā)展,現(xiàn)在越來越多的設(shè)備比如手機也好、PAD也好,包括車載終端也好,等等這些設(shè)備,人跟設(shè)備之間的交互情況越來越多。人跟設(shè)備使用體驗的要求越來越高。所以從捷通來講,我們也是總結(jié)多年以來做智能人機交互技術(shù)方面的經(jīng)驗,包括在產(chǎn)業(yè)上的一些案例。我們也切實感覺到,如果說像過去的僅僅是提供一些核心技術(shù),像提供一些SDK,大家開發(fā),已經(jīng)無法滿足日益需要的人機交互的要求。所以在2011年捷通公司也是經(jīng)過長時間的準(zhǔn)備,我們推出了在國內(nèi)第一個基于智能人機交互技術(shù)的全方位的云平臺—靈云”。因為現(xiàn)在設(shè)備,包括智能設(shè)備,包括智能手機,我們也感覺信息量越來越大,要操作的東西越來越多,要找的東西越來越多。但是有時候感覺東西太多了,不知道怎么用。我們做這個靈云平臺,希望通過靈云讓人能夠感知機器,同時機器也能夠感知人,切實的讓這些智能終端稱之為智能。所以靈云是讓機器和人之間能夠感知,這是我們開發(fā)這個靈云平臺的目的。靈云平臺不僅僅是人機智能交互技術(shù),其實還有一個一個RO系統(tǒng),因為現(xiàn)在大家都提倡個性化,這個個性和如何體驗?其實云服務(wù)、云計算,這方面提供了一個非常好的通道,一個平臺。我們在靈云里設(shè)置了RO系統(tǒng),把人的一些行為和喜好和需求,通過你在跟系統(tǒng)進行交互的時候,能夠把它記錄下來,總結(jié)出來。形成一個個性化的系統(tǒng)。比如說你喜歡經(jīng)常聽一聽NBA的消息,通過語音的方式或者其他的交互手段,你經(jīng)常喜歡的是體育類的消息,這樣后臺可以在RO系統(tǒng)里,把你的喜好記錄下來。將來會經(jīng)常的把有關(guān)這方面的消息給你從靈云互聯(lián)網(wǎng)上根據(jù)搜索,給你提供方便。
包括出行的時候可能經(jīng)常有一些常去的地方,這樣也會把你今后常去的地方的信息點,包括周圍的一些服務(wù)等等記錄下來,推送給你。這樣給人帶來一些個性化的變化,這個平臺實際上就是靈云平臺的核心點。
靈云的架構(gòu):這個平臺的作用已經(jīng)整合了,包括今后我們還會整合更多的成熟的核心人機交互技術(shù)的能力。比如說手寫識別、包括機器翻譯、人臉識別、指紋、筆跡鑒定,我們靈云平臺都完全了整合。我們靈云平臺發(fā)布的時候,我們今后會把類似像腦波識別,為此還有一些爭議,其實現(xiàn)在腦波識別在美國加州已經(jīng)有一些地方在進行,當(dāng)然這樣的技術(shù)還有待成熟,但是想我類似這樣的技術(shù)都是人和機器能夠交互的技術(shù)。我們捷通華聲公司除了自己擁有的核心技術(shù)放在上面之外,我們還會建立廣泛的合作,把這些真正能夠解決人們生活、工作中能夠提升人們的好的感知技術(shù)整合在一起,讓大家分享,讓大家去用。
剛才講了在我們的生活中人機交互技術(shù)無處不在,剛才大家也聽到了云本身就像自來水一樣,隨時開的。現(xiàn)在人機智能交互技術(shù)已經(jīng)滲透到人的各個環(huán)節(jié)。比如我們現(xiàn)在靈云提供的,識別、合成、手寫包括OCR等等這些技術(shù),機械翻譯、指紋,這些技術(shù)目前從核心上來講,很多地方特定領(lǐng)域已經(jīng)有了很成熟的應(yīng)用。在今后,比如我們開發(fā)者做這方面的工作的時候應(yīng)該有更奪得創(chuàng)意和想法,能夠利用這些技術(shù)服務(wù)我們生活的各個方面。
其實靈云的應(yīng)用也是非常廣泛的,包括交通、金融、電信、能源這些行業(yè)都可以有廣泛的應(yīng)用。
中國的Telematics服務(wù)。說實話我對Telematics服務(wù)這塊,我們不敢在眾多的專家和朋友中間“賣弄”,我們感覺Telematics服務(wù)作為一個新興事物,現(xiàn)在已經(jīng)有很多東西開始影響人們的生活。但是還有空間。我們認(rèn)為真正一個好的東西能夠達到好用和易用這個水平,還是要有一些關(guān)鍵地方的突破。這個關(guān)鍵地方的突破在哪兒,其中有一點我們認(rèn)為是,現(xiàn)在能提供的人機交互的感知能力相關(guān)。因為蘋果公司,喬布斯的偉大在于他把人的需求挖掘出來了。實際上從計算信息時代從鍵盤鼠標(biāo)到多點觸控,到現(xiàn)在的發(fā)展,人們感覺到不僅僅是設(shè)備,或者是一個應(yīng)用,更大的是一種感知,人對這個設(shè)備使用的快感的影響。所以開玩笑的講有時候蘋果的設(shè)備2歲的小孩子不用教他,讓他玩他就能玩兒,這很有意思。這是人潛能當(dāng)中存在的需求被挖掘出來了。那么靠什么,實際上人機交互技術(shù)起著非常關(guān)鍵的作用。
Telematics服務(wù)里面可以在導(dǎo)航方面利用這些人機交互去做比如做位置的搜索、路線的導(dǎo)航、路況信息的播報,也可以在服務(wù)方面做一些呼叫中心的服務(wù)、包括車況、防盜的監(jiān)控。資訊方面,從整個車載終端角度來講,車載終端相當(dāng)于是一個跟人相關(guān)的功能化中心。這個中心可以集結(jié)很多來自于移動互聯(lián)網(wǎng),包括各種各樣生活資訊的信息。從手段方面,比如車內(nèi)打電話或者發(fā)短信等等這些都可以利用人機交互技術(shù)去實現(xiàn)。
我剛才在臺下聽王總講結(jié)構(gòu)化思路的時候我也非常認(rèn)同,我們在接觸一些國內(nèi)和國外的車廠方案的時候,他們也說,說你們的手寫能不能提供,我們后來給他提供方案他們覺得技術(shù)不錯,但是應(yīng)用太過復(fù)雜。后來他們提出來,開著車的時候,只要換檔的時候加一個觸屏是可以寫東西的,或者加強一個手勢可以做一些簡單處理,甚至比人說話還方便。甚至包括車的安全,比如能不能加一些人臉、或者指紋,等等這些東西不是我們提出來的,實際上目前應(yīng)用方面來講,切切實實是我們行內(nèi)的很多同仁、一般技術(shù)的牛人提出來這樣的設(shè)想。我們覺得這個確實有它可挖掘的空間。
智能助手—小唐龍:語音識別大家在理解SIR的時候,大家覺得語音識別真力求這個“小唐龍”,華人圈里第一個做語音識別的人,我們曾經(jīng)拜訪過,也交流過,也算是一個泰斗機的人物,他說現(xiàn)在看到的SIR有點太熱了,因為首先第一現(xiàn)在還沒有來中國,可能中國語言太復(fù)雜了。捷通華聲公司這么多年發(fā)展我們是腳踏實地的往前走,因為有些應(yīng)用不可能達到技術(shù)的高度。這個觀點我同意70%,在語音交互這個領(lǐng)域應(yīng)用中,其實語音識別所起的作用不足30%,這一點來講,剛才我看到王總也提了一些思路,我也非常認(rèn)同,這個觀點不是我的觀點,這是觀點是我發(fā)現(xiàn)大家都有這樣的說法。在實際應(yīng)用實踐中,其實應(yīng)用和技術(shù)之間的連接如果是簡單的硬連接,往往有時候達不到實際好的效果。語音識別按照自然語言理解,實際上99年IBM就推出了一個語音識別,你正常說話就能做的很好。大家覺得語音識別能解決很多問題,但是事實上語音識別的應(yīng)用你要把它用到一個特定的環(huán)境下,特定的語境下用特定的方式才能使用這個技術(shù),如果把這個技術(shù)用到各種領(lǐng)域有可能這個美麗的泡影還會倒推十年。我相信同行大家這樣的認(rèn)識。我們當(dāng)時做的時候也意識到這點了,所以我們是把人工智能、語音識別和各種人機交互手段來共同解決這個問題。我們小唐龍能夠做到人的體驗的高度,我們做一些應(yīng)用的時候,尤其是在一些領(lǐng)域進行應(yīng)用的時候,因為捷通華聲商業(yè)模式業(yè)務(wù)模式中我們提供技術(shù)你去用,但是經(jīng)過十年甚至是十幾年的驗證,我們在傳統(tǒng)的CPI行業(yè),上了這么多的語音識別,到現(xiàn)在沒有看到一家真正的脫離開人的方式,完全以語音方式實現(xiàn)的項目。甚至很多項目上了就下來了。所以我們做“小唐龍”的時候,希望在端上能給大家展現(xiàn)一個新的應(yīng)用。
我們“小唐龍”有九個變身,一個是汽車龍,我們希望跟專業(yè)的融合。另外就是導(dǎo)航龍,其實汽車龍和導(dǎo)航龍是一個龍,能夠結(jié)合導(dǎo)航類的和車內(nèi)娛樂的一些應(yīng)用。簡單演示一下“小唐龍的案例”。這是自然語言的識別,不是基于語言的識別。實際上現(xiàn)在通過智能的人機交互技術(shù),真正能夠完成“一步式到位”。
我的演講就到這里,謝謝大家!
(以上內(nèi)容根據(jù)速記整理,未經(jīng)本人審核)
{{item.content}}