近日,有消息稱,谷歌已經(jīng)公布了一個(gè)新的圖像字幕系統(tǒng),它可以智能識(shí)別照片上的內(nèi)容,并自動(dòng)對(duì)它用自然語(yǔ)言進(jìn)行描述并標(biāo)記。雖然之前已經(jīng)有智能系統(tǒng)可以自動(dòng)標(biāo)記圖像,識(shí)別出其中的某個(gè)物體,但谷歌的這項(xiàng)技術(shù)可以描述得更全面,比如它的描述可能是“兩只狗在草地上玩”或“帶粉紅色帽子的小女孩在吹泡泡”等。這可以說(shuō)是人工智能/人工學(xué)習(xí)領(lǐng)域的一次重大突破,因?yàn)樵撥浖到y(tǒng)是谷歌使用大規(guī)模模擬神經(jīng)元處理數(shù)據(jù)的最新研究成果。沒(méi)有人對(duì)識(shí)別場(chǎng)景的規(guī)則進(jìn)行編程,這一神經(jīng)網(wǎng)絡(luò)是自己“學(xué)”會(huì)處理數(shù)據(jù)的。看來(lái)人工智能也并不總是讓人擔(dān)心會(huì)毀滅人類,或許還能在晚上捧著兒童繪本給小孩子們講講睡前故事什么的,是不是也挺讓人暖心的呢?
傳統(tǒng)圖像識(shí)別的困境
現(xiàn)在我們已經(jīng)應(yīng)用的成熟圖像識(shí)別技術(shù)采用的是“模板匹配”的算法,按照信息的獲取——預(yù)處理——特征抽取和選擇——分類器設(shè)計(jì)——分類決策這樣的順序進(jìn)行識(shí)別。聽起來(lái)似乎還不錯(cuò),識(shí)別的準(zhǔn)確性也確實(shí)很高,不少掃描儀就是采用這樣的算法來(lái)識(shí)別文字的。但這種模型強(qiáng)調(diào)圖像必須與模板完全符合才能加以識(shí)別,而事實(shí)上人不僅能識(shí)別與腦中的模板完全一致的圖像,也能識(shí)別與模板不完全一致的圖像。例如,人們不僅能識(shí)別某一個(gè)具體的字母A,也能識(shí)別印刷體的、手寫體的、方向不正的、大小不同的各種字母A。同時(shí),人要識(shí)別的圖像是大量的,如果要求所識(shí)別的每一個(gè)圖像在腦中都有一個(gè)相應(yīng)的模板,那也是不可能的。這是模板識(shí)別天生的阿格硫斯之踵,也是很多辭書類APPs可以通過(guò)攝像頭直接識(shí)別書本上的文字并翻譯,但卻對(duì)你的手寫體視若無(wú)睹的原因。
筆者的老師中就有從事交通標(biāo)志識(shí)別研究的,主要工作就是在數(shù)量巨大的圖片中找到交通標(biāo)志,并對(duì)其加以識(shí)別。聽起來(lái)和目前已經(jīng)頗為成熟的車牌號(hào)碼識(shí)別技術(shù)沒(méi)有什么區(qū)別,但在實(shí)際操作中卻表現(xiàn)得異常困難。同一地點(diǎn)不同時(shí)間的圖片往往不能夠完美地識(shí)別出相同的結(jié)果,圖像上來(lái)自各方的干擾往往也難以準(zhǔn)確地排除。這些問(wèn)題都是由模板識(shí)別造成的。雖然目前已經(jīng)有較為先進(jìn)的汽車開始裝配交通標(biāo)志識(shí)別系統(tǒng),但圖像識(shí)別在其中的作用并不大,汽車所以能夠識(shí)別交通標(biāo)志,主要是依賴交通部門和汽車公司的數(shù)據(jù)與離線地圖提供商的地理信息系統(tǒng)進(jìn)行匹配而取得的,圖像識(shí)別只是一個(gè)有益的補(bǔ)充而已。
圖像識(shí)別在中國(guó)
說(shuō)到中國(guó)市場(chǎng)上的圖像識(shí)別/處理公司,微軟與漢王絕對(duì)是不能不提的。除了雙方都做得不錯(cuò)的漢字手寫識(shí)別(目前,漢字的手寫識(shí)別依然是基于模板識(shí)別算法的,不過(guò)加入了更加高級(jí)的模糊模式——相似性識(shí)別技術(shù))外,漢王的生物識(shí)別技術(shù)與微軟的大數(shù)據(jù)處理技術(shù)都在社會(huì)生產(chǎn)生活中得到了充分的應(yīng)用。漢王推出的各類指紋、面部識(shí)別打卡機(jī)真是“引無(wú)數(shù)白領(lǐng)盡折腰”啊!微軟在上海的大數(shù)據(jù)處理中心也是中國(guó)實(shí)用性最強(qiáng)的農(nóng)業(yè)大數(shù)據(jù)處理中心之一,不少農(nóng)業(yè)研究所都會(huì)將自家的數(shù)據(jù)交給他們處理。
我曾經(jīng)有幸參觀過(guò)一所農(nóng)業(yè)大數(shù)據(jù)研究所,他們?cè)趯?shí)驗(yàn)地區(qū)布置了大量的攝像頭以檢測(cè)麥田的生長(zhǎng)狀況,沒(méi)有安裝攝像頭的農(nóng)戶也可以通過(guò)智能手機(jī)將麥田的圖像上傳到云端。這些圖像會(huì)由研究所的專家進(jìn)行分析后再將結(jié)果反饋給農(nóng)戶。僅僅幾百個(gè)攝像頭,幾十部智能手機(jī)就代替了過(guò)去需要數(shù)十名農(nóng)技人員親自下田勘察才能得來(lái)的數(shù)據(jù)與報(bào)告。而最終這些圖像、數(shù)據(jù)會(huì)被發(fā)送至位于上海的微軟大數(shù)據(jù)處理中心進(jìn)行綜合處理,計(jì)算機(jī)會(huì)根據(jù)圖像、數(shù)據(jù)做出判斷,精確地測(cè)算出這一年的產(chǎn)量或者遭遇病蟲害的風(fēng)險(xiǎn)。這些技術(shù)的應(yīng)用理應(yīng)使人感動(dòng),它們真真切切地證明了科技使生活更美好。
谷歌與圖像識(shí)別
此次的圖像字幕技術(shù)讓谷歌在圖像識(shí)別領(lǐng)域又進(jìn)了一步。早在谷歌還沒(méi)有撤出中國(guó)市場(chǎng)的時(shí)候,谷歌就曾推出過(guò)圖像搜索引擎。雖然準(zhǔn)確率總不能讓人滿意,且還會(huì)搜索出一些完全沒(méi)有聯(lián)系的圖片,但在當(dāng)時(shí)的確不失為一個(gè)創(chuàng)舉。盡管不少網(wǎng)友都曾調(diào)侃“敢不敢把自己的照片谷歌一下”,但就我進(jìn)行的幾次實(shí)驗(yàn)而言,谷歌圖片搜索還是有一定準(zhǔn)確度的,它曾經(jīng)成功地通過(guò)我拍攝的黃浦江的照片搜索出了許多上海的夜景照片。
如果此次的消息屬實(shí),谷歌的圖像字幕技術(shù)已經(jīng)擁有了近乎人類的識(shí)別能力的話,那么該技術(shù)將會(huì)把整個(gè)圖像識(shí)別技術(shù)領(lǐng)域推向更高的層次。我們可以想象,在未來(lái),這項(xiàng)技術(shù)也許可以被用在盲人導(dǎo)盲或者閱讀上,這是一個(gè)非常了不起的成就。而且由于這項(xiàng)技術(shù)所具有的“可能性”——沒(méi)人對(duì)識(shí)別場(chǎng)景的規(guī)則進(jìn)行編程,這一神經(jīng)網(wǎng)絡(luò)是自己“學(xué)”會(huì)處理數(shù)據(jù)的——我們有理由相信其還可以發(fā)揮更多更加奇妙的作用。
真正的人工智能時(shí)代,來(lái)了!
{{item.content}}