777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

2025全球時(shí)空智能大會
5月21-22日 北京
開幕在即!WGDC25全球時(shí)空智能大會完整日程公布
即刻注冊  鎖定席位
分享
Scan me 分享到微信

如何用圖像識別技術(shù)來變革商業(yè)?這里有份操作指南

如何用圖像識別技術(shù)來變革商業(yè)?這里有份操作指南

  近期 Facebook F8 開發(fā)者大會上,馬克·扎克伯格發(fā)布了一項(xiàng)野心勃勃的人工智能計(jì)劃“建立一套在感知方面比人類更好的系統(tǒng)”。此外,他還展示了一項(xiàng)令人印象深刻的圖像識別技術(shù)——通過用語音解說的方式讓盲人“看到”圖片里的內(nèi)容。

  從幫助視覺受損的人到識別大型動(dòng)物的車內(nèi)安全功能(注:沃爾沃開發(fā)的自動(dòng)化安全技術(shù)),再到自動(dòng)組織無標(biāo)簽的圖片集以及從社交網(wǎng)絡(luò)分享的圖片中提取出商業(yè)洞見,圖像識別或計(jì)算機(jī)視覺的好處才剛剛開始展現(xiàn)——但它們正在變得更快更深入。

  即將到來的 LDV Vision 峰會是展示所有視覺技術(shù)的年度會議,從虛擬現(xiàn)實(shí)到醫(yī)療成像和內(nèi)容分析。“最近,計(jì)算機(jī)視覺的進(jìn)步在圖像分析領(lǐng)域創(chuàng)造了巨大機(jī)會,給每個(gè)垂直商業(yè)領(lǐng)域帶來的影響呈指數(shù)級增長,包括自動(dòng)化、廣告和增強(qiáng)現(xiàn)實(shí)等。”LDV Capital(本次峰會組織者)的 Evan Nisselson 說到。

  像自然語言處理、生物信息學(xué)、博弈論等其他人工智能形式一樣,計(jì)算機(jī)視覺也在很大程度上得益于開源、深度學(xué)習(xí)、用戶友好的編程工具,以及更快、更便宜的計(jì)算能力。

  很多人都認(rèn)為深度學(xué)習(xí)和人工智能將成為下一個(gè)重大突破,但從更加具體和實(shí)用的角度來說,這些不同的工具應(yīng)該如何工作?應(yīng)該通過何種方式將可商用的圖像技術(shù)帶給全世界?谷歌的 TensorFlow 與 Facebook 的 DeepFace 或者微軟的“牛津計(jì)劃”一樣嗎?為了幫大家分辨這些東西,下面是對當(dāng)前圖像技術(shù)工具和商業(yè)使用方法的簡要說明。

  訓(xùn)練素材:公開數(shù)據(jù)

  得益于深度學(xué)習(xí),計(jì)算機(jī)能夠比以往更快更精準(zhǔn)的識別圖片,但它們需要大量數(shù)據(jù)。

  ImageNet 和 Pascal VOC 經(jīng)過多年積累建立了包含幾百萬張圖片的龐大且免費(fèi)的數(shù)據(jù)集,用描述圖片內(nèi)容的關(guān)鍵詞為圖片做好了標(biāo)簽,包括貓、山、披薩和體育活動(dòng)等。這些開源數(shù)據(jù)集是使用機(jī)器學(xué)習(xí)進(jìn)行圖像識別的基礎(chǔ)。

  ImageNet 每年一度的圖像識別挑戰(zhàn)賽眾所周知,ImageNet 由斯坦福大學(xué)和普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家在2009年發(fā)起,當(dāng)時(shí)有 80,000 張打好標(biāo)簽的圖片,到今天這個(gè)數(shù)據(jù)已經(jīng)增加到 140 萬張,這些數(shù)據(jù)可以隨時(shí)被用來進(jìn)行機(jī)器訓(xùn)練。

  Pascal VOC 由英國的幾所大學(xué)支持,他們的圖片數(shù)量較少,但每張圖片有著更加豐富的釋文。這提升了機(jī)器學(xué)習(xí)的準(zhǔn)確度和應(yīng)用范圍,加快了整個(gè)過程,因?yàn)樗梢允÷缘粢恍┓敝氐淖尤蝿?wù)。

  如今,谷歌、Facebook 等科技巨頭、創(chuàng)業(yè)公司、高校等都在使用這些開源圖片集來喂養(yǎng)他們的機(jī)器學(xué)習(xí)“猛獸”,但科技巨頭還享受另外一項(xiàng)優(yōu)勢,谷歌和 Facebook 可以從 Google Photos 社交網(wǎng)絡(luò)上獲取數(shù)百萬張用戶已經(jīng)標(biāo)記好的圖片。你之前有沒有考慮過,為何谷歌和 Facebook 會讓你免費(fèi)上傳如此多圖片?原因就在于這些圖片可以將他們的深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練的更加準(zhǔn)確。

  建筑模塊:開源軟件庫和框架

  在你有了數(shù)據(jù)之后,就需要建立一臺能夠從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的機(jī)器,從開源軟件庫可以免費(fèi)獲得開發(fā)框架,這是建立服務(wù)于各種不同計(jì)算機(jī)視覺功能的機(jī)器學(xué)習(xí)系統(tǒng)的起點(diǎn),包括人臉和情緒識別、醫(yī)療篩查和汽車中的大型動(dòng)物障礙物探測。之后,再拿從 ImageNet 等其處獲得的圖片去訓(xùn)練這些機(jī)器學(xué)習(xí)系統(tǒng)。

  谷歌 TensorFlow 是眾多周知的幾個(gè)軟件庫之一,它的覆蓋面比較廣,而且部分內(nèi)容在去年開源。TensorFlow 的一些內(nèi)容依然是歸谷歌專用,被用來開發(fā)公司的多個(gè)人工智能項(xiàng)目,比如自動(dòng)駕駛汽車、Google Now 和 Google Photos 。

  TensorFlow 不是第一個(gè)開源框架,加州大學(xué)伯克利分校的 Caffe 自2009年發(fā)布,到今天依然很流行,原因是它的高度可定制化以及大規(guī)模的創(chuàng)新者社區(qū),Pinterest 、雅虎/Flickr 都是 Caffe 的重度用戶,甚至谷歌也將 DeepDream 等特定項(xiàng)目放在 Caffe 上進(jìn)行開發(fā)。

  另外一個(gè)創(chuàng)建于 2002 年的開源軟件庫 Torch 也很流行,因?yàn)?Facebook 的人工智能實(shí)驗(yàn)室在使用它,并在2015年初開源了一些模塊。其中一些工具經(jīng)過優(yōu)化后,能夠在多個(gè)圖像處理器或者多臺計(jì)算機(jī)上運(yùn)行,從而增強(qiáng)性能,加速深度學(xué)習(xí)過程。類似的, NVIDIA 的 cuDNN 也是一個(gè)開源軟件庫,能夠?qū)τ?jì)算機(jī)的 GPU 表現(xiàn)進(jìn)行優(yōu)化,使機(jī)器學(xué)習(xí)更加快速。

  這些靈活強(qiáng)健的工具需要公司配備專門的計(jì)算機(jī)視覺工程師及相應(yīng)的硬件資源,因此,只有那些希望將計(jì)算機(jī)視覺作為產(chǎn)品策略中重要一環(huán)的公司才會采取這樣方式,他們在應(yīng)用中需要自己的軟件。

  立即可用的云端 API 服務(wù)

  并不是每個(gè)公司都有資源和意向在這個(gè)領(lǐng)域進(jìn)行投資,組建一支計(jì)算機(jī)視覺工程隊(duì)伍。甚至即便你找到了合適的團(tuán)隊(duì),在做到應(yīng)用之前也依然還有大量困難工作需要去做,云端 API 服務(wù)適時(shí)出現(xiàn)了。通過在云端實(shí)施,這些解決方案提供了立即可用的圖像識別服務(wù)菜單,這些服務(wù)能夠很輕易的被整合進(jìn)現(xiàn)有 APP 中,也可以被用來開發(fā)一個(gè)特定工具,或者一項(xiàng)完整業(yè)務(wù)。

  比如,旅行網(wǎng)站 Travel Channel 需要“地標(biāo)檢測”在登陸頁面上展示與特定路標(biāo)相關(guān)的照片;婚戀交友網(wǎng)站 eHarmony 希望將用戶上傳的“不安全”照片過濾掉。這些公司都不想、也沒有必要開設(shè)基于深度學(xué)習(xí)的圖像識別開發(fā)業(yè)務(wù),但他們依然可以從這些功能中獲益。

  Google Cloud Vision 就是一款提供圖像識別功能的 API,它提供一系列圖片分析服務(wù),從人臉識別到 OCR ,再到位置標(biāo)記和內(nèi)容識別,該服務(wù)按張計(jì)費(fèi)。微軟認(rèn)知服務(wù)(牛津計(jì)劃)提供了一套圖像識別 API 服務(wù),包括人臉識別、名人識別和情緒識別,收費(fèi)模式是每 1000 次圖片處理乘以一個(gè)特定比例。同時(shí),Clarifai 等創(chuàng)業(yè)公司也在提供計(jì)算機(jī)視覺 API 服務(wù),幫助客戶整理內(nèi)容、過濾不安全圖片和視頻、基于照片提供購買建議等等。

  定制化計(jì)算機(jī)視覺技術(shù)

  當(dāng)然,這并不是非黑即白的問題。計(jì)算機(jī)視覺工程團(tuán)隊(duì)不需要達(dá)到谷歌的規(guī)模,那些不希望自行開發(fā)人工智能系統(tǒng)的大大小小的公司也依然能夠獲得強(qiáng)健的、個(gè)性化的圖像識別解決方案。比如,如果一家化妝品公司想要找到一些頭發(fā)濃密客戶的照片,用于造型洗發(fā)水廣告,它需要團(tuán)隊(duì)建立一套個(gè)性化算法來搜索濃密頭發(fā)的照片,因?yàn)樗麄冃枰⒓纯捎玫纳虡I(yè)化解決方案,這種應(yīng)用場景已經(jīng)司空見慣了。

  對于 Logo ,目前這些依然是有利可圖的商業(yè)應(yīng)用,它們近期還無法從開源社區(qū)中找到解決方案。如果我們無法輕易獲取封閉的數(shù)據(jù)集,那也沒關(guān)系,因?yàn)檫€可以從社交媒體上拿到數(shù)量可觀的圖片,成為飼養(yǎng)這頭機(jī)器學(xué)習(xí)“猛獸”的重要食物來源。

  如果一些公司有工程師團(tuán)隊(duì),那他們就可以將開源框架和公開數(shù)據(jù)結(jié)合起來。如果他們沒有把整個(gè)業(yè)務(wù)都押注在計(jì)算機(jī)視覺上,也可以使用托管在服務(wù)器端上的 API 服務(wù)。

  對于那些有著廣泛具體應(yīng)用的公司來說,也有定制化解決方案。不管采取何種途徑,很顯然易見的是圖像識別很少會孤立存在;通過接觸更多的圖片、實(shí)時(shí)數(shù)據(jù)、特定應(yīng)用和更快的處理速度,圖像識別將變得越發(fā)強(qiáng)大。各類公司需要最大限度的將這些整合起來,才能為下一步的成功做好準(zhǔn)備。(來源|機(jī)器之心 文|Ken Weiner)

       如果您對您所在行業(yè)有很深認(rèn)知,也想在我們的平臺上說點(diǎn)什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評論

【登錄后才能評論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦