777精品久无码人妻蜜桃,国产日本精品视频在线观看 ,国产亚洲99久久精品熟女av,brazzersvideosex欧美最新版,人人爽人人人爽人人爽

2025全球時(shí)空智能大會(huì)
5月21-22日 北京
開幕在即!WGDC25全球時(shí)空智能大會(huì)完整日程公布
即刻注冊(cè)  鎖定席位
分享
Scan me 分享到微信

馬斯克的AI野心——OpenAI Gym系統(tǒng)深度解析

馬斯克創(chuàng)立 OpenAI 目的何在?

  開源人工智能系統(tǒng) OpenAI 的成立打破了谷歌、Facebook 等巨頭霸占 AI 領(lǐng)域的格局,但其創(chuàng)始人、特斯拉CEO馬斯克多次發(fā)表人工智能威脅論。馬斯克創(chuàng)立 OpenAI 目的何在?分析最近發(fā)布的 OpenAI Gym,可以找出他的真正動(dòng)機(jī)。OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,它支持訓(xùn)練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。本文其中一位作者是 OpenAI 內(nèi)部研究員,你想知道關(guān)于這個(gè)系統(tǒng)的一切,他都寫在這里了。

  2015年12月16日,特斯拉CEO埃隆·馬斯克(Elon Musk)和創(chuàng)業(yè)孵化器Y Combinator總裁山姆·奧特曼(Sam Altman)創(chuàng)建了人工智能公司 OpenAI,并表示將開源其研究成果分享給研究人工智能的每一個(gè)人。國(guó)外知名科技媒體《連線》雜志發(fā)表評(píng)論文章,稱開源的OpenAI的成立將人工智能研究推向高潮,同時(shí)也轉(zhuǎn)變了目前由谷歌、Facebook等巨頭引領(lǐng)的人工智能領(lǐng)域競(jìng)爭(zhēng)格局。未來,OpenAI有望成為這一領(lǐng)域的監(jiān)管者,將其引向?qū)θ祟惛鼮榘踩陌l(fā)展軌跡上來。

  谷歌和Facebook正在將人工智能推向新的時(shí)代,OpenAI至少還可以監(jiān)督它們,當(dāng)然還會(huì)監(jiān)督其他人。深度學(xué)習(xí)初創(chuàng)企業(yè)Skymind.io的聯(lián)合創(chuàng)始人克里斯·尼科爾森(Chris Nicholson)說:“馬斯克和OpenAI已經(jīng)看到了人工智能的勢(shì)不可擋,他們唯一希望的是改變其發(fā)展軌跡。”

  2016年4月28日,Open AI 對(duì)外發(fā)布了人工智能一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包 OpenAI Gym,正如 Gym 這詞所指的意思(健身房)一樣,在這一平臺(tái)上,開發(fā)者可以把自己開發(fā)的AI算法拿出來訓(xùn)練和展示,獲得專家和其他愛好者的點(diǎn)評(píng),共同探討和研究。不管馬斯克希望把所有AI技術(shù)進(jìn)行開發(fā)的夢(mèng)想多么遠(yuǎn)大和浪漫,其背后的真正動(dòng)機(jī)是什么,至少,在 OpenAI Gym里,可以看到AI開放化的步伐正在漸漸加快。

  如果OpenAI能夠堅(jiān)守他們的使命,讓所有人都能接觸到新技術(shù)理念,那么它至少將是對(duì)谷歌、Facebook等巨頭的一次考驗(yàn)。

  最近,OpenAI 研究人員 John Schulman 與NVIDIA 的 GPU 計(jì)算軟件首席技術(shù)員 Mark Harris 分享了一些關(guān)于這個(gè)組織的細(xì)節(jié),以及 OpenAI Gym 將如何讓AI研究者更容易地設(shè)計(jì)、迭代、優(yōu)化他們下一代的應(yīng)用程序。

  John在加州理工大學(xué)修習(xí)物理學(xué),隨后在加州大學(xué)伯克利分校繼續(xù)深造。在伯克利,繼短暫地學(xué)習(xí)了神經(jīng)科學(xué)之后,他師從Pieter Abbeel研究機(jī)器學(xué)習(xí)與機(jī)器人學(xué),最終將強(qiáng)化學(xué)習(xí)作為他的主要研究興趣。

  John Schulman是OpenAI的一位研究員

  OpenAI是一家非盈利性人工智能研究公司。每一天,我們都在致力于進(jìn)行非監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的研究。我們的使命和長(zhǎng)期目標(biāo)是以將最大限度地造福全人類的方式發(fā)展人工智能。

  強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)是機(jī)器學(xué)習(xí)的一個(gè)分支,它考慮的是做出一系列的決策。它假定有一個(gè)智能體(agent)存在于環(huán)境中。在每一步中,智能體(agent)采取一個(gè)行動(dòng),隨后從環(huán)境中收到觀察與回報(bào)。一個(gè)RL算法尋求的是,在一個(gè)原先毫無了解的環(huán)境中通過一段學(xué)習(xí)過程——通常包括許多試錯(cuò)——讓智能體(agent)收到的總體回報(bào)最大化。

  上面說到的強(qiáng)化學(xué)習(xí)問題——涉及到一個(gè)讓回報(bào)最大化的智能體(agent)——是非常寬泛的說法,而RL算法已經(jīng)被應(yīng)用到了許多不同的領(lǐng)域。它們被用于業(yè)務(wù)管理問題,比如用來決定一家商店應(yīng)該持有多少庫存商品、或是應(yīng)該如何設(shè)定商品價(jià)格。它們也被應(yīng)用在機(jī)器人控制問題上,這個(gè)領(lǐng)域最近有了非??焖俚陌l(fā)展。下面這個(gè)視頻展示了用OpenAI Gym訓(xùn)練Hopper(一個(gè)二維單腿機(jī)器人)來盡可能快速地向前單腳跳躍。

  強(qiáng)化學(xué)習(xí)關(guān)注的是做出好決策,而監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)主要關(guān)注的是做出預(yù)測(cè)。然而,這之間有大量相通之處,有一些成為了研究中非?;钴S的話題。除了不同的側(cè)重點(diǎn)之外,強(qiáng)化學(xué)習(xí)本質(zhì)上的序列性也讓它無緣于大部分監(jiān)督式學(xué)習(xí)問題。在強(qiáng)化學(xué)習(xí)中,智能體(agent)的決策會(huì)影響到它得到怎樣的輸入數(shù)據(jù),也即它的決策最終帶來的效果。這使得強(qiáng)化學(xué)習(xí)更難發(fā)展出穩(wěn)定的算法,也讓探索成為必須——智能體(agent)需要不停地進(jìn)入可能會(huì)收獲大量回報(bào)的未知領(lǐng)域。

  OpenAIGym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包,其中包括了各種環(huán)境,目前有模擬的機(jī)器人學(xué)任務(wù)、桌面游戲、多位數(shù)加法之類的計(jì)算任務(wù)等等。我們預(yù)期工具包中包含的環(huán)境將隨時(shí)間不斷增多,用戶也會(huì)將他們自己創(chuàng)建的環(huán)境加入到其中。這些環(huán)境都有一個(gè)通用交互界面,使用戶能夠編寫可以應(yīng)用于許多不同環(huán)境的通用算法。

  OpenAIGym也有一個(gè)網(wǎng)站,人們可以將他們?cè)谶@些環(huán)境中的訓(xùn)練結(jié)果發(fā)布到網(wǎng)站上并分享他們的代碼。這個(gè)網(wǎng)站的目的是讓人們能簡(jiǎn)單地迭代并優(yōu)化他們的RL算法,并對(duì)什么算法才是有效的算法有一個(gè)概念。

  為了讓你感受一下代碼是什么樣的,下面給出的是創(chuàng)建其中一個(gè)環(huán)境(經(jīng)典倒立擺(cart-pole)任務(wù),目標(biāo)是在一輛移動(dòng)的小車上讓垂直放置的長(zhǎng)桿保持平衡)、模擬一些隨機(jī)行為、隨后將結(jié)果提交到分?jǐn)?shù)板上的方法(在實(shí)際操作中,你只有在應(yīng)用了一個(gè)學(xué)習(xí)算法以后才可能想要提交結(jié)果)。

  這一小段代碼不包括任何學(xué)習(xí)或是訓(xùn)練——學(xué)習(xí)和訓(xùn)練會(huì)需要更多的代碼。很快我們就會(huì)貼出在OpenAI Gym的環(huán)境中簡(jiǎn)潔實(shí)現(xiàn)各種重要算法的展示,如果你感興趣的話,記得關(guān)注我們的網(wǎng)站。

  為了回答這個(gè)問題,我需要談一點(diǎn)關(guān)于RL算法學(xué)習(xí)了什么的問題。一些強(qiáng)化學(xué)習(xí)算法關(guān)注的是學(xué)習(xí)一個(gè)策略(policy),這是一個(gè)輸入觀察(例如相機(jī)照片)、然后輸出行動(dòng)(例如motor torques)的函數(shù)。其他算法關(guān)注的是學(xué)習(xí)估值(value)函數(shù),它衡量的是狀態(tài)(也即世界的狀態(tài),the state of the world)以及行動(dòng)的好壞。鑒于我們通常都無法查知世界的整體狀態(tài)(full state),我們一般會(huì)使用一個(gè)或是更多過去的觀察來作為替代。Q函數(shù)(估值函數(shù)的一種)衡量的是狀態(tài)-行動(dòng)組(s, a)的好壞,也就是說,Q(s, a)能告訴你“如果我處于狀態(tài)s中并選擇行動(dòng)a,我能獲得多少回報(bào)”。有了這個(gè)Q函數(shù)以后,你就能簡(jiǎn)單地選擇出帶來最高預(yù)期回報(bào)的行動(dòng)。這也就是說,Q函數(shù)定義了策略。下面這個(gè)視頻展示了如何在OpenAI Gym上訓(xùn)練深度Q網(wǎng)絡(luò)(Deep Q-Network)來玩Breakout。

  基于策略的算法和基于Q函數(shù)的算法在核心上非常相似,我們可以用神經(jīng)網(wǎng)絡(luò)來表示策略和Q函數(shù)。例如,當(dāng)玩Atari游戲的時(shí)候,向這些網(wǎng)絡(luò)輸入的是屏幕上的一個(gè)圖像,同時(shí)有一組離散的行動(dòng),例如{扔套索, 左走, 右走, 開火}。你可以用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)將屏幕圖像作為輸入并輸出一個(gè)代表四種行動(dòng)之一的數(shù)字,表示出行動(dòng)的好壞,作為這個(gè)任務(wù)的Q函數(shù);用一個(gè)結(jié)構(gòu)相似、輸出每種行動(dòng)可能性的卷積神經(jīng)網(wǎng)絡(luò)作為策略。

  Schulman et al.(2015)使用的結(jié)構(gòu),上方的結(jié)構(gòu)用于模擬機(jī)器人控制,下方的結(jié)構(gòu)用于玩Atari游戲。

  有各種各樣的開源環(huán)境集成,包括但不限于RL-Glue、RLPy、Arcade LearningEnvironment。我們從這些庫中獲得了靈感與一些代碼。OpenAI Gym也整合了最近加州大學(xué)伯克利分校的研究者們?cè)趯?duì)深度強(qiáng)化學(xué)習(xí)算法做基準(zhǔn)測(cè)試時(shí)的工作成果。闡述這個(gè)基準(zhǔn)測(cè)試研究的論文可以從ArXiv下載,并且將會(huì)在今年的ICML上作展示。

  比起之前提到的那些環(huán)境集成,OpenAI Gym更為完善,擁有更多種類的任務(wù)、更多任務(wù)的難度級(jí)別(包括在去年之前都無法解決的模擬機(jī)器人任務(wù))。不僅如此,OpenAI Gym還獨(dú)有在線分?jǐn)?shù)板,讓用戶能夠做比較并分享代碼。

  我們希望讓OpenAI Gym對(duì)于擁有不同背景的人來說都能夠使用。對(duì)RL毫無了解的用戶可以下載基礎(chǔ)代碼,在短短幾分鐘之內(nèi)開始實(shí)驗(yàn)這些代碼。他們可以訪問不同環(huán)境的分?jǐn)?shù)板并下載其上的解決方案代碼,隨后自行驗(yàn)證這些解決方案(這是一個(gè)非常重要并且實(shí)用的功能!)并做修改。

  AI研究者將能運(yùn)用其中包含的環(huán)境進(jìn)行RL研究。每種環(huán)境都有規(guī)范命名的版本號(hào)(semantically versioned),便于在論文中報(bào)告結(jié)果并易于理解。研究者們也能夠在分?jǐn)?shù)板上將自己的算法的效果與其他人的算法作比較,并找到表現(xiàn)優(yōu)異的算法的代碼。

  你們有計(jì)劃用NVIDIA GPU來加速OpenAI Gym嗎?GPU會(huì)為你們的工作帶來怎樣的增益?

  GPU對(duì)于涉及大型神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)問題來說正在逐漸變得不可或缺。我們將會(huì)使用GPU來為大規(guī)模任務(wù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),并且我們也預(yù)期我們的許多用戶也會(huì)這么做。

  是的,我相信真實(shí)感渲染(photorealistic rendering)能讓機(jī)器人在虛擬環(huán)境下接受訓(xùn)練、學(xué)習(xí)到能夠遷移到現(xiàn)實(shí)世界的策略。尚有許多激動(dòng)人心的可能性等待我們發(fā)覺。

  非監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面,我們很快就會(huì)開始發(fā)布我們一些持續(xù)進(jìn)行的研究項(xiàng)目的結(jié)果。我們很期待看到用戶們用OpenAI Gym來做些什么,并計(jì)劃繼續(xù)更新它,讓它成為一款對(duì)于研究社區(qū)和領(lǐng)域內(nèi)新人來說都很有用的工具。(編譯|新智元)

  如果您對(duì)您所在行業(yè)有很深認(rèn)知,也想在我們的平臺(tái)上說點(diǎn)什么,我們歡迎您來投稿!

喜歡您正在閱讀的內(nèi)容嗎?歡迎免費(fèi)訂閱泰伯每周精選電郵。 立即訂閱

參與評(píng)論

【登錄后才能評(píng)論哦!點(diǎn)擊

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回復(fù){{item.replynum}}
    {{child.username}} 回復(fù) {{child.to_username}}:{{child.content}}

更多精選文章推薦