亚洲色资源,亚洲一本到日韩东京热,伊人久久东京热影视,国产视频一二三,日韩无码第九页,亚洲日韩一页精品发布,国产主播在线看喷水,午夜一区二区三区在线,操碰在线观看视频

知道解決
谷歌收購DeepMind的最大原因
瀏覽293次2018-02-02 15:18

2014年,谷歌花了5億多美元收購了位于倫敦的一家小公司:DeepMind。在此之前,DeepMind在2013年12月的NIPS大會上發(fā)表過一篇關(guān)于用深度強化學習來玩視頻游戲的論文Playing Atari with Deep Reinforcement Learning,后續(xù)研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再后來,深度學習+強化學習的玩法用在了圍棋上,于是我們有了阿法狗。

blob.png

回頭看看讓DeepMind起家的Deep Q Learning,看上去只是一個非常簡單的軟件,一個專門為Atari視頻游戲設(shè)計的自動程序??墒?,它被視為“通用智能”的第一次嘗試——論文顯示,這種算法可以應(yīng)用至50種不同的Atari游戲,而且表現(xiàn)均超過人類水平。這就是深度Q學習器。

blob.png

用超級瑪麗來舉個例子。我們擁有游戲的視頻片段作為數(shù)據(jù)輸入,用馬里奧移動的方向來標注數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)是連續(xù)的,新的視頻幀持續(xù)不斷地在游戲世界產(chǎn)生,而我們想知道如何在這個世界中行動。

看上去,最好的辦法是通過嘗試。不斷嘗試,不斷犯錯,這樣我們就會了解我們與游戲世界的最佳互動形式。

blob.png

強化學習就是用來解決這類問題的。每當馬里奧做了一些有助于贏得游戲的動作,正標簽就會出現(xiàn),只是它們的出現(xiàn)有延遲。相比起把它們叫做標簽,更確切的叫法是“獎勵Reward”。

blob.png

我們將整個游戲過程表示為一個由狀態(tài)(State)、動作(Action)和獎勵(Reward)構(gòu)成的序列,每個狀態(tài)的概率僅僅取決于前一個狀態(tài)和執(zhí)行的動作,這叫做“馬爾科夫特性”,以俄羅斯數(shù)學家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。

如果把某個點之后一系列的獎勵表示成一個函數(shù),這個函數(shù)值就代表游戲結(jié)束時,可能出現(xiàn)的最佳得分。當在給定的狀態(tài)下執(zhí)行給定的動作之后,此函數(shù)用于衡量該狀態(tài)下某個動作的質(zhì)量(Quality),這就是Q函數(shù),也叫魁地奇函數(shù),啊不,質(zhì)量函數(shù)。

blob.png

當馬里奧決定執(zhí)行哪個可能的動作時,他將選擇那些Q值最高的動作,計算Q值的過程,就是學習的過程。

右側(cè)廣告
關(guān)于我們 | 廣告服務(wù) | 會員服務(wù) | 隱私申明 | 友情鏈接 | 聯(lián)系我們 | 法律顧問 | 網(wǎng)站地圖 | 百方網(wǎng)信用評價制度 (c)2008-2025 BYF All Rights Reserved
網(wǎng)絡(luò)標識
可信網(wǎng)站識
 
垫江县| 新沂市| 平泉县| 林芝县| 遂宁市| 磐石市| 鸡西市| 鲁甸县| 临邑县| 于都县| 江达县| 泰来县| 个旧市| 永吉县| 康定县| 河北区| 绍兴市| 洪雅县| 墨江| 光泽县| 江安县| 互助| 德清县| 北流市| 沁源县| 宁国市| 长葛市| 天等县| 高陵县| 镇巴县| 房山区| 克什克腾旗| 措勤县| 银川市| 麻阳| 四子王旗| 宜兴市| 金寨县| 徐汇区| 郎溪县| 青浦区|