日韩精品三区在线观看,国产在线刺激

谷歌收購DeepMind的最大原因

瀏覽293次2018-02-02 15:18

2014年，谷歌花了5億多美元收購了位于倫敦的一家小公司：DeepMind。在此之前，DeepMind在2013年12月的NIPS大會上發(fā)表過一篇關(guān)于用深度強化學習來玩視頻游戲的論文Playing Atari with Deep Reinforcement Learning，后續(xù)研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再后來，深度學習+強化學習的玩法用在了圍棋上，于是我們有了阿法狗。

回頭看看讓DeepMind起家的Deep Q Learning，看上去只是一個非常簡單的軟件，一個專門為Atari視頻游戲設(shè)計的自動程序?？墒?，它被視為“通用智能”的第一次嘗試——論文顯示，這種算法可以應(yīng)用至50種不同的Atari游戲，而且表現(xiàn)均超過人類水平。這就是深度Q學習器。

用超級瑪麗來舉個例子。我們擁有游戲的視頻片段作為數(shù)據(jù)輸入，用馬里奧移動的方向來標注數(shù)據(jù)。這些訓(xùn)練數(shù)據(jù)是連續(xù)的，新的視頻幀持續(xù)不斷地在游戲世界產(chǎn)生，而我們想知道如何在這個世界中行動。

看上去，最好的辦法是通過嘗試。不斷嘗試，不斷犯錯，這樣我們就會了解我們與游戲世界的最佳互動形式。

強化學習就是用來解決這類問題的。每當馬里奧做了一些有助于贏得游戲的動作，正標簽就會出現(xiàn)，只是它們的出現(xiàn)有延遲。相比起把它們叫做標簽，更確切的叫法是“獎勵Reward”。

我們將整個游戲過程表示為一個由狀態(tài)（State）、動作（Action）和獎勵（Reward）構(gòu)成的序列，每個狀態(tài)的概率僅僅取決于前一個狀態(tài)和執(zhí)行的動作，這叫做“馬爾科夫特性”，以俄羅斯數(shù)學家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。

如果把某個點之后一系列的獎勵表示成一個函數(shù)，這個函數(shù)值就代表游戲結(jié)束時，可能出現(xiàn)的最佳得分。當在給定的狀態(tài)下執(zhí)行給定的動作之后，此函數(shù)用于衡量該狀態(tài)下某個動作的質(zhì)量（Quality），這就是Q函數(shù)，也叫魁地奇函數(shù)，啊不，質(zhì)量函數(shù)。

當馬里奧決定執(zhí)行哪個可能的動作時，他將選擇那些Q值最高的動作，計算Q值的過程，就是學習的過程。

熱門百科

亚洲色资源,亚洲一本到日韩东京热,伊人久久东京热影视,国产视频一二三,日韩无码第九页,亚洲日韩一页精品发布,国产主播在线看喷水,午夜一区二区三区在线,操碰在线观看视频