AlphaGo的冷思考:如何看待人工智能的進步?
導讀:
自DeepMind 2013年發表關於Atari的重要論文以來,深度強化學習已經被廣泛應用於現實世界機器人和人機對話中以完成各類任務。考慮到在算法略微甚至無手工調試的情況下,深度強化學習已經在...
谷歌DeepMind一個15-20人組成的團隊設計的系統AlphaGo在正式圍棋比賽中以5:0的成績擊敗瞭曾三次獲得歐洲圍棋冠軍的樊麾。在非正式比賽中樊麾曾以食品設備更少的每步用時在5場比賽中獲勝2場(新聞報道中常常忽略瞭這些更多的有趣細節,相關情況也可查看《自然》論文)。AlphaGo程序比以往任何圍棋程序更加強大(下面會介紹它到底有多強)。
怎麼辦到的?烘焙設備
相比於其它計算機圍棋程序相關團隊,AlphaGo由一個相對較大的團隊研發發,顯然使用瞭更多的計算資源(半自動充填機詳見下文)。該程序使用瞭一種新穎的方式實現瞭神經網絡和蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)的結合,並經過瞭包含監督學習和自我訓練的多個階段的訓練。值得註意的是,從評估它與人工智能進步關系的角度來看,它並沒有接受過端到端(end-to-end)的訓練(盡管在AAAI 2016上Demis Hassabis表示他們可能會在未來這樣做)。另外在MCTS組件中它還使用瞭一些手工開發的功能(這一點也常常被觀察者忽略)。相關論文宣稱的貢獻是「評估與策略網絡(value and policy networks)」的構想和他們整合MCTS的方式。論文中的數據表明,使用這些元素的系統比不使用它們的系統更為強大。
整體AI性能VS特定算法的進步
仔細研究《自然》 上關於AlphaGo的論文,可以得到許多觀點,其中一個對評估該結果所擁有的更廣泛意義尤其重要:硬件在提高AlphaGo性能上的關鍵作用。參考下面的數據,我將對其進行解釋。
該圖表顯示瞭計算機Go與樊麾在估測Elo評級和排名方面的些許不同(譯者註:Elo評級系統是由美國物理學教授Arpad Elo提出的一種計算二人競技遊戲(如象棋、圍棋)中選手相對水平的評級系統)。Elo評級表示瞭擊敗評級更高或更低對手的期望概率 比如,一個評分比對手多200分的選手預計獲勝的概率為四分之三。現在我們可以通過圖表瞭解一些有趣的信息。忽略粉紅色數據條(表示在有額外棋子時的表現),我們可以發現AlphaGo(不管是不是分佈式的)都比原來最好的圍棋程序Crazy Stone和Zen強出許多。AlphaGo的等級是較低的專業級水平(圖表右側的p表示「專業段位」),而其它程序則處在較高的業餘水平上(圖表右側的d表示「業餘段位」)。另外,我們可以看到盡管分佈式AlphaGo(AlphaGo Distributed)的評估水平略高於樊麾,但非分佈式AlphaGo卻並非如此(和樊麾比賽的是分佈式AlphaGo)。看起來樊麾如果和非分佈式AlphaGo對弈,可能他就算不獲勝,至少也可以贏幾局。
本文由入駐OFweek公眾平臺的作者撰寫,除OFweek官方賬號外,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。
AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋
AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots
留言列表