阿爾法狗再進化通過自我對弈進行學習升級-熱點

倫敦當地時間10月18日下午6點鐘，AlphaGo再次登上世界頂級科學雜誌《自然》。導讀經過3天的訓練後，這套系統已經可以擊敗AlphaGo Lee，也就是去年擊敗韓國頂尖棋手李世石的那套系統，而且比分高達100比0。經過40天訓練後，它總計運行了大約2900萬次自我對弈，使得AlphaGo Zero得以擊敗AlphaGo Master（今年早些時候擊敗世界冠軍柯潔的系統），比分為89比11。

今年5月，以3:0的比分贏下中國棋手柯潔後，AlphaGo宣布退役，但DeepMind公司並沒有停下研究的腳步。倫敦當地時間10月18日，DeepMind團隊公佈了最強版AlphaGo ，代號AlphaGo Zero。它的獨門秘籍，是“自學成才”。而且，是從一張白紙開始，零基礎學習，在短短3天內，成為頂級高手。

團隊稱，AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時，AlphaGo Zero取得了100:0的壓倒性戰績。 DeepMind團隊將關於AlphaGo Zero的相關研究以論文的形式，刊發在了10月18日的《自然》雜誌上。

“AlphaGo在兩年內達到的成績令人震驚。現在，AlphaGo Zero是我們最強版本，它提升了很多。Zero提高了計算效率，並且沒有使用到任何人類圍棋數據，”AlphaGo之父、DeepMind聯合創始人兼CEO戴密斯·哈薩比斯（Demis Hassabis）說，“最終，我們想要利用它的算法突破，去幫助解決各種緊迫的現實世界問題，如蛋白質折疊或設計新材料。如果我們通過AlphaGo，可以在這些問題上取得進展，那麼它就有潛力推動人們理解生命，並以積極的方式影響我們的生活。”

值得注意的是，雖然AlphaGo Zero在幾週的訓練期間學會了一些關鍵概念，但該系統學習的方法與人類有所不同。另外，AlphaGo Zero也比前幾代系統更加節能，AlphaGo Lee需要使用幾台機器和48個谷歌TPU機器學習加速芯片。其上一代AlphaGo Fan則要用到176個GPU芯片。 AlphaGo Zero只需要使用一台配有4個TPU的機器即可。