阿尔法狗再进化 通过自我对弈进行学习升级

阿爾法狗再進化 通過自我對弈進行學習升級-熱點

倫敦當地時間10月18日下午6點鐘,AlphaGo再次登上世界頂級科學雜誌《自然》。導讀經過3天的訓練後,這套系統已經可以擊敗AlphaGo Lee,也就是去年擊敗韓國頂尖棋手李世石的那套系統,而且比分高達100比0。經過40天訓練後,它總計運行了大約2900萬次自我對弈,使得AlphaGo Zero得以擊敗AlphaGo Master(今年早些時候擊敗世界冠軍柯潔的系統),比分為89比11。

阿尔法狗再进化 通过自我对弈进行学习升级
阿尔法狗再进化 通过自我对弈进行学习升级

今年5月,以3:0的比分贏下中國棋手柯潔後,AlphaGo宣布退役,但DeepMind公司並沒有停下研究的腳步。倫敦當地時間10月18日,DeepMind團隊公佈了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍,是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。

團隊稱,AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績。 DeepMind團隊將關於AlphaGo Zero的相關研究以論文的形式,刊發在了10月18日的《自然》雜誌上。

“AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據,”AlphaGo之父、DeepMind聯合創始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)說,“最終,我們想要利用它的算法突破,去幫助解決各種緊迫的現實世界問題,如蛋白質折疊或設計新材料。如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。”

值得注意的是,雖然AlphaGo Zero在幾週的訓練期間學會了一些關鍵概念,但該系統學習的方法與人類有所不同。另外,AlphaGo Zero也比前幾代系統更加節能,AlphaGo Lee需要使用幾台機器和48個谷歌TPU機器學習加速芯片。其上一代AlphaGo Fan則要用到176個GPU芯片。 AlphaGo Zero只需要使用一台配有4個TPU的機器即可。