&

“阿爾法狗”進(jìn)化到第四代，無(wú)需告知規(guī)則 MuZero算法自學(xué)成“棋”才

發(fā)布時(shí)間：2021.01.06 閱讀次數(shù)：

MuZero成為DeepMind最先進(jìn)的AI算法。（圖片來(lái)源：DeepMind公司網(wǎng)站）

科技日?qǐng)?bào)記者?馮衛(wèi)東

據(jù)最新一期《自然》雜志報(bào)道，DeepMind公司開發(fā)的一種人工智能（AI）算法MuZero，可以在不告知其游戲規(guī)則的情況下掌握圍棋、國(guó)際象棋、日本將棋和視頻游戲，這是谷歌人工智能部門獲得的又一重大突破。

DeepMind公司表示，研究人員多年來(lái)一直在尋找一種方法，既可以學(xué)習(xí)建立用于解釋當(dāng)前環(huán)境的模型，也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。到目前為止，大多數(shù)方法都難以在Atari這種游戲中進(jìn)行有效規(guī)劃。

MuZero最初在2019年推出，通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面，來(lái)學(xué)習(xí)建立模型并解決問(wèn)題。通過(guò)將這種方法與“阿爾法狗”強(qiáng)大的搜索樹技術(shù)相結(jié)合，MuZero的能力實(shí)現(xiàn)了重大飛躍。此外，MuZero還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。

MuZero不會(huì)使用規(guī)則來(lái)找到最佳情況（因?yàn)槭孪炔槐桓嬷菍W(xué)習(xí)考慮游戲環(huán)境的各個(gè)方面，自己觀察它是否重要。在數(shù)百萬(wàn)場(chǎng)比賽中，它不僅學(xué)習(xí)規(guī)則，而且學(xué)習(xí)位置的通用價(jià)值、成功的通用策略以及事后評(píng)估自己行為的方式。后一種功能可幫助其從自身的錯(cuò)誤中學(xué)習(xí)、回憶和重做游戲，以嘗試各種不同方法來(lái)進(jìn)一步優(yōu)化位置和策略價(jià)值。

MuZero不僅在國(guó)際象棋、圍棋和日本將棋上達(dá)到了與提供完善規(guī)則的“阿爾法狗”一樣的超人水平，在Atari游戲這樣的雜亂感知輸入環(huán)境中，也創(chuàng)造了新紀(jì)錄。研究人員將MuZero描述為“在追求通用算法方面邁出的重要一步”。

阿爾伯塔大學(xué)研究人員找到治療糖...

重磅！我國(guó)成功構(gòu)建天地一體化量...

av在线点播激情无码_AVAV亚洲精品在线_精品人妻av区乱码偷拍_91人间水蜜桃在线观看