av在线点播激情无码_AVAV亚洲精品在线_精品人妻av区乱码偷拍_91人间水蜜桃在线观看

“阿爾法狗”進(jìn)化到第四代,無(wú)需告知規(guī)則 MuZero算法自學(xué)成“棋”才
發(fā)布時(shí)間:2021.01.06        閱讀次數(shù):

MuZero成為DeepMind最先進(jìn)的AI算法。(圖片來(lái)源:DeepMind公司網(wǎng)站

科技日?qǐng)?bào)記者?馮衛(wèi)東

據(jù)最新一期《自然》雜志報(bào)道,DeepMind公司開發(fā)的一種人工智能(AI)算法MuZero,可以在不告知其游戲規(guī)則的情況下掌握圍棋、國(guó)際象棋、日本將棋和視頻游戲,這是谷歌人工智能部門獲得的又一重大突破。

DeepMind公司表示,研究人員多年來(lái)一直在尋找一種方法,既可以學(xué)習(xí)建立用于解釋當(dāng)前環(huán)境的模型,也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。到目前為止,大多數(shù)方法都難以在Atari這種游戲中進(jìn)行有效規(guī)劃。

MuZero最初在2019年推出,通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面,來(lái)學(xué)習(xí)建立模型并解決問(wèn)題。通過(guò)將這種方法與“阿爾法狗”強(qiáng)大的搜索樹技術(shù)相結(jié)合,MuZero的能力實(shí)現(xiàn)了重大飛躍。此外,MuZero還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。

MuZero不會(huì)使用規(guī)則來(lái)找到最佳情況(因?yàn)槭孪炔槐桓嬷菍W(xué)習(xí)考慮游戲環(huán)境的各個(gè)方面,自己觀察它是否重要。在數(shù)百萬(wàn)場(chǎng)比賽中,它不僅學(xué)習(xí)規(guī)則,而且學(xué)習(xí)位置的通用價(jià)值、成功的通用策略以及事后評(píng)估自己行為的方式。后一種功能可幫助其從自身的錯(cuò)誤中學(xué)習(xí)、回憶和重做游戲,以嘗試各種不同方法來(lái)進(jìn)一步優(yōu)化位置和策略價(jià)值。

MuZero不僅在國(guó)際象棋、圍棋和日本將棋上達(dá)到了與提供完善規(guī)則的“阿爾法狗”一樣的超人水平,在Atari游戲這樣的雜亂感知輸入環(huán)境中,也創(chuàng)造了新紀(jì)錄。研究人員將MuZero描述為“在追求通用算法方面邁出的重要一步”。