MuZero成為DeepMind最先進(jìn)的AI算法。(圖片來(lái)源:DeepMind公司網(wǎng)站)
科技日?qǐng)?bào)記者?馮衛(wèi)東
據(jù)最新一期《自然》雜志報(bào)道,DeepMind公司開發(fā)的一種人工智能(AI)算法MuZero,可以在不告知其游戲規(guī)則的情況下掌握圍棋、國(guó)際象棋、日本將棋和視頻游戲,這是谷歌人工智能部門獲得的又一重大突破。
DeepMind公司表示,研究人員多年來(lái)一直在尋找一種方法,既可以學(xué)習(xí)建立用于解釋當(dāng)前環(huán)境的模型,也能夠利用這個(gè)模型來(lái)進(jìn)行最好的決策。到目前為止,大多數(shù)方法都難以在Atari這種游戲中進(jìn)行有效規(guī)劃。
MuZero最初在2019年推出,通過(guò)只關(guān)注環(huán)境中最重要的一個(gè)方面,來(lái)學(xué)習(xí)建立模型并解決問(wèn)題。通過(guò)將這種方法與“阿爾法狗”強(qiáng)大的搜索樹技術(shù)相結(jié)合,MuZero的能力實(shí)現(xiàn)了重大飛躍。此外,MuZero還利用了前瞻搜索、基于模型的規(guī)劃來(lái)解決問(wèn)題。
MuZero不會(huì)使用規(guī)則來(lái)找到最佳情況(因?yàn)槭孪炔槐桓嬷菍W(xué)習(xí)考慮游戲環(huán)境的各個(gè)方面,自己觀察它是否重要。在數(shù)百萬(wàn)場(chǎng)比賽中,它不僅學(xué)習(xí)規(guī)則,而且學(xué)習(xí)位置的通用價(jià)值、成功的通用策略以及事后評(píng)估自己行為的方式。后一種功能可幫助其從自身的錯(cuò)誤中學(xué)習(xí)、回憶和重做游戲,以嘗試各種不同方法來(lái)進(jìn)一步優(yōu)化位置和策略價(jià)值。
MuZero不僅在國(guó)際象棋、圍棋和日本將棋上達(dá)到了與提供完善規(guī)則的“阿爾法狗”一樣的超人水平,在Atari游戲這樣的雜亂感知輸入環(huán)境中,也創(chuàng)造了新紀(jì)錄。研究人員將MuZero描述為“在追求通用算法方面邁出的重要一步”。