聲音里包含了豐富的信息,例如,聽(tīng)到“吱呀”的聲音就知道門(mén)開(kāi)了,聽(tīng)到“沙沙”的樹(shù)葉聲就知道起風(fēng)了。依靠聽(tīng)覺(jué),人類可以更好地感知世界。但對(duì)于機(jī)器人來(lái)說(shuō),目前它們只能基于視覺(jué)和少量的觸覺(jué)進(jìn)行操作。為了讓機(jī)器人未來(lái)具備更好的感知力,科學(xué)家們正在研究如何賦予機(jī)器人聽(tīng)覺(jué)。
近日,卡內(nèi)基梅隆大學(xué)(CMU)機(jī)器人研究所的研究人員對(duì)聲音和機(jī)器人動(dòng)作之間的相互作用進(jìn)行了大規(guī)模的研究,發(fā)現(xiàn)聲音可以幫助機(jī)器人區(qū)分物體,識(shí)別率能達(dá)到79.2%,還能識(shí)別使物體發(fā)出聲音的動(dòng)作,以及預(yù)測(cè)物體的物理屬性。相關(guān)研究發(fā)表在《機(jī)器人技術(shù):科學(xué)與系統(tǒng)》雜志上。
在此之前,沒(méi)有任何算法,也沒(méi)有數(shù)據(jù)集可以幫助機(jī)器人建立對(duì)物體的理解,形成機(jī)器人聽(tīng)覺(jué)。主要原因在于聲音的產(chǎn)生受到許多因素的相互影響。例如,機(jī)器人撞擊物體時(shí)發(fā)出的聲音取決于撞擊的力度、物體的結(jié)構(gòu)、麥克風(fēng)的位置等等。這使得從聲音中提取對(duì)機(jī)器人有用的信息變得十分困難。
項(xiàng)目的研究人員之一萊雷爾·平托(Lerrel Pinto)說(shuō):“在其他領(lǐng)域的許多初步工作表明,聲音可能有用,但尚不清楚它在機(jī)器人技術(shù)中有多有用。”
為了回答這一問(wèn)題,研究人員首先創(chuàng)建了一個(gè)“傾斜機(jī)器人”(Tilt-Bot)。這個(gè)“傾斜機(jī)器人”由一個(gè)方形托盤(pán)、一個(gè)機(jī)械臂和固定裝置組成。托盤(pán)的四周有擋板,擋板上貼著聲波捕捉裝置,托盤(pán)上方安裝有一個(gè)攝像頭。
研究人員將60種常見(jiàn)物體(例如蘋(píng)果、鞋子和網(wǎng)球)分別放置在托盤(pán)上,隨著機(jī)械臂向隨機(jī)方向傾斜,物體會(huì)撞擊擋板并發(fā)出聲音。通過(guò)“傾斜機(jī)器人”,研究人員收集了60種物體的15000組交互記錄,每組交互記錄都包含聲音、動(dòng)作和視覺(jué)數(shù)據(jù)。
用于創(chuàng)建數(shù)據(jù)集的Tilt-Bot(中),可用于收集視覺(jué)(左)、聲音(右下)和動(dòng)作(右上)數(shù)據(jù)利用Tilt-Bot收集的數(shù)據(jù),研究人員得出了關(guān)于聲音和機(jī)器人動(dòng)作之間相互作用的三個(gè)發(fā)現(xiàn)。
首先,聲音可以幫助機(jī)器人區(qū)分物體。通過(guò)建立學(xué)習(xí)模型,機(jī)器人可以通過(guò)聲音區(qū)分60種不同的物體,而且識(shí)別準(zhǔn)確率達(dá)到79.2%。
第二,聲音還可以幫助機(jī)器人用于識(shí)別使物體發(fā)出聲音的動(dòng)作類型。通過(guò)建立模型,機(jī)器人只要一聽(tīng)到某一物體的聲音,就能預(yù)測(cè)出使這個(gè)物體發(fā)出聲音的動(dòng)作,而且產(chǎn)生的誤差比只用視覺(jué)信息進(jìn)行識(shí)別的機(jī)器人低42%。
第三,僅通過(guò)一個(gè)物體發(fā)出的聲音,機(jī)器人就能判斷出這個(gè)物體的物理屬性,而且產(chǎn)生的誤差比僅用視覺(jué)進(jìn)行判斷產(chǎn)生的誤差低了24%。也就是說(shuō),聽(tīng)覺(jué)比視覺(jué)更能捕捉物體的物理性質(zhì)。
平托認(rèn)為,機(jī)器人能利用聲音提取信息并不奇怪,他說(shuō):“真正令人興奮的是,我們預(yù)期它會(huì)失敗時(shí),它真的就失敗了?!崩?,機(jī)器人無(wú)法通過(guò)聲音分辨紅色和綠色之間的差異?!暗?,如果是不同的物體,例如一個(gè)磚塊和一個(gè)杯子,它可能會(huì)弄清楚。”
研究人員聲稱,這是關(guān)于聲音和動(dòng)作之間相互作用的首次大規(guī)模研究。他們將把Tilt-Bot數(shù)據(jù)集公開(kāi),為將來(lái)在機(jī)器人聽(tīng)覺(jué)領(lǐng)域的研究提供幫助,擴(kuò)展聲音在機(jī)器人中的使用范圍。
平托補(bǔ)充說(shuō),我們的研究結(jié)果是如此令人鼓舞,以至于未來(lái)機(jī)器人將可能配備一根帶工具的拐杖,只要用拐杖輕輕敲擊,機(jī)器人就能識(shí)別出想要識(shí)別的物體。