久航仿真信息分析 中科院工程熱物理所供圖
依靠取之不竭的太陽(yáng)能,太陽(yáng)能無(wú)人機(jī)具備超長(zhǎng)航時(shí)的特點(diǎn),可在臨近空間航行數(shù)周或更長(zhǎng)時(shí)間,完成通信中繼、環(huán)境監(jiān)測(cè)等任務(wù),極具發(fā)展?jié)摿Α=眨?span>中科院工程熱物理研究所無(wú)人飛行器實(shí)驗(yàn)室在《中國(guó)航空學(xué)報(bào)(英文版)》(Chinese Journal of Aeronautics)發(fā)表論文,將深度強(qiáng)化學(xué)習(xí)技術(shù)引入太陽(yáng)能無(wú)人機(jī)軌跡研究,可更“智能”地規(guī)劃飛行軌跡和路徑,從而節(jié)省能源,使得無(wú)人機(jī)在空中工作更長(zhǎng)時(shí)間。
仿真試驗(yàn)顯示,在執(zhí)行固定任務(wù)并經(jīng)過(guò)一整夜飛行后,采用強(qiáng)化學(xué)習(xí)控制器的太陽(yáng)能無(wú)人機(jī)剩余電量相比初始狀態(tài)提升22%,相比于采用最小功率定常盤旋和預(yù)設(shè)三維狀態(tài)機(jī)策略的情況,剩余能量分別提高31%和17%。而在久航仿真試驗(yàn)中,采用強(qiáng)化學(xué)習(xí)控制器的飛行續(xù)航時(shí)間相比以上兩者提高超過(guò)一倍,達(dá)到59天。同時(shí),控制器也可以根據(jù)當(dāng)前飛行和輻照信息重新預(yù)測(cè)未來(lái)的飛行軌跡,平均單步推理僅用時(shí)1毫秒的時(shí)間,將重規(guī)劃用時(shí)由傳統(tǒng)方法的分鐘級(jí)提速至秒級(jí),使自主飛行能力得到了進(jìn)一步的提升。
臨近空間距離地面20~100公里,它雖然空間上十分遙遠(yuǎn),但在科學(xué)、經(jīng)濟(jì)等領(lǐng)域都具有研究?jī)r(jià)值。目前世界各國(guó)都在加強(qiáng)對(duì)臨近空間的探測(cè)和認(rèn)知,搶占臨近空間戰(zhàn)略制高點(diǎn),構(gòu)建新興的高技術(shù)平臺(tái)。相比同樣用于臨近空間的氣球與軟式氣艇而言,太陽(yáng)能無(wú)人機(jī)可控性更強(qiáng),覆蓋范圍更廣,重復(fù)利用率更高,但所處嚴(yán)苛的高空環(huán)境也對(duì)無(wú)人機(jī)的飛行能力提出更高要求。
為了搭載更多有效載荷,太陽(yáng)能無(wú)人機(jī)平臺(tái)的尺寸正在不斷增大,這對(duì)總體設(shè)計(jì)方法提出了嚴(yán)峻挑戰(zhàn)。在現(xiàn)有電池效率的限制下,如何增加太陽(yáng)能無(wú)人機(jī)的飛行航時(shí)?對(duì)此,無(wú)人飛行器實(shí)驗(yàn)室主任張子健研究員表示:“第一點(diǎn)是保持無(wú)人機(jī)性能的穩(wěn)定,使其飛得更好、更穩(wěn);第二點(diǎn)是能延長(zhǎng)續(xù)航時(shí)間,最大程度利用能量;第三點(diǎn)是在一定的約束下,提高任務(wù)覆蓋能力?!?/p>
為了實(shí)現(xiàn)這三大目標(biāo),研究人員嘗試了許多方法。如離線優(yōu)化算法幫助無(wú)人機(jī)充分利用可獲取的能量,但無(wú)法實(shí)時(shí)糾正飛行過(guò)程中的不確定性,也不能及時(shí)調(diào)整飛行狀態(tài);而一些在線算法會(huì)因?yàn)橛邢薜乃懔?dǎo)致計(jì)算效率下降。
最終,研究團(tuán)隊(duì)成員倪文俊、吳迪、畢瑩首次引入深度強(qiáng)化學(xué)習(xí)技術(shù),借助神經(jīng)網(wǎng)絡(luò)優(yōu)化飛行軌跡,提升太陽(yáng)能無(wú)人機(jī)自主控制智能規(guī)劃的能力。
深度強(qiáng)化學(xué)習(xí)更接近人類的學(xué)習(xí)習(xí)慣,是將深度神經(jīng)網(wǎng)絡(luò)的信息感知、提取能力,和優(yōu)化長(zhǎng)期目標(biāo)的決策能力相結(jié)合的一種人工智能學(xué)習(xí)方式。論文第一作者、中科院工程熱物理研究所博士生倪文俊告訴《中國(guó)科學(xué)報(bào)》,軌跡規(guī)劃是高空太陽(yáng)能無(wú)人機(jī)研究領(lǐng)域重要的一環(huán),基于能量的軌跡規(guī)劃,就是關(guān)注無(wú)人機(jī)在飛行過(guò)程中以怎樣的姿態(tài)才能更有效地提高能量利用率,完成任務(wù)執(zhí)行。
據(jù)悉,研究團(tuán)隊(duì)利用強(qiáng)化學(xué)習(xí)算法,借助神經(jīng)網(wǎng)絡(luò)接收更多異質(zhì)信息,諸如位置、速度、能量、太陽(yáng)狀態(tài)等,組成高維信息空間,將動(dòng)態(tài)軌跡生成轉(zhuǎn)化為端到端的控制,設(shè)計(jì)并建立完整的高空長(zhǎng)航時(shí)太陽(yáng)能飛機(jī)數(shù)值仿真環(huán)境以及強(qiáng)化學(xué)習(xí)框架。這樣,無(wú)人機(jī)的計(jì)算效率和實(shí)際匹配效能提升了,通過(guò)與環(huán)境交互,還能自主適應(yīng)軌跡生成,達(dá)到效能利用的最大化。
倪文俊表示,這是太陽(yáng)能無(wú)人機(jī)領(lǐng)域首次引入深度強(qiáng)化學(xué)習(xí)概念,團(tuán)隊(duì)在探索道路上也曾遇到重重阻礙。由于存在大量學(xué)科交叉,深度強(qiáng)化學(xué)習(xí)與太陽(yáng)能無(wú)人機(jī)涉及航空總體設(shè)計(jì)、人工智能、飛行控制等領(lǐng)域,需要查閱大量文獻(xiàn),學(xué)習(xí)相關(guān)知識(shí)。其次,為驗(yàn)證創(chuàng)新方法的可行性,團(tuán)隊(duì)不斷優(yōu)化框架摸索實(shí)踐,并進(jìn)行大量仿真實(shí)驗(yàn),對(duì)無(wú)人機(jī)性能、算法規(guī)律、具體操作設(shè)定、細(xì)節(jié)等方面都要有深入的考量與求證。