中華網(wǎng)9月6日消息:近日,加州大學(xué)伯克利分校的研究人員開(kāi)發(fā)出一種新方法,可以教會(huì)機(jī)器人進(jìn)行“基于視覺(jué)的跟蹤”,以實(shí)現(xiàn)標(biāo)簽游戲等動(dòng)態(tài)任務(wù)。 決策任務(wù)。
這種方法不同于簡(jiǎn)單地跟蹤人或機(jī)器人,機(jī)器人可以主動(dòng)推斷目標(biāo)的行蹤并追捕它。 由于現(xiàn)實(shí)世界的各種限制,例如對(duì)環(huán)境和其他智能體的感知有限,很難直接通過(guò)強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)此類(lèi)行為。
因此,研究人員使用了“特權(quán)學(xué)習(xí)”。 這是監(jiān)督學(xué)習(xí)的一種形式,其中具有附加信息的教師幫助沒(méi)有附加信息的學(xué)生。
對(duì)于機(jī)器人來(lái)說(shuō),這意味著機(jī)器人老師利用逃避者未來(lái)的軌跡來(lái)推斷逃避者的意圖。 有了這些特權(quán)信息,機(jī)器人教師可以逐步指導(dǎo)學(xué)生機(jī)器人采取哪些行動(dòng)。 因此,本質(zhì)上復(fù)雜的規(guī)劃問(wèn)題對(duì)于學(xué)生來(lái)說(shuō)變成了一個(gè)簡(jiǎn)單的監(jiān)督學(xué)習(xí)問(wèn)題。
盡管這種方法很簡(jiǎn)單,但機(jī)器人可以學(xué)習(xí)動(dòng)態(tài)行為,例如在目標(biāo)轉(zhuǎn)動(dòng)時(shí)減速,或者預(yù)測(cè)目標(biāo)的去向并攔截它。
研究人員在四足機(jī)器人上測(cè)試了該方法,該機(jī)器人僅依靠?jī)?nèi)置攝像頭和本體感覺(jué),成功地與人類(lèi)和其他機(jī)器人玩追逐游戲。 該機(jī)器人還展示了模型在模擬環(huán)境中學(xué)到的復(fù)雜追蹤行為。
這種“特權(quán)學(xué)習(xí)”方法教會(huì)機(jī)器人執(zhí)行基于視覺(jué)的跟蹤,從而實(shí)現(xiàn)捉迷藏等復(fù)雜的動(dòng)態(tài)任務(wù),這是機(jī)器人技術(shù)向現(xiàn)實(shí)世界應(yīng)用邁出的一步。
但目前該系統(tǒng)無(wú)法處理障礙,需要更廣泛的人工智能訓(xùn)練和更好的傳感器。