像動物一樣適應(yīng)的機器人(This Robot Adapts Like Animals )」論文提出一種智能試錯法算法,算法允許機器人快速適應(yīng)破壞,完全不需要自我診斷或是提前準(zhǔn)備應(yīng)急措施。
對于人類而言,有很多危險的工作,例如撲滅森林火災(zāi),尋找地震廢墟下的幸存者,或者是關(guān)閉福島核電站等等。如果這些高危工作能讓 AI 來完成,那該有多好!
本期介紹的論文中出現(xiàn)了兩個機器人:一個六組機器人和一個機械手臂,以此來展示動作方面的智能試錯算法。這是是一種快速有效的損壞恢復(fù)算法,可以使機器人更加高效和可靠地運行。
與傳統(tǒng)強化學(xué)習(xí)(RL)方法相比,本期介紹的論文更加有效率,機器人上只需要花上幾分鐘和幾次物理試驗,而 RL 算法通常必須進行數(shù)百次測試才能學(xué)會如何完成任務(wù)。論文介紹了機器人有一個「模擬童年」(simulated childhood),在這里它學(xué)習(xí)了移動身體的不同方式,在經(jīng)過幾次測試和大約兩分鐘后就可以適應(yīng)。
本期論文跟之前的研究有兩個主要區(qū)別:
(1)機器人不需要知道損傷是什么,它只需要一種方法來衡量其性能;
(2)我們沒有一個大型資料庫來指導(dǎo),遭受各種類型的損害之后應(yīng)該怎么做。相反,我們的機器人可以像動物那樣,自行學(xué)會應(yīng)對各種損害的場景。
在這項研究中,機器人使用自己的模擬,找到成千上萬種不同的行走方式。一旦損壞,機器人會進行體驗并更新其關(guān)于每種可能行為的性能的知識(該更新將通過機器學(xué)習(xí)算法完成:高斯過程回歸)。之前所習(xí)得的 13,000 種行為統(tǒng)統(tǒng)變得不管用了,因此,機器人必須利用之前的知識進行下一步操作的可行性測試:在大多數(shù)情況下,它會測試少于 10 種行為,以找到一個盡管受到損害仍能正常工作的行為。