Header Ads

完美解決機器人的自主導航功能竟然是靠螞蟻?


無論是平常的包裹運輸還是緊急搜索和救援任務,這些現實生活中的問題需要無人機或者其他自動機器人采用移動和高效的解決方案來應對。憑借機器學習和受昆蟲啟發的基於矢量的導航系統,代理設備可以無需依靠GPS就能夠達到關鍵地點,實現真正的自動化。

機器人可以使用攝像機和其他傳感器獲得的信息,根據環境感官線索學習如何獨立導航至山火發生地。由於矢量可以在地圖文本中表示,所以多個代理之間可以互相交流地點,加快救援和滅火速度。
這種協調的靈活性和速度將大大提高自然災害中救援任務的成功率和效率,並拯救生命。向大自然學習將有助於未來在復雜的現實世界環境中實現長距離的自主導航。


我們可以從螞蟻身上學到什麼

螞蟻和蜜蜂都是出色的導航員。例如,撒哈拉沙漠螞蟻可以在高於60°C的惡劣條件下覓食並生存下去。在這種極端環境下,它們無法像其他螞蟻一樣使用信息素跟蹤自己的長距離路程返回巢穴。相反,他們采用一種被稱為路徑集成的生物計算。它們通過天空亮度指南針(它們看待天空亮度顏色的模式和我們人類有很大的差別)和計量學刺激來估計當前的位置。
路徑集成不僅可用於安全返回巢穴,還有助於學習所謂的矢量記憶。這些記憶已經被證明足以讓螞蟻和蜜蜂產生目標導向的導航。由於這些能力能夠讓螞蟻和蜜蜂導航數百裡,所以這種控制系統在人造代理設備的應用上具有很大的潛力。
受到這個想法的啟發,我開始與來自葡萄牙Champalimaud中心的Dennis Goldschmidt和來自南丹麥大學的Poramate Manoonpong博士進行合作。在我們發布在《Frontiers in Neurorobotics》(神經機器學前沿)的論文中,我們解釋了如何為自主代理設備開發目標導向導航的神經計算模型。我們的模擬機器人能夠學習和存儲基於路徑集成的矢量記憶。

從蜜蜂到機器人

我們的虛擬數學模型有一個類生物的神經網絡組成,該神經網絡學習將矢量表示為跨越圓形數組神經元活動模式的規則。路徑集成機制接收來自代理上的羅盤傳感器和速度計的輸入。這些在網絡中輸入的集成計算出一個活動模式,它代表了設備當前位置的矢量。
神經模型的所有組件都在標準的筆記本電腦上運行,其中內置了兩種在仿真中創建的人工代理。初步的模擬包括模擬二維環境中的昆蟲行為。然後,我們在一個基於三維物理的模擬器中,使用該模型,對具有19自由度肢體運動范圍的模擬復合六組機器人進行了路徑集成和導航測試。這證明了數學模型的有效性及其在復雜步行機上的實現。Manoonpong在南丹麥大學的團隊將會把這一導航系統部署在受昆蟲啟發的物理機器人AMOS-II上。

獎勵學習

我們的代理設備還使用基於獎勵的學習規則來加強從路徑集成獲取的矢量記憶。在昆蟲的世界中,這樣的獎勵會是食物地點。我們研究的模型不僅在代理中再現了目標導向和路線形成,而且還可以預測昆蟲的導航行為。更重要的是,它為真實世界導航設備中的決策應用提供了一個簡單的計算框架。
在模擬中,獎勵是設備學習與感官線索相關聯的積極信號。自測試以來,即使沒有全球定位系統,機器人仍可以使用我們的路徑集成機制來保持對基地位置的連續跟蹤。

閉環

在進一步的研究中,我們受生物系統啟發建立了一個閉環學習框架,集成了多種代理決策的學習機制。受人類大腦學習機制的啟發,這一框架允許強化學習與其他學習機制(如監督學習)在閉路循環中工作。
允許多種學習機制反饋的閉環網絡取得了更有效率的進展,從而讓自主代理更快的學習新任務。目前大多數深度學習或深度強化學習都只集中使用和優化一種學習機制。然而,受大腦啟發的閉環方法可能會提供一個更有效率和可擴展的學習框架。


本文來自獵雲網,如若轉載,請註明出處:http://www.lieyunwang.com/archives/374896


技術提供:Blogger.