科技科普:“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作
來(lái)源:DeepTech深科技
發(fā)布時(shí)間:2021-01-15
瀏覽次數(shù):1237
科技科普:“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

看過(guò)《蟻人》的朋友肯定會(huì)為蟻人靈活的身姿和矯捷的身手所折服。

現(xiàn)如今,雖然你成為不了蟻人,卻有機(jī)會(huì)擁有一位 “類蟻人” 朋友 —— 四足機(jī)器人 RealAnt。RealAnt 是一種低成本的四足機(jī)器人,可以通過(guò)強(qiáng)化學(xué)習(xí)來(lái)完成指定動(dòng)作。擁有螞蟻般靈活四肢的機(jī)器人 RealAnt 一經(jīng)問(wèn)世,便廣受好評(píng)。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?


“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

在過(guò)去的十幾年里,機(jī)器人學(xué)家和計(jì)算機(jī)學(xué)家們?cè)噲D利用強(qiáng)化學(xué)習(xí)(RL)的方法來(lái)訓(xùn)練機(jī)器人有效地導(dǎo)航和完成各種基本任務(wù)。然而,到目前為止,制作一個(gè)能夠支持 RL 算法且大眾負(fù)擔(dān)得起的機(jī)器人仍相當(dāng)具有挑戰(zhàn)性。

令人興奮的是,最近研究人員發(fā)明了一種四腿機(jī)器人,并用它來(lái)實(shí)現(xiàn)一種低成本的機(jī)器人算法。在 arXiv 上發(fā)表的一篇論文中提出了相關(guān)的新型機(jī)器人平臺(tái),這是一個(gè)簡(jiǎn)單且價(jià)格合理的真實(shí)世界版 “螞蟻” 機(jī)器人模擬環(huán)境,通常被用于 RL 研究。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?


“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

Ote 機(jī)器人公司的 RealAnt 機(jī)器人平臺(tái)是為實(shí)現(xiàn)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)而研究和開發(fā)的。其擁有完整的解決方案,并有網(wǎng)絡(luò)攝像機(jī)為基礎(chǔ)的跟蹤系統(tǒng)。

“我們工作的最初靈感來(lái)自 RL 研究,該研究成功地證明了在仿螞蟻以及仿人機(jī)器人上,可以通過(guò)強(qiáng)化學(xué)習(xí)從零開始學(xué)會(huì)走路?!監(jiān)te Robotics 的聯(lián)合創(chuàng)始人 Jussi Sainio 表示,算法的基本前提是編程,目的是使機(jī)器人完成任務(wù)的過(guò)程變得更容易、更自然,通過(guò)確定可用的傳感器測(cè)量值、運(yùn)動(dòng)動(dòng)作設(shè)定目標(biāo),并將它們?nèi)坎迦霃?qiáng)化學(xué)習(xí)算法,該算法就能解決其余問(wèn)題。

降低訓(xùn)練成本的高效率四足機(jī)器人亟待開發(fā)

一般來(lái)說(shuō),大多數(shù)機(jī)器人的研究是利用昂貴的設(shè)備進(jìn)行的,花費(fèi)高達(dá)數(shù)千美元,并不是所有研究人員都負(fù)擔(dān)得起。與此同時(shí),傳統(tǒng)的控制算法需要易于實(shí)現(xiàn)的精確硬件模特,這使得機(jī)器人在設(shè)計(jì)上面臨諸多限制。而強(qiáng)化學(xué)習(xí)算法能夠在不建立動(dòng)力學(xué)模型的情況下學(xué)習(xí)控制器,還可以處理噪聲的觀測(cè)和控制,優(yōu)勢(shì)有目共睹。

近年來(lái),強(qiáng)化學(xué)習(xí)領(lǐng)域取得了顯著的進(jìn)展,在解決具有挑戰(zhàn)的控制問(wèn)題方面取得了許多成功。這很大程度上取決于模擬器可以用快速測(cè)試算法性能。然而,模擬器也有弊端,其常常會(huì)對(duì)世界做出不切實(shí)際的假設(shè)。為了減少因誤判而付出的無(wú)用勞動(dòng),研究人員們需要一種將強(qiáng)化學(xué)習(xí)的發(fā)展建立在現(xiàn)實(shí)世界的問(wèn)題上的方法。

Sainio 認(rèn)為,與模擬器環(huán)境相比,沒有一個(gè)完整的軟件和硬件組合可以從現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)開始。因此,他們開始構(gòu)建自己的機(jī)器人和接口軟件原型。

基于此,Sainio 和他同事們工作的主要目標(biāo)是基于現(xiàn)有的基線 RL 解決方案創(chuàng)建一個(gè)簡(jiǎn)單而低成本的機(jī)器人平臺(tái)。這樣一個(gè)平臺(tái)將允許更多的研究人員建造和測(cè)試能夠在現(xiàn)實(shí)世界中完成各種基本任務(wù)的自主機(jī)器人。

經(jīng)過(guò)不斷探索,Ote 機(jī)器人公司開發(fā)了一個(gè)最小的低成本四足機(jī)器人 ——RealAnt 以及一個(gè)物理版本的基準(zhǔn)測(cè)試平臺(tái)。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

RealAnt 的優(yōu)點(diǎn)是顯而易見的,它功能齊全、簡(jiǎn)約、成本低廉。此外,它可以自主學(xué)習(xí)走路,協(xié)調(diào)地移動(dòng)腿,并能在給定的環(huán)境中感知自己的位置和方向。利用 RL 算法,可以訓(xùn)練它像真正的螞蟻那樣行動(dòng),從而執(zhí)行各種簡(jiǎn)單而有價(jià)值的任務(wù)。

最初,RL 算法只有在機(jī)器人模擬訓(xùn)練數(shù)千小時(shí)后才能表現(xiàn)良好。然而,通過(guò)計(jì)算機(jī)科學(xué)家的努力,已經(jīng)能夠用很少的訓(xùn)練數(shù)據(jù)來(lái)教螞蟻四足機(jī)器人 RealAnt 學(xué)會(huì)行走,從而達(dá)到了高樣本效率。這使得在現(xiàn)實(shí)世界中直接訓(xùn)練機(jī)器人成為可能,消除了基于仿真的訓(xùn)練需求成本。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

圖 | 噪聲對(duì)降低學(xué)習(xí)效率的觀測(cè)

研究人員們是通過(guò)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)一步步驗(yàn)證了自己創(chuàng)建的機(jī)器人平臺(tái),并同時(shí)提供了一組基準(zhǔn)任務(wù)的基線結(jié)果。通過(guò)實(shí)驗(yàn),他們證明了運(yùn)用 TD3 算法可以從不到 45 分鐘的經(jīng)驗(yàn)中學(xué)會(huì)行走實(shí)相。他們?cè)?MuJoCo 和 PyBullet 中提供了機(jī)器人的模擬器版本(具有相同的尺寸、狀態(tài)動(dòng)作空間和延遲噪聲觀測(cè))。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

繪制每個(gè)任務(wù)三次運(yùn)行的平均值和標(biāo)準(zhǔn)差,TD3 能夠在 40 分鐘內(nèi)學(xué)會(huì)所有任務(wù)。

實(shí)驗(yàn)中考慮進(jìn)了三個(gè)基準(zhǔn)任務(wù):

  • 站直
  • 轉(zhuǎn)動(dòng) 180 度
  • 盡可能快地向前走。

實(shí)驗(yàn)發(fā)現(xiàn),TD3 算法能夠成功地學(xué)習(xí)所有三個(gè)任務(wù)。學(xué)會(huì)站立大約需要 12 分鐘的經(jīng)驗(yàn),學(xué)會(huì)轉(zhuǎn)身需要 35 分鐘的經(jīng)驗(yàn),學(xué)會(huì)走路需要 40 分鐘的經(jīng)驗(yàn)。

“人們可以把 RealAnt 平臺(tái)想象成‘Ant’模擬器環(huán)境的真實(shí)版本,這是 RL 的一個(gè)流行基準(zhǔn)?!盨ainio 說(shuō),他們創(chuàng)建的是最便于在現(xiàn)實(shí)世界展開強(qiáng)化學(xué)習(xí)的機(jī)器人平臺(tái)之一。

RealAnt 平臺(tái)包括機(jī)器人接口所需的機(jī)器人硬件(電機(jī)、傳感器)和軟件堆棧(通信、跟蹤),而已經(jīng)對(duì)外公布的基線強(qiáng)化學(xué)習(xí)解決方案就是教它從零開始走路的方法。Sainio 表示,示例解決方案很簡(jiǎn)單,對(duì)每項(xiàng)學(xué)習(xí)任務(wù)都較少使用 ML 方面的指導(dǎo),且不用做太多的人工獎(jiǎng)勵(lì)工程來(lái)塑造學(xué)習(xí)績(jī)效,這使得定義新任務(wù)變得簡(jiǎn)單明了。

值得一提的是,RealAnt 平臺(tái)的主要優(yōu)勢(shì)在于,它是現(xiàn)成的,而且價(jià)格合理。低制造成本和易于組裝的特點(diǎn)使得 RealAnt 可以更便捷地被世界各地的人所使用。此外,與當(dāng)今市場(chǎng)上更昂貴、更復(fù)雜的機(jī)器人相比,它容易大規(guī)模進(jìn)行生產(chǎn)部署。

8 個(gè)低成本的智能伺服電機(jī)移動(dòng)保 “價(jià)” 護(hù)航

RealAnt 作為一個(gè)最小的、低成本的物理版本的 “Ant”,其基準(zhǔn)研究對(duì)現(xiàn)實(shí)世界中的強(qiáng)化學(xué)習(xí)有深刻意義。與 “Ant” 基準(zhǔn)測(cè)試類似,RealAnt 是一個(gè) 8 自由度的四足機(jī)器人,并基于易于獲得的電子元件和 3D 打印體。RealAnt 中使用的所有組件都較易得到。

“機(jī)器人的身體部位都是三維打印的,它們足夠小,可以用大多數(shù)消費(fèi)者的三維打印機(jī)打印?!盨ainio 提到,這使得該機(jī)器人的生產(chǎn)和改裝成本比采用激光切割或機(jī)械加工金屬、塑料板制造的機(jī)器人要低很多。由于 RealAnt 設(shè)計(jì)采用低成本電機(jī),通過(guò)限制電機(jī)的最大扭矩能夠小心地驅(qū)動(dòng)電機(jī),因此它們能夠承受隨機(jī)探索和任務(wù)訓(xùn)練期間的連續(xù)粗暴運(yùn)動(dòng)。

具體來(lái)看,RealAnt 主體由 4 個(gè) 3D 打印支腿,8 個(gè) Dynamixel AX-12A 伺服系統(tǒng)(和 8 個(gè) FP04-F2 機(jī)架一起銷售)以及 3 個(gè)三維打印的上下軀干構(gòu)成。機(jī)器人的每只腿由兩個(gè) Dynamixel 伺服關(guān)節(jié)組成,使用 Robotis FP04-F2 框架相互連接。使用 3D 打印的軀干頂板和底板將四個(gè)腿部組件連接在一起。3D 打印機(jī)易于使用,允許快速打印和經(jīng)濟(jì)高效的制造。零件可以使用消費(fèi)類 3D 打印機(jī)(Creality Ender 3 v2)以 PLA(Prusament 燈絲)打印。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

圖 | RealAnt 機(jī)器人的示意圖細(xì)節(jié)(所有單位均為毫米)

令手殘黨倍感欣慰的是,RealAnt 可以在不到一小時(shí)的時(shí)間內(nèi)使用十字螺絲刀、切邊鉗這些組件組裝起來(lái)。這比很多同類型機(jī)器人的組裝更加友好。

另一方面,上文提到,目前可供研究的機(jī)器人平臺(tái)要么非常昂貴,要么無(wú)法處理強(qiáng)化學(xué)習(xí)中探索控制的濫用。而此次開發(fā)的用于強(qiáng)化學(xué)習(xí)基準(zhǔn)測(cè)試的最低成本物理版本平臺(tái)價(jià)格上是絕對(duì)的實(shí)惠。RealAnt 的材料成本僅為 350AC(410 美元)。

RealAnt 機(jī)器人比其他支持 RL 的現(xiàn)有四足類機(jī)器人更便宜的原因之一是它的身體使用 8 個(gè)低成本的智能伺服電機(jī)移動(dòng),而不是更昂貴和復(fù)雜的電機(jī)。此外,為了追蹤機(jī)器人的位置和方向,還利用了可以輕松打印在紙上的 AR 標(biāo)簽和廉價(jià)的外部攝像頭。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

在真實(shí)世界與模擬環(huán)境的出色表現(xiàn)有望破圈

經(jīng)過(guò)反復(fù)測(cè)試,Sainio 和他的同事在模擬和真實(shí)世界的實(shí)驗(yàn)中綜合評(píng)估了 RealAnt,事實(shí)證明,該機(jī)器人在所有這些測(cè)試中都表現(xiàn)得非常出色,顯示出廣闊的應(yīng)用前景。

到目前為止,大多數(shù)用于機(jī)器人應(yīng)用的 ML 和 RL 技術(shù)主要是在模擬環(huán)境中訓(xùn)練的。研究人員希望 RealAnt 能開辟新的令人興奮的可能,使機(jī)器人可以在模擬和物理世界中一同進(jìn)行訓(xùn)練和測(cè)試。

一個(gè)好消息是,RealAnt 的硬件和軟件都是開源的,完全組裝好的機(jī)器人也可以在 Ote Robotic 的網(wǎng)站上輕松在線購(gòu)買。這為更多研究者得到并使用它提供了很大便利。

“四足蟻人”誕生,可通過(guò)強(qiáng)化學(xué)習(xí)完成指定動(dòng)作

?

此套餐包括:一個(gè)完全組裝的 RealAnt V1 機(jī)器人、帶有 8 個(gè) Robotis Dynamixel AX-12A 智能執(zhí)行器、Robotis OpenCM9.04A 板、USB 和電源線、一個(gè)機(jī)器人標(biāo)簽和一個(gè)參考標(biāo)簽板、12V 5A 電源。

Sainio 和他的同事們創(chuàng)建的機(jī)器人平臺(tái)可以很快幫助其他團(tuán)隊(duì)在真實(shí)的機(jī)器人上測(cè)試他們的 RL 和 ML 算法。研究人員們希望 RealAnt 未來(lái)可以促進(jìn)更廣泛的應(yīng)用和發(fā)展,例如在農(nóng)業(yè)環(huán)境中,自主學(xué)習(xí)的機(jī)器人可以用來(lái)根除雜草和收獲植物,幫助促進(jìn)生物多樣性,甚至可能減少殺蟲劑的使用。

Sainio 說(shuō):“我們現(xiàn)在打算對(duì) RealAnt 平臺(tái)進(jìn)行微調(diào)和擴(kuò)展,以增強(qiáng)硬件的能力,比如讓機(jī)器人擁有更先進(jìn)的感知能力和可能的操縱器,并在現(xiàn)有在線平臺(tái)的基礎(chǔ)上同時(shí)運(yùn)行多個(gè)機(jī)器人。同時(shí),我們也在研究如何讓 RealAnt 更快地完成其他更具挑戰(zhàn)性的任務(wù),進(jìn)一步縮短訓(xùn)練時(shí)間。”



關(guān)注【深圳科普】微信公眾號(hào),在對(duì)話框:
回復(fù)【最新活動(dòng)】,了解近期科普活動(dòng)
回復(fù)【科普行】,了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營(yíng)】,了解最新科普研學(xué)營(yíng)
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識(shí)】,學(xué)習(xí)觀鳥相關(guān)科普知識(shí)

聽說(shuō),打賞我的人最后都找到了真愛。
做科普,我們是認(rèn)真的!
掃描關(guān)注深i科普公眾號(hào)
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認(rèn)識(shí)科普小朋友
  • 成為科學(xué)小記者