Deep Mind 的研究小組通過 RGB 堆疊技術(shù)(RGB-Stacking)對機器人進行強化學(xué)習(xí)訓(xùn)練,評估多個研究對象的行為和動作來提高機器人能力。該項技術(shù)利用放置在籃子內(nèi)紅色、藍色、綠色三種顏色的不同物體,對機器人手臂進行訓(xùn)練,因此被稱作 RGB 堆疊。

一、推出機器人堆疊新基準(zhǔn),開源成果

對大多數(shù)人來說,將一個物體堆疊在另一個物體上是一項簡單的任務(wù),但即使是最精密的機器人也很難一次處理多項堆疊任務(wù)。堆疊動作需要一系列不同的運動、感知和分析技能,包括與不同類型物體交互的能力,將這個簡單的人工任務(wù)提升為機器人技術(shù),是一個面臨巨大挑戰(zhàn)并極其復(fù)雜的任務(wù)。

DeepMind 關(guān)于機器人學(xué)習(xí)的研究小組認(rèn)為,推進機器人堆疊的最新技術(shù)將需要一個新的基準(zhǔn)。機器人學(xué)習(xí)會議 (the Conference on Robot Learning ,CoRL 2021)中發(fā)表的一篇論文中介紹了 RGB 堆疊,該項技術(shù)的任務(wù)是讓機器人學(xué)習(xí)如何抓住不同的物體并在彼此之間保持平衡。

雖然其他論文中已經(jīng)存在堆疊任務(wù)的相關(guān)基準(zhǔn),但研究人員認(rèn)為其研究的獨創(chuàng)性在于,研究對象選擇的多樣性以及驗證其研究發(fā)現(xiàn)而進行的評估。該論文的研究結(jié)果表明,模擬數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)的組合可用于學(xué)習(xí)“多對象操作”,這為機器人學(xué)習(xí)解決泛化新對象的問題提供了強大的基礎(chǔ)。

為了支持其他研究人員,該研究小組開源了一版模擬環(huán)境,并發(fā)布了他們用于構(gòu)建真實機器人 RGB 堆疊環(huán)境的設(shè)計,以及用于 3D 打印的 RGB 對象模型信息,并且在未來將更廣泛地開放其機器人研究過程中使用的一系列圖書館資源和工具。

二、兩大測試三大階段,挖掘機器人學(xué)習(xí)潛能

RGB 堆疊的目標(biāo)是通過強化學(xué)習(xí)訓(xùn)練機械臂堆疊不同形狀的物體。強化學(xué)習(xí)是一種機器學(xué)習(xí)技術(shù),它使機器人能夠利用自己動作和經(jīng)驗的反饋,并通過反復(fù)試驗來學(xué)習(xí)。

RGB 堆疊將一個抓手連接到籃子上方的機器人手臂上,籃子里放著紅、綠、藍不同顏色的三個物體。機器人必須在 20 秒內(nèi)將紅色物體堆疊在藍色物體上方,而綠色物體則作為障礙物來分散其注意力。

DeepMind 的研究人員表示,這個學(xué)習(xí)過程可以確保機器人通過對多個對象集的訓(xùn)練獲得通用技能。RGB 堆疊有意改變機器人抓取和堆疊的特性,這些特性定義了機器人如何抓取和堆疊每個對象,從而使機器人不斷超越更簡單的拾取和放置行為策略。

DeepMind 研究小組的 RGB 堆疊基準(zhǔn)測試包括兩個不同難度的測試。在“技能掌握”測試中,其目標(biāo)是訓(xùn)練一個能夠熟練堆疊一組預(yù)定義的五個三元組的智能體;在“技能泛化”測試中,研究人員使用相同的三元組進行評估,但在超過一百萬個可能的三元組對象上訓(xùn)練代理研究對象,為了測試泛化,這些訓(xùn)練對象中排除了被選擇在“技能掌握”中測試的三元組的對象組。其次,在這兩級測試中,又將機器學(xué)習(xí)管道分解為三個階段。

研究人員聲稱,使用 RGB 堆疊方法訓(xùn)練的機器人產(chǎn)生了“令人驚訝”的堆疊策略,并且出現(xiàn)對堆疊對象子集的“精通”現(xiàn)象。盡管如此,研究人員認(rèn)為這只觸及了機器人學(xué)習(xí)的表面內(nèi)容,而針對泛化面臨的挑戰(zhàn)仍未得到解決。

三、發(fā)布新基準(zhǔn),助推制造業(yè)再次繁榮

“隨著研究人員不斷努力解決機器人技術(shù)推廣落地的挑戰(zhàn),我們希望這個新的基準(zhǔn),連同我們發(fā)布的環(huán)境、設(shè)計和工具,有助于產(chǎn)生新的想法和方法,使操作更容易,機器人更有能力?!毖芯咳藛T補充道。

隨著機器人越來越擅長堆疊和抓取物體,一些專家認(rèn)為,這種自動化技術(shù)可能會推動美國的制造業(yè)的新繁榮。在谷歌云和哈里斯民意調(diào)查最近的一項研究中,三分之二的制造商表示,日常運營中人工智能技術(shù)的使用頻率正在增加,74% 的制造商認(rèn)為他們能夠應(yīng)對目前瞬息萬變的工作環(huán)境。

其次,制造業(yè)公司預(yù)計在未來五年的生產(chǎn)效率將會隨著數(shù)字化轉(zhuǎn)型的發(fā)展而逐漸提高。麥肯錫與世界經(jīng)濟論壇(McKinsey’s research with the World Economic Forum)的研究表明,到 2025 年,實施傳統(tǒng)工業(yè)實踐自動化“工業(yè) 4.0”的制造商,其生產(chǎn)價值的創(chuàng)造潛力將達到 3.7 萬億美元。

結(jié)語:DeepMind 新基準(zhǔn)推動機器人行業(yè)進程

在機器人學(xué)習(xí)技術(shù)的研究過程中,獲取數(shù)據(jù)較為困難,使得其發(fā)展面臨困境。作為通用人工智能領(lǐng)域的領(lǐng)軍企業(yè),DeepMind 為解決機器人學(xué)習(xí)泛化問題提出新基準(zhǔn),并且主動開放研究過程的相關(guān)資源,共享研究成果,有望推動整個行業(yè)取得新進展。

但顯而易見的是,機器人學(xué)習(xí)泛化問題仍需要長時間的探索,也是人工智能企業(yè)在未來發(fā)展面臨的重大挑戰(zhàn)。

分享到

崔歡歡

相關(guān)推薦