人工智能研究公司OpenAI最新成果即是用單個機器手掌解魔方,其采用與操作?Dota 2?OpenAI Five相同的增強學(xué)習(xí)代碼,搭配一種稱為自動域隨機化(Automatic Domain Randomization,ADR)的新技術(shù),以完全模擬的方式訓(xùn)練機器手掌,現(xiàn)在機器手掌能有60%的成功率解開魔方。
對人類來說,單手解魔方也不是一件簡單的事,孩子需要花費數(shù)年的時間,才能掌握單手操作需要的靈巧性。在過去60年的機器人技術(shù),人類需要為困難的任務(wù)設(shè)計定制化的機器人,因此開發(fā)使用通用機器人硬件的方法,一直是近幾十年人類的目標,而OpenAI在這項最新的研究中,使用15年前的機器手掌,搭配最新的方法,在通用機器人硬件操作課題上前進了一步。
OpenAI利用了神經(jīng)網(wǎng)絡(luò)來解決魔方的問題,透過增強學(xué)習(xí)進行模擬,并且使用Kociemba演算法以挑選魔術(shù)方塊解法的步驟,并且利用域隨機化(Domain Randomization)將訓(xùn)練模擬轉(zhuǎn)移到真實的機器手掌上。
而讓機器手掌操作魔術(shù)方塊最大的挑戰(zhàn),是在創(chuàng)建的模擬環(huán)境中,模擬出真實世界特徵,研究人員表示,像是魔術(shù)方塊或是機器手掌這類複雜的物體,非常難模擬其摩擦、彈性或是動態(tài)性,僅是靠現(xiàn)有的域隨機化技術(shù)是遠遠不夠的,因此為了克服這個問題,他們開發(fā)了自動域隨機化技術(shù),這個技術(shù)可以在模擬訓(xùn)練中產(chǎn)生越來越困難的環(huán)境。
自動域隨機化訓(xùn)練會從單一且非隨機的環(huán)境開始,讓神經(jīng)網(wǎng)絡(luò)先學(xué)會解決魔術(shù)方塊,隨著神經(jīng)網(wǎng)絡(luò)的表現(xiàn)越來越好,在達到一定的效能閾值時,域隨機化的數(shù)量便會自動增加,讓神經(jīng)網(wǎng)絡(luò)應(yīng)付更隨機的環(huán)境,使得需要解決的任務(wù)更加困難,當(dāng)神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí)后,再次超過效能閾值時,便會再加入更多的隨機化,然后重複該過程。
自動域隨機化的參數(shù)有很多種,一開始從固定魔術(shù)方塊的大小開始,之后隨著訓(xùn)練逐漸增加隨機范圍,變動魔術(shù)方塊的尺寸和重量,也會隨機化機器手指的摩擦力和手的視覺表面材質(zhì),神經(jīng)網(wǎng)絡(luò)需要在越來越困難的情況下,解決魔術(shù)方塊。
研究人員提到,過去域隨機化需要手動指定隨機范圍,但這并不容易,太多隨機化使得學(xué)習(xí)太困難,太少又會阻礙模擬轉(zhuǎn)移到真正機器人上的效果,而自動域隨機化能夠自動擴展隨機范圍,不需要人工干預(yù),也不需要研究人員對域知識的理解,降低了該方法使用到不同領(lǐng)域的難度,而且由于自動域隨機化讓訓(xùn)練任務(wù)始終具有挑戰(zhàn)性,訓(xùn)練成效不會收斂。
自動域隨機化讓神經(jīng)網(wǎng)絡(luò)在無數(shù)種隨機情況中進行模擬,進而增加了強健性,當(dāng)神經(jīng)網(wǎng)絡(luò)從模擬轉(zhuǎn)移到真實機器人上的時候,就能夠快速辨識并適應(yīng)真實世界的環(huán)境條件。研究人員利用了各種擾動,以測試機器手掌解決魔術(shù)方塊的強健性,包括把機器手掌的兩只手指綁起來、戴上橡膠手套、阻礙視覺或是以長頸鹿玩偶隨意干擾等。
在施予擾動的初期,機器手掌解決魔術(shù)方塊的時間都會上升,研究人員解釋,這是因為之前學(xué)習(xí)的策略無法發(fā)揮作用,當(dāng)經(jīng)神經(jīng)網(wǎng)絡(luò)過一段時間學(xué)習(xí)之后,完成的時間便會下降到之前的水準。
目前OpenAI的成果,在需要15次翻轉(zhuǎn)才能完成魔術(shù)方塊的條件,機器手掌有60%的成功率解決魔術(shù)方塊,但是在需要26次翻轉(zhuǎn)的復(fù)雜條件,現(xiàn)在機器手掌就只有20%的成功率。研究人員提到,他們的神經(jīng)網(wǎng)絡(luò)在前幾次的翻轉(zhuǎn),魔術(shù)方塊掉落的機率特別大,這是因為神經(jīng)網(wǎng)絡(luò)需要透過初期的翻轉(zhuǎn)適應(yīng)物理世界。