-還有比這更狠的學霸?AI:我教我自己
作者:袁柳
發(fā)布時間:2021-01-20
瀏覽次數:1090
-還有比這更狠的學霸?AI:我教我自己

人工智能可以通過自學完成訓練,從而用越來越復雜的方式操縱方塊。(圖片來源:OPENAI)

要學的東西太簡單?太難?人類可能會因此無聊或沮喪,但人工智能不會。在剛結束不久的神經信息處理系統(tǒng)大會(NeurIPS)上,來自加州大學伯克利分校和谷歌的研究者展示了一項新方法,讓人工智能自己訓練自己。

這一新方法有望讓自動駕駛汽車、家用機器人更快地學習,甚至可能幫助攻破懸而未決的數學難題。

人工智能在地圖導航領域已有不少研究,其中一種實驗方法是讓人工智能程序沿著有實心分布塊的2D網格導航。為了讓程序更快地熟悉復雜環(huán)境并到達目的地,科學家會對其反復訓練,從而達到強化目的,進而提高人工智能的應用程度。

新發(fā)布的研究中,來自加州大學伯克利分校的邁克爾·丹尼斯(Michael Dennis)和谷歌科學家娜塔莎·杰奎斯(Natasha Jaques)考慮了兩種繪制地圖的方法。第一種方法是在網格中隨機安排分布塊,但這一方法并沒有讓人工智能程序有很大提升。第二種方法則讓人工智能程序記住過去的嘗試,并相應地提升訓練難度——但這種方法的瓶頸在于,有時訓練模式的難度太大,程序根本無法完成。

為此,丹尼斯和杰奎斯等人創(chuàng)造了一個合適的環(huán)境,讓人工智能自我訓練。在名為“配對”(PAIRED)的新訓練方法中,他們先將已有的人工智能程序與另一個幾乎相同的程序結合,二者間的優(yōu)勢各不相同,但它們互為“對手”。在這一模式中,已有的人工智能程序是主角,但因為遇到了旗鼓相當的“對手”,挑戰(zhàn)變得非常困難,也正因此,其解決問題的能力一直處于臨界狀態(tài)。

經過一系列訓練,作為主角的人工智能程序可以解決大約五分之一的新問題。在NeurIPS的討論會上,丹尼斯表示他們對新成果即將開展的大量工作感到非常興奮。

同期,在討論會上發(fā)布的另一項研究中,杰奎斯和同事已經在用PAIRED訓練其他人工智能程序,使之學會自動填寫網絡表單并預定航班。與傳統(tǒng)模式相比,采用新訓練模式的成功率大概有50%。

對此,人工智能促進協會主席、康奈爾大學的計算機科學家巴特·塞爾曼(Bart Selman)表示,PAIRED是一種機智的人工智能訓練方法。

塞爾曼等人在討論會上介紹的研究也與人工智能的自我訓練有關。他們設計的人工智能程序需要在推箱子游戲中將方塊推向目標位置。如果規(guī)劃不當,方塊很可能陷入死胡同。

為了訓練人工智能,塞爾曼和同事創(chuàng)建了一組更簡易的拼圖。訓練程序會根據人工智能的表現好壞,選擇不同難度的“考題”,從而讓訓練計劃達到合適的水準。

不過目前為止,考題對人工智能而言難還是簡單并不好預測。在出給人工智能的225道考題中,有80%被破解,其中約三分之一的考題完全來自新的訓練方法。塞爾曼表示,這一研究發(fā)現非常有趣,未來,他們希望將有關成果應用到未解決的數學難題上。



關注【深圳科普】微信公眾號,在對話框:
回復【最新活動】,了解近期科普活動
回復【科普行】,了解最新深圳科普行活動
回復【研學營】,了解最新科普研學營
回復【科普課堂】,了解最新科普課堂
回復【科普書籍】,了解最新科普書籍
回復【團體定制】,了解最新團體定制活動
回復【科普基地】,了解深圳科普基地詳情
回復【觀鳥知識】,學習觀鳥相關科普知識

聽說,打賞我的人最后都找到了真愛。