123,123

微信咨詢

咨詢QQ

咨詢電話

公眾號(hào)

TOP

首頁(yè) > 資訊 > 科普新聞

-“看圖作文”，機(jī)器也能做到

來(lái)源：中國(guó)科學(xué)報(bào)

作者：鄭金武

發(fā)布時(shí)間：2021-01-20

瀏覽次數(shù)：1162

?-“看圖作文”，機(jī)器也能做到

向電腦機(jī)器里上傳一幅“有一只小熊玩偶和一堆積木”的圖畫(huà)，詢問(wèn)機(jī)器“積木在小熊的哪邊？”機(jī)器快速做出回答：“積木在小熊的左邊。”——這是預(yù)訓(xùn)練模型“文匯”的典型應(yīng)用案例。

1月11日，北京智源人工智能研究院（以下簡(jiǎn)稱“智源研究院”）發(fā)布面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型“文匯”，旨在探索解決當(dāng)前大規(guī)模自監(jiān)督預(yù)訓(xùn)練模型不具有認(rèn)知能力的問(wèn)題。這一項(xiàng)目由智源研究院發(fā)起的“悟道”攻關(guān)團(tuán)隊(duì)完成，團(tuán)隊(duì)成員包括來(lái)自智源研究院、阿里巴巴、清華、中國(guó)人民大學(xué)、中科院、搜狗、智譜.AI、循環(huán)智能等單位的科研骨干。

“‘文匯’模型針對(duì)性地設(shè)計(jì)了多任務(wù)預(yù)訓(xùn)練的方法，可以同時(shí)學(xué)習(xí)‘文到文、圖到文以及圖文到文’等多項(xiàng)任務(wù)，實(shí)現(xiàn)對(duì)多個(gè)不同模態(tài)的概念理解。”智源研究院院長(zhǎng)、北京大學(xué)信息技術(shù)學(xué)院教授黃鐵軍介紹說(shuō)。

讓機(jī)器理解自然語(yǔ)言

OpenAI，是一個(gè)由美國(guó)硅谷諸多科技公司負(fù)責(zé)人聯(lián)合建立的人工智能非營(yíng)利組織，其主要目標(biāo)包括制造“通用”機(jī)器人和使用自然語(yǔ)言的聊天機(jī)器人等。

在現(xiàn)實(shí)世界里，人與人之間的交流用的就是自然語(yǔ)言。所謂自然語(yǔ)言，通常是指一種自然地隨文化演化的語(yǔ)言，例如漢語(yǔ)、英語(yǔ)、日語(yǔ)等。

自然語(yǔ)言是人類(lèi)智慧的結(jié)晶，也是人類(lèi)交流和思維的主要工具。但要讓機(jī)器也想人一樣自由地用自然語(yǔ)言交流，卻是非常困難的事。因?yàn)檫@要求機(jī)器能像人類(lèi)一樣認(rèn)識(shí)現(xiàn)實(shí)世界，還要像人類(lèi)一樣學(xué)會(huì)思考。但顯然目前的機(jī)器還無(wú)法做到這一點(diǎn)。

在人工智能發(fā)展的進(jìn)程中，正遇到“自然語(yǔ)言處理”這只攔路虎?？梢哉f(shuō)，自然語(yǔ)言處理是人工智能中最為困難的問(wèn)題之一。

人類(lèi)的知識(shí)學(xué)習(xí)和知識(shí)積累，是一個(gè)復(fù)雜且長(zhǎng)期的過(guò)程。一個(gè)人，從小孩階段上學(xué)起始，一開(kāi)始學(xué)習(xí)語(yǔ)文、數(shù)學(xué)、物理等知識(shí)，并通過(guò)游戲、生活等經(jīng)歷在腦子里不斷積攢知識(shí)。當(dāng)孩子長(zhǎng)大學(xué)習(xí)計(jì)算機(jī)時(shí)，實(shí)際上他把以前學(xué)到的所有知識(shí)都帶進(jìn)去了。如果他以前沒(méi)學(xué)過(guò)小學(xué)、中學(xué)的知識(shí)，讓他突然學(xué)計(jì)算機(jī)，就不易懂計(jì)算機(jī)的問(wèn)題。

受此啟發(fā)，在人工智能自然語(yǔ)言處理方面，能否也先建立一個(gè)模型，這個(gè)模型就像一個(gè)已經(jīng)“學(xué)完小學(xué)、中學(xué)知識(shí)的孩子”，這個(gè)孩子到大學(xué)里，無(wú)論學(xué)習(xí)計(jì)算機(jī)知識(shí)還是學(xué)習(xí)天文知識(shí)，就容易多了。這樣的模型，就是“預(yù)訓(xùn)練模型”，能幫助科學(xué)家在人工智能領(lǐng)域更好地開(kāi)展任務(wù)處理。

早2020年5月，OpenAI就發(fā)布了迄今為止全球規(guī)模最大的預(yù)訓(xùn)練模型GPT-3。從此，超大規(guī)模預(yù)訓(xùn)練模型就成為人工智能領(lǐng)域研究的熱點(diǎn)。至2021年1月初，OpenAI又發(fā)布了DALL·E和CLIP兩個(gè)大規(guī)模預(yù)訓(xùn)練模型，用于文本與圖像鏈接處理。

智源研究院學(xué)術(shù)副院長(zhǎng)、清華大學(xué)計(jì)算機(jī)系教授唐杰介紹，此次發(fā)布的“文匯”模型，與DALL·E和CLIP這兩個(gè)預(yù)訓(xùn)練模型類(lèi)似，參數(shù)規(guī)模達(dá)113億，僅次于DALL·E模型的120億參數(shù)量，是目前我國(guó)規(guī)模最大的預(yù)訓(xùn)練模型，且已實(shí)現(xiàn)與國(guó)際領(lǐng)先預(yù)訓(xùn)練技術(shù)的并跑。

破解機(jī)器常識(shí)認(rèn)知難題

近年來(lái)，OpenAI、谷歌、臉書(shū)等國(guó)際IT公司，都在持續(xù)推動(dòng)大規(guī)模預(yù)訓(xùn)練模型的快速發(fā)展。

但唐杰指出，雖然GPT-3模型在多項(xiàng)任務(wù)中表現(xiàn)出色，但它最大的問(wèn)題是沒(méi)有常識(shí)，不具有認(rèn)知能力。

例如，向GPT-3模型提問(wèn)第一個(gè)問(wèn)題“長(zhǎng)頸鹿有幾個(gè)眼睛？”GPT-3回答是“兩個(gè)眼睛”，再提問(wèn)第二個(gè)問(wèn)題“我的腳有幾個(gè)眼睛？”GPT-3回答的結(jié)果也會(huì)是“兩個(gè)眼睛”。

“這就不符合人類(lèi)常識(shí)?！碧平鼙硎荆珿PT-3等超大型預(yù)訓(xùn)練模型在處理復(fù)雜的認(rèn)知推理任務(wù)上，例如開(kāi)放對(duì)話、基于知識(shí)的問(wèn)答、可控文本生成等，結(jié)果仍然與人類(lèi)智能有較大差距。

為推動(dòng)研發(fā)我國(guó)自主的大規(guī)模預(yù)訓(xùn)練模型，解決目前國(guó)際主流模型存在的問(wèn)題，2020年10月，智源研究院?jiǎn)?dòng)了新型超大規(guī)模預(yù)訓(xùn)練模型研發(fā)項(xiàng)目“悟道”。

黃鐵軍介紹，智源研究院是北京市成立的一個(gè)新型研發(fā)機(jī)構(gòu)，旨在支持科學(xué)家勇闖人工智能科技前沿“無(wú)人區(qū)”，挑戰(zhàn)最基礎(chǔ)的問(wèn)題和最關(guān)鍵的難題，推動(dòng)人工智能理論、方法、工具、系統(tǒng)和應(yīng)用取得變革性、顛覆性突破。

此次發(fā)布的面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型“文匯”，是“悟道”項(xiàng)目的一期研發(fā)成果，用于自動(dòng)生成圖片、文字以及視頻，可具有初級(jí)認(rèn)知能力。智

黃鐵軍介紹，“文匯”模型針對(duì)性地設(shè)計(jì)了多任務(wù)預(yù)訓(xùn)練的方法，可以同時(shí)學(xué)習(xí)“文到文、圖到文以及圖文到文”等多項(xiàng)任務(wù)，實(shí)現(xiàn)對(duì)多個(gè)不同模態(tài)的概念理解。

“經(jīng)過(guò)預(yù)訓(xùn)練的‘文匯’模型，不需要進(jìn)行微調(diào)就可以完成‘用圖生文’等任務(wù)，對(duì)模型進(jìn)行微調(diào)，則可以靈活地接入如視覺(jué)問(wèn)答、視覺(jué)推理等任務(wù)。”黃鐵軍介紹。

唐杰也表示，“文匯”模型不僅使用數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)建構(gòu)預(yù)訓(xùn)練模型，還將用戶行為、常識(shí)知識(shí)以及認(rèn)知聯(lián)系起來(lái)，主動(dòng)“學(xué)習(xí)”與創(chuàng)造。本次發(fā)布的“文匯”模型可以實(shí)現(xiàn)“用圖生文”等任務(wù)，具有一定的認(rèn)知能力。

據(jù)介紹，目前OpenAI也在研發(fā)更大規(guī)模的預(yù)訓(xùn)練模型GPT-4參數(shù)。唐杰表示，可以預(yù)測(cè)到的是，未來(lái)的GPT-4參數(shù)又會(huì)增大至少10倍，而且處理的數(shù)據(jù)將會(huì)更加多模態(tài)，能夠處理文字、圖像、視覺(jué)、聲音等。

可完成多種圖文生成任務(wù)

據(jù)介紹，“文匯”作為面向認(rèn)知的大規(guī)模預(yù)訓(xùn)練模型，項(xiàng)目研究組在研發(fā)過(guò)程中，提出了針對(duì)多模態(tài)認(rèn)知生成的大規(guī)模預(yù)訓(xùn)練的架構(gòu)。

對(duì)于上傳的圖像的處理，研究組進(jìn)行了切塊并對(duì)塊提取特征。這些特征以及對(duì)應(yīng)的位置編碼，可以讓圖像和文本能組合在一起送入模型，從而實(shí)現(xiàn)對(duì)圖像的理解。

唐杰介紹，“文匯”模型能夠完成多種圖文生成任務(wù)。

比如，給機(jī)器上傳一張一位穿旗袍女子的照片，在阿里商品場(chǎng)景下，微調(diào)參數(shù)后模型將給出描述：“旗袍是一種古典的服飾，它不僅能夠彰顯出女性優(yōu)雅、知性和美麗。這款旗袍采用了經(jīng)典的圓領(lǐng)設(shè)計(jì)，穿著舒適自在；精致的刺繡工藝，展現(xiàn)出華貴而又大氣之感……”

“文匯”模型也可以同時(shí)接受文本的提示和圖像。例如給機(jī)器上傳一張建筑圖像，同時(shí)配上提示“走進(jìn)平定縣宋家莊村，映入眼簾的是”，“文匯”模型將給出：“一座座古色古香的明清建筑，這里有著濃厚的歷史文化底蘊(yùn)和獨(dú)特的民俗風(fēng)情。走進(jìn)村子，就像走進(jìn)了一個(gè)童話故事里的世外桃源……”

這些案例，顯示了“文匯”模型在常識(shí)認(rèn)知和“用圖生文”方面的強(qiáng)大功能。

唐杰介紹，目前“文匯”已支持基于認(rèn)知推理的多種自然語(yǔ)言及跨模態(tài)應(yīng)用任務(wù)，部分應(yīng)用即將與搜狗、阿里巴巴、學(xué)堂在線、智譜.AI、循環(huán)智能等機(jī)構(gòu)合作上線。

據(jù)介紹，“文匯”模型已有四個(gè)樣例應(yīng)用可用于展示模型效果，包括基于上傳圖片的開(kāi)放域問(wèn)答、用語(yǔ)言操作數(shù)據(jù)可視化、基于預(yù)訓(xùn)練語(yǔ)言模型的詩(shī)詞創(chuàng)作應(yīng)用、可控人設(shè)的開(kāi)放域問(wèn)答等。

唐杰表示，目前“悟道”項(xiàng)目研究團(tuán)隊(duì)正在視覺(jué)等更廣泛的范圍內(nèi)，對(duì)大規(guī)模自監(jiān)督預(yù)訓(xùn)練方法開(kāi)展探索研究，已經(jīng)啟動(dòng)了四類(lèi)大規(guī)模預(yù)訓(xùn)練模型研制，包括“文源”（以中文為核心的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型）、“文匯”（面向認(rèn)知的超大規(guī)模新型預(yù)訓(xùn)練模型）、“文瀾”（超大規(guī)模多模態(tài)預(yù)訓(xùn)練模型）和“文溯”（超大規(guī)模蛋白質(zhì)序列預(yù)訓(xùn)練模型）。

在2020年11月14日，智源研究院已發(fā)布了“文源”（以中文為核心的超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型）第一階段26億參數(shù)規(guī)模的中文語(yǔ)言模型。

黃鐵軍表示，下一步智源研究院將聯(lián)合優(yōu)勢(shì)單位加快四類(lèi)大規(guī)模預(yù)訓(xùn)練模型的研發(fā)進(jìn)度，特別是“文匯”模型，未來(lái)將著力在多語(yǔ)言、多模態(tài)條件下，提升完成開(kāi)放對(duì)話、基于知識(shí)的問(wèn)答、可控文本生成等復(fù)雜認(rèn)知推理任務(wù)的能力，使其更加接近人類(lèi)水平。

關(guān)注【深圳科普】微信公眾號(hào)，在對(duì)話框：
回復(fù)【最新活動(dòng)】，了解近期科普活動(dòng)
回復(fù)【科普行】，了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營(yíng)】，了解最新科普研學(xué)營(yíng)
回復(fù)【科普課堂】，了解最新科普課堂
回復(fù)【科普書(shū)籍】，了解最新科普書(shū)籍
回復(fù)【團(tuán)體定制】，了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】，了解深圳科普基地詳情
回復(fù)【觀鳥(niǎo)知識(shí)】，學(xué)習(xí)觀鳥(niǎo)相關(guān)科普知識(shí)