目前,情感識別研究主要集中在語音情感、面部表情、生理信號情感等。但無論是對哪種情感載體的識別,數(shù)據(jù)集都被看成是情感識別的前提和先決條件。圖片來源:unsplash
?
■本報記者 秦志偉
人類與人工智能的分界線是什么?是情感,如語言、面部表情、肢體動作等“感性”表現(xiàn)載體。為此,若要人工智能機器真正實現(xiàn)“人”的部分,就需要在其“理性”的思考背后加入“感性”的情感。
前不久,美國斯坦福大學(xué)團隊創(chuàng)建了一個新的視覺藝術(shù)標注數(shù)據(jù)集ArtEmis。對于給定的一幅畫作,該數(shù)據(jù)集算法不僅能感知畫作整體的情感色彩,還能區(qū)分畫中人物的情感。該數(shù)據(jù)集之所以有這樣的效果,正如華中科技大學(xué)人工智能與自動化研究院教授伍冬睿所說,與其他現(xiàn)有同類數(shù)據(jù)集相比,ArtEmis數(shù)據(jù)集的標注使用了更加豐富、感性且多樣化的語言。
然而,該數(shù)據(jù)集也只是有助于基于圖像或文本的情感計算研究。因為人類的情感是多樣的,更何況人類對大腦及大腦情感處理機制的研究還有待深入。
耗時也耗費財力
人工智能領(lǐng)域先驅(qū)、美國麻省理工學(xué)院(MIT)教授馬文·明斯基曾說,如果機器不能夠很好地模擬情感,那么人類可能永遠也不會覺得機器具有智能。1995年,MIT教授Picard提出“情感計算”概念,并將其定義為一種與情感有關(guān)、源自于情感的或可能對情感有影響的計算。
“現(xiàn)在,美國、日本、德國、中國等紛紛開展了情感機器人的研究,而情感識別則是實現(xiàn)情感交互的第一步?!惫枮I工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授李海峰介紹道。
目前,情感識別研究主要集中在語音情感、面部表情、生理信號情感等。但無論是對哪種情感載體的識別,數(shù)據(jù)集都被看成是情感識別的前提和先決條件。
“情感識別的一個重要問題是訓(xùn)練數(shù)據(jù)很難獲得,而訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量又直接關(guān)系到情感識別模型的性能?!蔽槎O颉吨袊茖W(xué)報》介紹,即使是相對容易的圖片分類,如被廣泛使用的ImageNet數(shù)據(jù)集,MIT的最新研究也指出,該數(shù)據(jù)集中5.83%的標簽不可信賴。
他進一步解釋道,情感本身很微妙、主觀、不確定,對一段語音或視頻,需要多人進行評價,然后融合,才能得到比較真實的情感標簽。
就以ArtEmis數(shù)據(jù)集為例,該數(shù)據(jù)集對名畫網(wǎng)站W(wǎng)ikiArt上1119位藝術(shù)家的 81446件藝術(shù)作品,進行了一一標注。其中,每個作品要求至少5個標注者,寫出他們看到這幅畫作時的主導(dǎo)情緒,并解釋產(chǎn)生這種情緒的原因。
具體來說,標注者被要求在觀察一件藝術(shù)品后,先從8種基本情緒狀態(tài)中,選出一種主要情緒。如果這種情緒沒有包含在8種情緒中,可將其標注為“其它”。標注者在完成第一步后,再用文字進一步解釋為什么產(chǎn)生這種感覺,或者為什么沒有任何強烈的情緒反應(yīng)。這份標注工作最終由亞馬遜眾包平臺的6377名標注者完成,總共耗時10220個小時,即425天。
已有的數(shù)據(jù)集也是類似的過程。例如,常用的DEAP視頻情感數(shù)據(jù)集,每段視頻由14~16個人共同標注;VAM語音數(shù)據(jù)集,每段語音由6~17個人共同標注。
“構(gòu)造一個好的情感計算數(shù)據(jù)集對于情緒識別非常重要,但也會花費大量的人力、財力和時間?!蔽槎L寡?。
情感是極其復(fù)雜的心理狀態(tài)
以基于腦電信號的情感計算為例,伍冬睿發(fā)現(xiàn),目前公開的用于情感計算的數(shù)據(jù)集幾乎都是采用圖像、視頻、音頻等外部方式誘發(fā)情緒變化。但當人們看到一個被標注為“高興”的視頻時,是否真的誘發(fā)了自身的“高興”情緒和對應(yīng)的生理信號反應(yīng),則很難確定。因為這里標注的“高興”是大部分人的平均值,具體到個人可能會產(chǎn)生差別。另外,即使是“高興”,也有不同的程度。這進一步增加了情感計算的不確定性和復(fù)雜度。
從事語音情感識別研究的李海峰對此也有同感。現(xiàn)有的語音情感識別基于計算機科學(xué)研究,利用機器學(xué)習(xí)的算法進行訓(xùn)練與識別。“但情感是人類極其復(fù)雜的心理狀態(tài),研究人類大腦的情感處理機制尤為重要?!?/p>
他指出,情感識別算法缺乏心理學(xué)對情感研究成果的指導(dǎo),情感識別框架也缺乏人類大腦的復(fù)雜機制和工作模式的指導(dǎo)。
但李海峰相信,認知科學(xué)的快速發(fā)展將有助于突破目前情感識別研究的瓶頸。
他進一步介紹,目前用于情感識別的網(wǎng)絡(luò)模型需要基于認知理論進一步改進,探索人類情感處理機制,并對認知模型進行實用化輸出,提出相應(yīng)的機器學(xué)習(xí)方法,進一步建立類腦多尺度神經(jīng)網(wǎng)絡(luò)計算模型以及類腦人工智能算法。
此外,針對目前高質(zhì)量的情感語料庫少等問題,李海峰建議,研究人員可制定情感數(shù)據(jù)庫標注的相關(guān)國標以明確詳細的標注規(guī)則和方法,并建立擁有完整情感標注信息的優(yōu)質(zhì)語音情感數(shù)據(jù)庫。
更好地為人類服務(wù)
在汕頭大學(xué)工學(xué)院計算機技術(shù)與科學(xué)系教授姜大志看來,如果說傳統(tǒng)計算機只是反映了理性思維,也就是重現(xiàn)了人類的“腦”,那么人工情感計算將為它增添感性思維,也就是重現(xiàn)人類的“心”。
“人工智能情感擴展并包容了情感智能,而情感則是人類智能思維中的一種高層次的存在?!彼硎?,人工情感的應(yīng)用前景非常廣泛,可以為有情感、意識和智能的服務(wù)機器人的設(shè)計提供技術(shù)支持,可以促進搜索引擎的人性化,可以讓人機交互系統(tǒng)變得更加和諧等。
例如,在對老人的看護中,人工智能可以根據(jù)微表情的識別來判斷老人是否有老年癡呆的情況,從而進行及時提醒。
提高犯罪審訊的效率也是情緒識別重要作用之一。影視劇中經(jīng)常出現(xiàn)的一幕是嫌犯坐在審訊室若無其事,任憑警察審訊,始終一言不發(fā)。如果在審訊室裝個攝像頭、傳感器,另一邊的技術(shù)室實時監(jiān)測分析嫌犯的脈搏、體溫、表情、喉結(jié)蠕動等,更有助于掌握嫌犯的心理變化。如中國政法大學(xué)和宜興市檢察院聯(lián)合建立了微反應(yīng)實驗室,并通過對犯罪嫌疑人轉(zhuǎn)瞬即逝的表情的成功捕捉,調(diào)整了審訊的方向,有助于引導(dǎo)嫌犯交代事實。
除此之外,這種技術(shù)在涉及安全作業(yè)時也起到了作用,例如對司機進行疲勞程度監(jiān)控等。
據(jù)伍冬睿介紹,我國早在1998年就將和諧人機環(huán)境中的情感計算理論研究列為當年信息技術(shù)高技術(shù)探索的主題。2018年7月,中國科協(xié)發(fā)布的12個領(lǐng)域60個重大問題中,人機情感交互位列信息科技領(lǐng)域6個問題之一。
值得一提的是,首屆情感計算與智能交互(ACII)國際會議于2005年在北京召開。
2018年,蘭州大學(xué)教授胡斌、華南理工大學(xué)教授徐向民、東南大學(xué)教授鄭文明等完成的“心理生理信息感知關(guān)鍵技術(shù)及應(yīng)用”榮獲國家技術(shù)發(fā)明獎二等獎;中科院自動化研究所研究員陶建華團隊研制的語音識別、語音合成和情感識別產(chǎn)品,分別應(yīng)用在四十余家大型跨國公司產(chǎn)品中;上海交通大學(xué)教授呂寶糧團隊采集并公開的上海交通大學(xué)情緒腦電數(shù)據(jù)集SEED是國際上最常用的兩個腦機接口標準數(shù)據(jù)集之一,已被全球770余所高校機構(gòu)使用。
“如果沒有情感識別、理解與表達,人工智能為人類更好地服務(wù)是不可能實現(xiàn)的。”伍冬睿說。
《中國科學(xué)報》 (2021-04-15 第3版 信息技術(shù))