科學(xué)研究:利用計(jì)算方法了解嬰兒是如何理解語言的
圖片來源:CC0 公共域
詞語的含義會因?yàn)檎f話者的發(fā)音不同而發(fā)生變化。比如日語并不區(qū)分“r”和“l(fā)”的發(fā)音,因此“rock”和“l(fā)ock”聽起來發(fā)音是一樣的。值得注意的是,嬰兒在開始學(xué)習(xí)說話前就已經(jīng)適應(yīng)了母語的發(fā)音。例如生活在日語環(huán)境下的一歲嬰兒會比生活在英語環(huán)境下的一歲嬰兒更難辨別出“rock”和“l(fā)ock”的區(qū)別。
對于嬰兒早期語言學(xué)習(xí)的現(xiàn)象,最初一個有影響力的科學(xué)解釋提出嬰兒會用一種被稱作“分布學(xué)習(xí)”的統(tǒng)計(jì)聚類機(jī)制,把發(fā)音歸為類元音和類輔音兩個母語發(fā)音種類。
然而,嬰兒學(xué)習(xí)類輔音和類元音的發(fā)音分類這一想法最近被一篇發(fā)表于《美國國家科學(xué)院院刊》(
Proceedings of the National Academy of Sciences)的新研究挑戰(zhàn)了。
圖片來源:Pixabay
這項(xiàng)研究由多家機(jī)構(gòu)的認(rèn)知科學(xué)家和計(jì)算語言學(xué)家組成的團(tuán)隊(duì)共同完成,研究引入了一個基于大規(guī)模模擬嬰兒語言學(xué)習(xí)過程的定向建??蚣堋_@個方法利用高計(jì)算效率的機(jī)器學(xué)習(xí)技術(shù),將學(xué)習(xí)機(jī)制系統(tǒng)性地與關(guān)于適應(yīng)母語發(fā)音的可檢驗(yàn)假設(shè)關(guān)聯(lián)起來。
“關(guān)于嬰兒究竟在學(xué)什么的假設(shè)在此前激發(fā)了研究人員們嘗試,他們希望能了解這個神奇現(xiàn)象,”這項(xiàng)研究的主要作者、馬里蘭大學(xué)馬里蘭高級計(jì)算機(jī)研究所(University of Maryland of Maryland Institute for Advanced Computer Studies,UMIACS)的博士后Thomas Schatz說道,“而我們打算從關(guān)于嬰兒是如何學(xué)習(xí)的假設(shè)開始?!?br>
除了Schatz,這項(xiàng)研究的作者還包括馬里蘭大學(xué)語言學(xué)副教授,同時任職于UMIACS的Naomi Feldman;愛丁堡大學(xué)信息學(xué)院語言、認(rèn)知與計(jì)算研究所(Institute for Language, Cognition and Computation at the University of Edinburgh's School of Informatics)的Sharon Goldwater教授;巴黎高等師范學(xué)院(Ecole Normale Supérieure, ENS)的研究工程師以及初創(chuàng)公司Langinnov和Gazouyi的聯(lián)合創(chuàng)始人Xuan-Nga Cao;以及在ENS帶領(lǐng)一個認(rèn)知機(jī)器學(xué)習(xí)研究組的Emmanuel Dupoux教授。
在這項(xiàng)研究中,研究人員通過在真實(shí)的語言輸入上訓(xùn)練一種具有高計(jì)算效率的聚類算法來模擬嬰兒的語言學(xué)習(xí)過程。從目標(biāo)語言的自然語言記錄中,以固定時間間隔提取的類似聲譜的聽覺特征,這些特征會提供給這個算法。研究中使用的語言是美式英語和日語。
圖片來源:CC0公共域
研究人員表示,該算法建出一個關(guān)于日本嬰兒早期發(fā)音知識的候選模型。接著,他們關(guān)于經(jīng)過訓(xùn)練的模型提出了兩個問題:“模型是否可以解釋學(xué)習(xí)日語和英語的嬰兒辨別說話發(fā)音的不同”和“模型是否有學(xué)習(xí)類似元音和類似輔音的發(fā)音分類”。
關(guān)于早期的發(fā)音學(xué)習(xí),占主導(dǎo)地位的科學(xué)解釋應(yīng)該和這些問題的答案是可以匹配的(兩個答案都是“是”或者都是“否”)。事實(shí)情況是,研究人員發(fā)現(xiàn)第一個問題的答案是肯定的:模型確實(shí)解釋了從嬰兒對發(fā)音的辨別情況,特別是日本嬰兒在區(qū)分“rock”和“l(fā)ock”二詞時非常困難的現(xiàn)象。然而第二個問題的答案確是否定的:他們發(fā)現(xiàn)模型在學(xué)習(xí)發(fā)音單位時方法太過簡單,再加上在單詞發(fā)音在聽覺上也不穩(wěn)定,導(dǎo)致無法去對應(yīng)類元音和類輔音的發(fā)音分類。
這個結(jié)果對此前已有的文獻(xiàn)提出質(zhì)疑,同時重新解釋早期的發(fā)音學(xué)習(xí)模式。將分辨發(fā)音類別的分布學(xué)習(xí)模式擴(kuò)展到真實(shí)學(xué)習(xí)環(huán)境中使用是非常十分困難的,這可能更好地解釋了為什么質(zhì)疑“嬰兒學(xué)習(xí)的是發(fā)音類別”的觀點(diǎn),但贊同“嬰兒如何通過純分布學(xué)習(xí)(傳統(tǒng)的解釋)來學(xué)習(xí)發(fā)音”的觀點(diǎn)。
Schatz表示,認(rèn)知科學(xué)領(lǐng)域通常不會使用大規(guī)模的模型,但是近年來先進(jìn)的計(jì)算能力、龐大的數(shù)據(jù)集、以及機(jī)器學(xué)習(xí)算法讓使用大規(guī)模模型的方法變得比以往更可行了。
Schatz和Feldman都在UMIACS的計(jì)算機(jī)語言學(xué)與信息處理實(shí)驗(yàn)室(Computational Linguistics and Information Procession (CLIP) Laboratory)工作,并且Feldman目前擔(dān)任實(shí)驗(yàn)室主任一職。Feldman表示,CLIP實(shí)驗(yàn)室和位于巴黎的認(rèn)知機(jī)器學(xué)習(xí)實(shí)驗(yàn)室所擁有的穩(wěn)定強(qiáng)大的計(jì)算資源對于該研究項(xiàng)目起到了重要作用。
總而言之,研究人員相信,基于計(jì)算的建模方法——以及不斷努力進(jìn)行的大規(guī)模實(shí)驗(yàn)數(shù)據(jù)采集,包括大規(guī)模記錄嬰兒在家的語言學(xué)習(xí)環(huán)境,以及大規(guī)模測試嬰兒的語言學(xué)習(xí)結(jié)果——這將會開啟研究人員對早期語言學(xué)習(xí)更深的探索。
翻譯:雷蘭昕
審校:巢栩嘉
引進(jìn)來源:University of Maryland
引進(jìn)鏈接:https://medicalxpress.com/news/2021-01-approach-infants-language.html
本文來自:環(huán)球科學(xué)
關(guān)注【深圳科普】微信公眾號,在對話框:
回復(fù)【最新活動】,了解近期科普活動
回復(fù)【科普行】,了解最新深圳科普行活動
回復(fù)【研學(xué)營】,了解最新科普研學(xué)營
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識】,學(xué)習(xí)觀鳥相關(guān)科普知識
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動詳情
?