科學(xué)研究:語(yǔ)音識(shí)別的準(zhǔn)確率,永遠(yuǎn)達(dá)不到100%?

回首2010年,馬特·湯普森(Matt Thompson)在美國(guó)國(guó)家公共廣播網(wǎng)(NPR)的一篇評(píng)論文章中預(yù)言:“在不遠(yuǎn)的將來(lái),自動(dòng)語(yǔ)音轉(zhuǎn)錄技術(shù)將變得快捷、好用,而且是免費(fèi)的?!彼麑⒛且粫r(shí)刻稱為“語(yǔ)音奇點(diǎn)”,巧妙地借用了發(fā)明家雷·庫(kù)茲韋爾(Ray Kurzweil)的“奇點(diǎn)理論”——后者認(rèn)為我們的意識(shí)有朝一日可以上傳到電腦上。湯普森還預(yù)言,可靠的自動(dòng)語(yǔ)音識(shí)別(ASR)軟件將會(huì)改變記者的工作,更不用說律師、銷售人員和聽力障礙者了,所有處理語(yǔ)言說和寫的從業(yè)人員都會(huì)受到影響。
湯普森的預(yù)言曾令我十分激動(dòng),我迫切希望有一種技術(shù)能把我從令人疲倦的整理采訪記錄的工作中解脫出來(lái)。不過,雖然他在廣播領(lǐng)域有著輝煌的職業(yè)生涯,而且還在繼續(xù)(他目前擔(dān)任NPR調(diào)查報(bào)道中心的主任,負(fù)責(zé)《揭秘》節(jié)目等),但他預(yù)言的“語(yǔ)音奇點(diǎn)”似乎遙不可期。
不過,我們顯然已經(jīng)取得了重大的進(jìn)展。大量初創(chuàng)企業(yè),例如Otter、Temi和Trint,開始提供在線服務(wù)。用戶可以上傳數(shù)字音頻文件,在幾分鐘后就能獲得語(yǔ)音轉(zhuǎn)錄的文本。在我擔(dān)任音頻制作人時(shí),幾乎每一天都在使用這些服務(wù)。服務(wù)軟件生成文本的速度在提升,而所需的費(fèi)用也在不斷降低,這確實(shí)令人歡喜鼓舞。
但文本的準(zhǔn)確率卻是另一回事。2016年,微軟研究院的一個(gè)團(tuán)隊(duì)宣布,他們的機(jī)器學(xué)習(xí)算法經(jīng)過訓(xùn)練后,將標(biāo)準(zhǔn)語(yǔ)料庫(kù)的錄音轉(zhuǎn)換成文本的準(zhǔn)確率高達(dá)94%。在微軟的測(cè)試實(shí)驗(yàn)中,這一軟件幾乎能和專業(yè)的轉(zhuǎn)錄員做得一樣好,大量媒體也開始稱贊語(yǔ)音識(shí)別軟件與人類“平起平坐”的時(shí)代已經(jīng)到來(lái)。
但事實(shí)上,最后6%的準(zhǔn)確率才是真正的難題所在。一個(gè)更慘痛的教訓(xùn)的是:校對(duì)一份準(zhǔn)確率為94%的文本耗費(fèi)的時(shí)間,幾乎和直接手動(dòng)轉(zhuǎn)錄原始錄音所耗費(fèi)的時(shí)間相差無(wú)幾。而在這一次突破的4年后,Temi等服務(wù)軟件仍沒能將準(zhǔn)確率提高至95%以上,而且只能處理音質(zhì)清晰、沒有口音的語(yǔ)音。
準(zhǔn)確率為何如此重要?舉一個(gè)例子,越來(lái)越多的音頻制作者在發(fā)布播客時(shí)會(huì)遵循著網(wǎng)絡(luò)的易用性規(guī)范,附帶一份文本版本,但是,如果文本里的文字每隔20個(gè)單詞就出現(xiàn)一處錯(cuò)誤,那肯定沒人愿意看。再考慮一下,如果像Alexa、Bixby、Cortana、Google Assistant和Siri這樣的語(yǔ)音助手能夠正確識(shí)別它們接收到的每一個(gè)問題或指令,能給人們節(jié)省多少時(shí)間?
ASR軟件可能永遠(yuǎn)無(wú)法達(dá)到100%的準(zhǔn)確率。畢竟人們說話未必總是十分流利,即使是使用母語(yǔ)。語(yǔ)言中也有太多需要結(jié)合上下文才能理解的同音異義詞。(語(yǔ)音轉(zhuǎn)錄服務(wù)曾將“iOS”識(shí)別為“Ayahusca”。)
但我所期望的是,這些語(yǔ)音服務(wù)還能提升1%~2%的準(zhǔn)確率。在機(jī)器學(xué)習(xí)領(lǐng)域,為了減少算法錯(cuò)誤率,一個(gè)至關(guān)重要的方法是提供更多高質(zhì)量的訓(xùn)練數(shù)據(jù)。因此,大多文本轉(zhuǎn)錄服務(wù)商都會(huì)采用不侵犯隱私的方式搜集更多的數(shù)據(jù)。舉例來(lái)說,每一次我修訂由Trint或是Sonix轉(zhuǎn)錄的文本時(shí),我都在生成一份驗(yàn)證過的符合原始錄音的新數(shù)據(jù),這可以用于提升算法模型的質(zhì)量。如果這能讓今后的錯(cuò)誤率變得更低,我很樂于讓這些企業(yè)使用這些數(shù)據(jù)。
顯然,增加訓(xùn)練數(shù)據(jù)是實(shí)現(xiàn)“語(yǔ)音奇點(diǎn)”的方法之一。隨著我們和機(jī)器對(duì)話的數(shù)量增多,我們產(chǎn)生的音頻數(shù)量也會(huì)與日俱增,可靠的語(yǔ)音轉(zhuǎn)錄技術(shù)將不再是奢侈的幻想或是遙遙無(wú)期的目標(biāo),它必然會(huì)實(shí)現(xiàn)。
撰文:韋德·勞什(Wade Roush)
翻譯:趙劍琳
文章來(lái)源:環(huán)球科學(xué)
關(guān)注【深圳科普】微信公眾號(hào),在對(duì)話框:
回復(fù)【最新活動(dòng)】,了解近期科普活動(dòng)
回復(fù)【科普行】,了解最新深圳科普行活動(dòng)
回復(fù)【研學(xué)營(yíng)】,了解最新科普研學(xué)營(yíng)
回復(fù)【科普課堂】,了解最新科普課堂
回復(fù)【科普書籍】,了解最新科普書籍
回復(fù)【團(tuán)體定制】,了解最新團(tuán)體定制活動(dòng)
回復(fù)【科普基地】,了解深圳科普基地詳情
回復(fù)【觀鳥知識(shí)】,學(xué)習(xí)觀鳥相關(guān)科普知識(shí)
回復(fù)【博物學(xué)院】,了解更多博物學(xué)院活動(dòng)詳情
?