新華社北京6月7日電 人類有超過7000種語言,其中包括使用人數(shù)不多、相關(guān)資料稀少的“小眾語言”。美國“元”公司新研發(fā)的一個人工智能模型,能翻譯200種不同語言,實現(xiàn)了對較多“小眾語言”在線翻譯。
人工智能翻譯目前多利用基于人工神經(jīng)網(wǎng)絡(luò)的模型翻譯各種語言。這些模型通常需要大量可在線獲取的訓(xùn)練數(shù)據(jù)。不過,有些特定語言的數(shù)據(jù)尚不能公開和低成本獲取或普遍可及,這類語言又被稱為“低資源語言”。
“元”公司團(tuán)隊新研發(fā)的一種跨語言技術(shù),能讓基于人工神經(jīng)網(wǎng)絡(luò)的翻譯模型學(xué)習(xí)如何利用已有的翻譯高資源語言的能力來翻譯低資源語言。團(tuán)隊?wèi)?yīng)用該技術(shù)開發(fā)了一個名為NLLB-200的在線多語言翻譯工具,可容納200種語言,其能翻譯的低資源語言的數(shù)量是高資源語言數(shù)量的3倍。這一研究成果近期發(fā)表在英國《自然》雜志上。
由于研究團(tuán)隊在許多低資源語言上只能獲取1000至2000例樣本,為擴(kuò)大NLLB-200的訓(xùn)練數(shù)據(jù)量,他們利用一個語言識別系統(tǒng)發(fā)現(xiàn)了這些特定語言的更多實例。團(tuán)隊還從互聯(lián)網(wǎng)存檔中挖掘這些語言與英語的雙語文本數(shù)據(jù),幫助提升模型的翻譯質(zhì)量。
研究者稱,該翻譯工具可幫助低資源語言使用者使用互聯(lián)網(wǎng)等技術(shù),且這一模型還可用于教育,幫助這類人群獲取更多圖書和論文資料。不過研究者也表示,這一工具的誤譯情況仍有可能出現(xiàn)。