新型人工智能工具可翻譯200種語(yǔ)言

2024-06-07 16:11 來(lái)源：新華社編輯：張慧 0

新華社北京6月7日電人類(lèi)有超過(guò)7000種語(yǔ)言，其中包括使用人數(shù)不多、相關(guān)資料稀少的“小眾語(yǔ)言”。美國(guó)“元”公司新研發(fā)的一個(gè)人工智能模型，能翻譯200種不同語(yǔ)言，實(shí)現(xiàn)了對(duì)較多“小眾語(yǔ)言”在線翻譯。

人工智能翻譯目前多利用基于人工神經(jīng)網(wǎng)絡(luò)的模型翻譯各種語(yǔ)言。這些模型通常需要大量可在線獲取的訓(xùn)練數(shù)據(jù)。不過(guò)，有些特定語(yǔ)言的數(shù)據(jù)尚不能公開(kāi)和低成本獲取或普遍可及，這類(lèi)語(yǔ)言又被稱(chēng)為“低資源語(yǔ)言”。

“元”公司團(tuán)隊(duì)新研發(fā)的一種跨語(yǔ)言技術(shù)，能讓基于人工神經(jīng)網(wǎng)絡(luò)的翻譯模型學(xué)習(xí)如何利用已有的翻譯高資源語(yǔ)言的能力來(lái)翻譯低資源語(yǔ)言。團(tuán)隊(duì)?wèi)?yīng)用該技術(shù)開(kāi)發(fā)了一個(gè)名為NLLB-200的在線多語(yǔ)言翻譯工具，可容納200種語(yǔ)言，其能翻譯的低資源語(yǔ)言的數(shù)量是高資源語(yǔ)言數(shù)量的3倍。這一研究成果近期發(fā)表在英國(guó)《自然》雜志上。

由于研究團(tuán)隊(duì)在許多低資源語(yǔ)言上只能獲取1000至2000例樣本，為擴(kuò)大NLLB-200的訓(xùn)練數(shù)據(jù)量，他們利用一個(gè)語(yǔ)言識(shí)別系統(tǒng)發(fā)現(xiàn)了這些特定語(yǔ)言的更多實(shí)例。團(tuán)隊(duì)還從互聯(lián)網(wǎng)存檔中挖掘這些語(yǔ)言與英語(yǔ)的雙語(yǔ)文本數(shù)據(jù)，幫助提升模型的翻譯質(zhì)量。

研究者稱(chēng)，該翻譯工具可幫助低資源語(yǔ)言使用者使用互聯(lián)網(wǎng)等技術(shù)，且這一模型還可用于教育，幫助這類(lèi)人群獲取更多圖書(shū)和論文資料。不過(guò)研究者也表示，這一工具的誤譯情況仍有可能出現(xiàn)。

德州新聞網(wǎng)版權(quán)與免責(zé)聲明：

①凡本網(wǎng)注明“來(lái)源：德州新聞網(wǎng)”的所有作品，版權(quán)均屬于德州新聞網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，并注明“來(lái)源：德州新聞網(wǎng)”。違反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。

②凡本網(wǎng)注明“來(lái)源：XXX（非德州新聞網(wǎng)）”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。

③鑒于本網(wǎng)發(fā)布稿件來(lái)源廣泛、數(shù)量較多，如因作者聯(lián)系方式不詳或其它原因未能與著作權(quán)擁有者取得聯(lián)系，著作權(quán)人發(fā)現(xiàn)本網(wǎng)轉(zhuǎn)載了其擁有著作權(quán)的作品時(shí)，請(qǐng)主動(dòng)與本網(wǎng)聯(lián)系，提供相關(guān)證明材料，我網(wǎng)將及時(shí)處理。

久久午夜网,久久综合色播,色拍拍综合网,婷婷激情五月

新型人工智能工具可翻譯200種語(yǔ)言