2019年10月13日 下午5:22

機器翻譯工具設計師仍多靠字典轉譯外國語言,但現在有了新方法:數字。臉書(Facebook)研究人員表示,把單字轉成數字並用語言間在數學上的相似處對譯,是有潛力新翻譯方法。

現行自動翻譯是靠兩種語言間相同文本的大型資料庫搜尋,但許多語言組合沒有足夠的對譯文本可參考,所以臉書將研發另一種方法,運用數學形式表現文字。(圖取自Unsplash圖庫)

更多

法新社報導,強大自動翻譯功能是網路巨頭的重大首要任務,因為盡可能讓全球更多人溝通不僅是利他的目標,更是筆好生意。像美國的臉書、谷歌(Google)、微軟(Microsoft)、俄羅斯的Yandex及中國的百度等企業,都不斷尋找改善翻譯工具的方法。

臉書甚至還在巴黎的研究實驗室聘請人工智慧專家,這家社群媒體企業在歐洲的基礎人工智慧研究共同負責人鮑德(Antoine Bordes)表示,臉書上使用高達200種語言。

現行自動翻譯要靠有兩種語言相同文本的大型資料庫,但多數要翻譯的語言組合沒有足夠的對譯文本可參考,所以研究人員得不斷尋找另一種方法,像是臉書新開發的這套系統,是創造以數學形式表現文字。

這個系統把每個單字變成數百維度空間中的「向量」,在口語中有緊密關聯的單字,在這個向量空間中也會很靠近。

這個系統的其中一位設計師蘭普爾(Guillaume Lample)舉例說,像「貓」跟「狗」這兩個語義上形容差不多事物的字,根本上會在向量空間中非常靠近。「如果你用的是馬德里、倫敦、巴黎等歐洲首都的名字,概念也是一樣的。」

這些語言地圖可能可以透過演演算法連結到另外一種語言的向量地圖上,一開始會很粗糙,但最後會變得愈來愈精確,直到整個句子可以匹配,沒有太多錯誤。

蘭普爾說,目前成果已經相當看好。他說,就英文對譯羅馬尼亞語來說,臉書現在的機器翻譯系統跟單字向量系統翻譯結果「差不多,或可能略差一點」。

但在英文對翻罕見語言烏爾都語(Urdu)上,由於臉書傳統翻譯工具沒有很多的這兩種語言對照文本可以參考,單字向量系統的翻譯結果就比較優。

這種方法理論上甚至也適用於巴斯克語(Basque)對譯亞馬遜(Amazon)雨林的部落語言,但蘭普爾說,要實際翻譯會需要大量書面文本將語言製圖,但亞馬遜部落語系缺乏這樣的大量文本。

他說:「如果你只有數以萬計的句子的話,就做不到,你需要數十萬才辦得到。」

法國國家科學研究中心(CNRS)的萊迪思實驗室(Lattice laboratory)也研究機器翻譯,實驗室的專家波布歐(Thierry Poibeau)稱讚說,向量系統是「觀念的革命」,甚至是機器翻譯的「聖杯」。

但他指出,這種方法可能只能讓人「對原始文本有所了解」,每次都能提供良好翻譯的能力則尚待證明。

法國國家科學研究中心機械工程科學電腦科學實驗室(LIMSI)研究員伊鋒(Francois Yvon)表示,即使翻譯不完美可能也有用,並且可能足以追蹤仇恨言論,這是臉書的首要任務。

聯絡作者:動態骷髏 文章來源