吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在沒有大量標(biāo)記數(shù)據(jù)的情況下,讓計(jì)算機(jī)也學(xué)會(huì)翻譯?

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-05 09:20 ? 次閱讀

神經(jīng)機(jī)器翻譯(NMT)關(guān)注的是通過 AI 在不同人類語(yǔ)言之間進(jìn)行翻譯的過程。2015 年,蒙特利爾學(xué)習(xí)算法研究所的研究人員開發(fā)出了一項(xiàng)新的算法模型,最終讓機(jī)器給出了對(duì)應(yīng)的翻譯。一夜之間,像谷歌翻譯這樣的翻譯軟件質(zhì)量得到了大幅度提升。

盡管此次改進(jìn)非常顯著,但它仍需要兩種語(yǔ)言的句子對(duì),例如:“I like to eat”和“me gusta comer”分別為英語(yǔ)和法語(yǔ)中的“我想要吃”。對(duì)于從烏爾都語(yǔ)到英語(yǔ)等沒有句子對(duì)的語(yǔ)言翻譯而言,翻譯系統(tǒng)則顯得無(wú)能為力。從那時(shí)起,研究人員就開始構(gòu)建無(wú)需句子對(duì)也能翻譯的系統(tǒng),無(wú)監(jiān)督神經(jīng)機(jī)器翻譯(UNMT)就是其一。

去年 10 月末,來自西班牙圣塞巴斯蒂安巴斯克大學(xué)(UPV)和互聯(lián)網(wǎng)科技公司 Facebook 人工智能研究院(FAIR)的兩支團(tuán)隊(duì),向2018ICLR分別遞交了各自的最新研究成果——無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯模型。

當(dāng)時(shí),兩篇論文共同表明,神經(jīng)網(wǎng)絡(luò)可以在沒有平行文本的情況下學(xué)習(xí)翻譯。

這意味著該模型將突破原有的神經(jīng)機(jī)器翻譯(NMT)需要足夠大的平行語(yǔ)料庫(kù)的限制,創(chuàng)造了一種可以使用單語(yǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練的翻譯模型,并克服了平行語(yǔ)料庫(kù)不足的問題。從社會(huì)學(xué)的角度講,這將有助于我們翻譯一些語(yǔ)言已經(jīng)丟失了的文字,或者讓機(jī)器去實(shí)時(shí)翻譯一些稀有語(yǔ)言,如斯瓦西里語(yǔ)和白俄羅斯語(yǔ)。

過去一年間,不斷有研究人員試圖通過無(wú)監(jiān)督學(xué)習(xí)用大量無(wú)標(biāo)記數(shù)據(jù)訓(xùn)練以進(jìn)一步提高系統(tǒng)的翻譯能力。Facebook、紐約大學(xué)、巴斯克大學(xué)、索邦大學(xué)的研究團(tuán)隊(duì)成果顯著,成功讓機(jī)器在不知道“house”的西班牙對(duì)應(yīng)詞是“casa”的情況下翻譯出來。

近日,F(xiàn)acebook 人工智能實(shí)驗(yàn)室再次公布了有關(guān)無(wú)監(jiān)督神經(jīng)網(wǎng)絡(luò)翻譯的最新模型,相當(dāng)于用 10 萬(wàn)個(gè)參考譯文訓(xùn)練過的監(jiān)督模型。“在機(jī)器翻譯領(lǐng)域,這是一個(gè)重大的發(fā)現(xiàn),盡管世界上有超過 6500 種語(yǔ)言,但可利用的翻譯訓(xùn)練資源池要么不存在、要么就是太小不足以運(yùn)用在現(xiàn)有系統(tǒng)中。”

為了證明這一進(jìn)步的價(jià)值,研究人員給出了以下陳述:“ 1 個(gè) BLEU 點(diǎn)(判斷機(jī)器翻譯準(zhǔn)確度的常用指標(biāo))的進(jìn)步被視為該領(lǐng)域一項(xiàng)了不起的成就。我們的方法相當(dāng)于有 10 個(gè) BLEU 點(diǎn)的進(jìn)步。” 實(shí)際上,該項(xiàng)研究使得很多沒有平行文本的語(yǔ)言翻譯變得更為容易,如從烏爾都語(yǔ)到英語(yǔ)的翻譯。

▌研究原理

1、字節(jié)對(duì)編碼:不像此前為系統(tǒng)提供完整單詞的方式,只給系統(tǒng)提供單詞的一部分。例如,單詞“hello”可拆分為四部分,分別是“he”“l(fā)”“l(fā)”“o”。這意味系統(tǒng)可以學(xué)習(xí)“he”的譯詞,盡管系統(tǒng)此前從來沒有見過該詞。

2、語(yǔ)言模型:訓(xùn)練神經(jīng)網(wǎng)路學(xué)習(xí)生成在語(yǔ)言中“聽起來不錯(cuò)”的句子。例如,這個(gè)神經(jīng)網(wǎng)絡(luò)可能會(huì)將句子“您好嘛”改為“您好嗎”。

3、反向翻譯:這是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)向后翻譯的另一個(gè)技巧。例如,如果想將西班牙語(yǔ)翻譯稱英語(yǔ),就需要先教會(huì)神經(jīng)網(wǎng)絡(luò)從英語(yǔ)翻譯成西班牙語(yǔ),然后用它來生成合成數(shù)據(jù),從而增加已有的數(shù)據(jù)量。

▌逐字翻譯

讓系統(tǒng)學(xué)習(xí)雙語(yǔ)詞典,將一個(gè)單詞與其他語(yǔ)言的合理翻譯聯(lián)系起來,即系統(tǒng)學(xué)習(xí)每種語(yǔ)言中的單詞嵌入。

訓(xùn)練嵌入詞以預(yù)測(cè)跟給定上下文中單詞近似的單詞,可以發(fā)現(xiàn)很多有趣的語(yǔ)義結(jié)構(gòu)。例如,“kitty”的近義詞是“cat”,而“kitty”的嵌入詞與“animal”相近,卻與“rocket”相差很遠(yuǎn)。

此外,不同語(yǔ)言的嵌入詞有相似的領(lǐng)域結(jié)構(gòu),這在于世界各地的人都擁有相同的物理環(huán)境。例如,英語(yǔ)中的單詞“cat”和“furry”之間的關(guān)系類似于它們?cè)谖靼嘌勒Z(yǔ)中的相應(yīng)翻譯(“gato”和“peludo”),因?yàn)檫@些單詞的頻率和其上下文是相似的。

鑒于這些相似之處,研究人員建議使用對(duì)抗訓(xùn)練,以推導(dǎo)出一個(gè)相當(dāng)準(zhǔn)確的雙語(yǔ)詞典,無(wú)需訪問任何平行文本,便可實(shí)現(xiàn)逐字翻譯。

▌句子修正

不過,研究人員還是建議無(wú)監(jiān)督的方式進(jìn)行逐字翻譯,也有可能造成單詞丟失,或無(wú)序甚至是錯(cuò)誤。所以,接下來,需要在已知大量單詞數(shù)據(jù)的基礎(chǔ)上進(jìn)行編輯,對(duì)不流暢或不符合語(yǔ)法結(jié)構(gòu)的句子進(jìn)行修正。

另外,研究人員還給出以下兩種方法,一個(gè)是基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)(NMT),一個(gè)是基于短語(yǔ)的系統(tǒng)(PBSMT)。雖然任何一種方法都可以提高翻譯質(zhì)量,但二者并用將產(chǎn)生更新的顯著效果。

據(jù)了解,PBSMT(Facebook統(tǒng)計(jì)機(jī)器翻譯)是 FAIR 此前的研究成果。該系統(tǒng)學(xué)習(xí)每種語(yǔ)言中短語(yǔ)的概率分布,并教會(huì)另一個(gè)系統(tǒng)旋轉(zhuǎn)第二組的數(shù)據(jù)點(diǎn)以匹配第一組的數(shù)據(jù)點(diǎn)。

以一個(gè)比較形象的方式展示:假設(shè)有兩個(gè)圖像,一個(gè)是杯子與蓋子彼此相鄰,另一個(gè)是蓋子在杯子上。該系統(tǒng)將學(xué)習(xí)如何在沒有蓋子的情況下,在圖像周圍移動(dòng)像素以生成有蓋子的圖像。

目前,F(xiàn)acebook 人工智能實(shí)驗(yàn)室將免費(fèi)開放代碼,方便開發(fā)者獲取搭建系統(tǒng)。

▌寫在最后

要知道,多數(shù)現(xiàn)有的 AI 模型是通過“監(jiān)督學(xué)習(xí)”訓(xùn)練而成的,這也意味著必須耗費(fèi)大量的人力對(duì)樣本數(shù)據(jù)進(jìn)行標(biāo)記與分類。盡管強(qiáng)化學(xué)習(xí)與生成式對(duì)抗網(wǎng)絡(luò)的出現(xiàn)從一定程度上解決了這一問題,但數(shù)據(jù)標(biāo)記仍是目前阻礙 AI 系統(tǒng)發(fā)展的最大障礙。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4781

    瀏覽量

    101177
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47683

    瀏覽量

    240307
  • 機(jī)器翻譯
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    14947

原文標(biāo)題:翻譯們又要失業(yè)?Facebook最新無(wú)監(jiān)督機(jī)器翻譯成果,BLEU提升10個(gè)點(diǎn)!

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    云端超級(jí)計(jì)算機(jī)使用教程

    云端超級(jí)計(jì)算機(jī)是一種基于云計(jì)算的高性能計(jì)算服務(wù),它將大量計(jì)算資源和存儲(chǔ)資源集中在一起,通過網(wǎng)絡(luò)向用戶提供按需的計(jì)算服務(wù)。下面,AI部落小編為
    的頭像 發(fā)表于 12-17 10:19 ?191次閱讀

    ROM對(duì)計(jì)算機(jī)性能的影響

    是一種非易失性存儲(chǔ)器,即使在斷電的情況下能保持數(shù)據(jù)不丟失。它通常用于存儲(chǔ)固件,這些固件是計(jì)算機(jī)啟動(dòng)和運(yùn)行操作系統(tǒng)所必需的。ROM的內(nèi)容在制造過程中被寫入,并且通常不能被用戶更改。 R
    的頭像 發(fā)表于 11-04 10:31 ?510次閱讀

    計(jì)算機(jī)接口位于什么之間

    計(jì)算機(jī)接口是計(jì)算機(jī)硬件和軟件之間、計(jì)算機(jī)與外部設(shè)備之間以及計(jì)算機(jī)各部件之間傳輸數(shù)據(jù)、控制信息和狀態(tài)信息的硬件設(shè)備和軟件程序。它在
    的頭像 發(fā)表于 10-14 14:02 ?554次閱讀

    PCM1795如何在通電的情況下切換PCM模式和DSD模式?

    Ti工程師您好,項(xiàng)目上有用到PCM1795這枚芯片,因?yàn)樗哂蠨SD解碼與PCM解碼功能,之前沒有使用過類似產(chǎn)品 有兩個(gè)問題請(qǐng)教下: 1、用MCU初始化PCM1795它能正常工作,至少需要配置哪幾個(gè)相關(guān)寄存器 2、如何在
    發(fā)表于 09-29 06:00

    龍芯中科亮相第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)芯片大會(huì)

    近日,由CCF體系結(jié)構(gòu)專業(yè)委員會(huì)、集成電路設(shè)計(jì)專業(yè)委員會(huì)、容錯(cuò)計(jì)算專業(yè)委員會(huì)、計(jì)算機(jī)工程與工藝專業(yè)委員會(huì)聯(lián)合舉辦的第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)芯片大會(huì)在上海成功舉辦。大會(huì)以“發(fā)展芯技術(shù),智算芯
    的頭像 發(fā)表于 07-30 15:47 ?827次閱讀

    ESP8266如何在沒有SNTP的情況下寫入當(dāng)前的系統(tǒng)時(shí)間?

    當(dāng)我開發(fā)SSL應(yīng)用程序時(shí),我首先需要SNTP。我們希望通過添加外部RTC模塊來記錄有效時(shí)間,從而避免每次使用SSL時(shí)先使用SNTP。但是,我們沒有找到設(shè)置系統(tǒng)時(shí)間的接口。如何在沒有SNTP的
    發(fā)表于 07-09 07:19

    想在RainMaker的例程加上BLE本地控制,如何在沒有wifi的情況下能控制設(shè)備?

    沒有網(wǎng)絡(luò)時(shí),ESP RainMaker 可以通過wifi進(jìn)行本地控制. 現(xiàn)在我想在RainMaker 的例程加上BLE本地控制,在沒有wifi的情況下能控制設(shè)備。 請(qǐng)指教一
    發(fā)表于 06-26 08:05

    何在UDP的情況下監(jiān)聽自己通信是否中斷?

    請(qǐng)教大佬一個(gè)問題。 我如何在UDP的情況下監(jiān)聽自己通信是否中斷? 不知道有沒有什么可以參考的?
    發(fā)表于 06-24 06:04

    工業(yè)計(jì)算機(jī)與普通計(jì)算機(jī)的區(qū)別

    在信息化和自動(dòng)化日益發(fā)展的今天,計(jì)算機(jī)已經(jīng)成為了我們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡墓ぞ摺H欢?b class='flag-5'>計(jì)算機(jī)領(lǐng)域中,工業(yè)計(jì)算機(jī)和普通計(jì)算機(jī)雖然都具備基本的計(jì)算
    的頭像 發(fā)表于 06-06 16:45 ?1620次閱讀

    工業(yè)計(jì)算機(jī)是什么?如何在不同行業(yè)中使用?

    工業(yè)電腦是專為在工業(yè)環(huán)境中使用而設(shè)計(jì)的計(jì)算機(jī)。它們可用于各個(gè)行業(yè),包括制造、運(yùn) 輸和能源。它們通常比普通計(jì)算機(jī)更強(qiáng)大,并且能夠在大多數(shù)計(jì)算機(jī)無(wú)法運(yùn)行的環(huán)境中運(yùn)行。在本文中,我們將更深入地了解什么是工業(yè)
    的頭像 發(fā)表于 04-01 15:45 ?944次閱讀
    工業(yè)<b class='flag-5'>計(jì)算機(jī)</b>是什么?如<b class='flag-5'>何在</b>不同行業(yè)中使用?

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+ 了解量子疊加原理

    如何生產(chǎn)制造。。。。。。 近來通過閱讀《量子計(jì)算機(jī)—重構(gòu)未來》一書,結(jié)合網(wǎng)絡(luò)資料,了解了一點(diǎn)點(diǎn)量子疊加知識(shí),分享給大家。 先提一電子計(jì)算機(jī),電子計(jì)算機(jī)使用二進(jìn)制表示信息
    發(fā)表于 03-13 17:19

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+量子計(jì)算機(jī)的原理究竟是什么以及有哪些應(yīng)用

    很多有名人物,可以概覽。 總結(jié)本人作為科普小品還是可以看看的,一些距離比較形象比較有意思,但是個(gè)人覺得還是沒有解釋清楚前面已開始提到的兩個(gè)問題,量子
    發(fā)表于 03-11 12:50

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】第二章關(guān)鍵知識(shí)點(diǎn)

    質(zhì)量的不足 作者著重講解了目前離商用落地最近的量子計(jì)算機(jī)---量子退火計(jì)算機(jī),此類計(jì)算機(jī)在組合最優(yōu)化問題上,能高效地提供較高質(zhì)量的輸出結(jié)果,人在解決組合最優(yōu)化的過程中少走彎路。 量子
    發(fā)表于 03-06 23:17

    【量子計(jì)算機(jī)重構(gòu)未來 | 閱讀體驗(yàn)】+ 初識(shí)量子計(jì)算機(jī)

    話對(duì)我觸動(dòng)很大:量子計(jì)算機(jī)不僅能解決身邊的問題,還能解決社會(huì)層面的重大課題。 看來真是“天下武功,唯快不破”,只要處理速度足夠快,海量數(shù)據(jù)處理就像計(jì)算1+1一樣簡(jiǎn)單,可以想象一,用量
    發(fā)表于 03-05 17:37

    量子計(jì)算機(jī)應(yīng)用——量子計(jì)算沉浸式體驗(yàn)系統(tǒng)

    量子計(jì)算機(jī)走出實(shí)驗(yàn)室造中國(guó)自主可控量子計(jì)算機(jī)由于量子計(jì)算機(jī)的研制屬于巨型系統(tǒng)工程,真機(jī)搭建復(fù)雜,成本高昂,涉及眾多基礎(chǔ)產(chǎn)業(yè)和工程實(shí)現(xiàn)環(huán)節(jié),需要大量
    的頭像 發(fā)表于 02-24 08:21 ?456次閱讀
    量子<b class='flag-5'>計(jì)算機(jī)</b>應(yīng)用——量子<b class='flag-5'>計(jì)算</b>沉浸式體驗(yàn)系統(tǒng)
    试玩百家乐网| 百家乐官网网上赌博网| 威尼斯人娱乐天上人间| 游戏机百家乐官网下载| 娱乐城体验金| 百家乐投注信用最好的| 百家乐官网7杀6| 大发888娱乐城官方网站| 百家乐有方法赚反水| 赌博百家乐官网赢不了| 大发888娱乐场网址| 凯旋门百家乐技巧| 网上赌百家乐官网被抓应该怎么处理 | 威尼斯人娱乐网代理注| 百家乐官网网上赌场| 百家乐官网视频挖坑| 威尼斯人娱乐备用6222| 做生意门口朝向| 优博百家乐官网娱乐城| tt娱乐城网站| 黄金百家乐的玩法技巧和规则| 百家乐官网免费下| 涿州市| 大发888游戏平台官方| 百家乐翻天qvod粤语| 百家乐官网博乐36bol在线| 皇冠在线娱乐| 全讯网直播| 百家乐庄闲出现几率| 百家乐官网赚钱方| 百家乐官网什么叫缆| 大发888娱乐城m88| 百家乐怎么出千| 百家乐官网网哪一家做的最好呀| 百家乐官网真人游戏开户| 德州扑克发牌| 黄金百家乐的玩法技巧和规则| 24山的丑方位| 伯爵百家乐官网娱乐场| 赌百家乐官网的下场| 澳门赌球网|