這是一篇關(guān)于風(fēng)格遷移中如何進行數(shù)據(jù)增強的論文。在introduction部分,informal-->formal 的風(fēng)格遷移問題,最大的障礙是訓(xùn)練數(shù)據(jù)的不足。為了解決此問題,本篇論文提出三種數(shù)據(jù)增強的方法來獲得有用的語句對,分別為
back translation (BT)
我們使用原始語料庫訓(xùn)練一個seq2seq模型。其中將formal語句作為模型的輸入,讓seq2seq模型有能力輸出對應(yīng)的informal句子。則 模型輸入的formal語句和輸出的informal語句就構(gòu)成了一個新的語句對。
formality discrimination (F-Dis)
F-Dis方法使用機器翻譯模型,將一個informal句子重寫為formal句子。首先使用Google翻譯API 將這些informal語句翻譯成 其他語種(比如法語),然后又翻譯回英語。如下圖所示:
其中,informal語句可以從網(wǎng)上論壇上收集得到。
表示收集到的第i條句子(informal), 是最后翻譯回的句子(formal), 二者構(gòu)成了一個新的語句對。
本方法同時使用CNN構(gòu)建了一個“格式判別器”:用來給一個句子的“正規(guī)”程度 打分。就是上圖中右邊括號內(nèi)的小數(shù)。最終選出的新數(shù)據(jù)集要求如下:
其中表示句子的“正規(guī)”程度, 是閾值
multi-task transfer (M-Task)
我們觀察到,formal語句通常語法正確,而informal語句的語法經(jīng)常出錯。
前人研究表明,對FST的輸出再使用一個語法錯誤糾正模型( grammatical error correction model,GEC)可以提高模型效果。受此啟發(fā),本論文直接使用GEC的訓(xùn)練數(shù)據(jù)作為增強的新數(shù)據(jù)集。如下圖
模型訓(xùn)練
上面提到的seq2seq模型為Transformer (base)。
本論文首先使用增強的新數(shù)據(jù)用于 預(yù)訓(xùn)練,然后使用原始語料數(shù)據(jù)做微調(diào),將這稱為pre-training & finetuning (PT&FT)方法。下面結(jié)果證明了PT&FT的效果優(yōu)于ST方法。ST是把增強數(shù)據(jù)和原數(shù)據(jù)一起訓(xùn)練。
下圖展現(xiàn)了三種數(shù)據(jù)增強方法的效果:
下圖展現(xiàn)了我們的方法與前人模型的比較結(jié)果:
責(zé)任編輯:xj
原文標(biāo)題:【ACL2020】關(guān)于正式風(fēng)格遷移的數(shù)據(jù)增強方法
文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7140瀏覽量
89581 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8439瀏覽量
133087 -
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13646
原文標(biāo)題:【ACL2020】關(guān)于正式風(fēng)格遷移的數(shù)據(jù)增強方法
文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
請問ldc1000在與主機進行數(shù)據(jù)傳輸?shù)倪^程中,數(shù)據(jù)傳輸速率設(shè)置為多大合適?
HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)文件資產(chǎn)遷移
HarmonyOS Next 應(yīng)用元服務(wù)開發(fā)-分布式數(shù)據(jù)對象遷移數(shù)據(jù)權(quán)限與基礎(chǔ)數(shù)據(jù)
使用CAN總線進行數(shù)據(jù)采集的方法
zeta的定義和應(yīng)用 如何使用zeta進行數(shù)據(jù)分析
如何使用ddc進行數(shù)據(jù)分類
如何使用cmp進行數(shù)據(jù)庫管理的技巧
如何使用SQL進行數(shù)據(jù)分析
ADS1299與STM32f407通過SPI進行數(shù)據(jù)傳輸?shù)臅r候,可以直接使用HAL庫中的HAL_SPI_Receive函數(shù)進行數(shù)據(jù)傳輸嗎?
使用TMS320C6000 MCBSP進行數(shù)據(jù)打包
![使用TMS320C6000 MCBSP<b class='flag-5'>進行數(shù)據(jù)</b>打包](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
如何進行IP檢測
![如<b class='flag-5'>何進行</b>IP檢測](https://file1.elecfans.com/web2/M00/FE/A9/wKgZomajO-aAIvzlAAKWpqpJRPo180.png)
評論