本文首先介紹傳統(tǒng)的數(shù)據(jù)增強(qiáng)在NER任務(wù)中的表現(xiàn),然后介紹一種單獨(dú)適配于NER的數(shù)據(jù)增強(qiáng)方法,這種方法生成的數(shù)據(jù)更具豐富性、數(shù)據(jù)質(zhì)量更高。
0
前言
在NLP中有哪些數(shù)據(jù)增強(qiáng)技術(shù)?這一定是當(dāng)今NLP面試中的必考題了吧。在《標(biāo)注樣本少怎么辦?》(鏈接:https://zhuanlan.zhihu.com/p/146777068)一文中也詳細(xì)總結(jié)過(guò)這個(gè)問(wèn)題。 但是,目前來(lái)看:大多數(shù)「數(shù)據(jù)增強(qiáng)」方法通常被用于文本分類、文本匹配等任務(wù)中,這類任務(wù)有一個(gè)共性:是“句子級(jí)別”(sentence level)的分類任務(wù),大多數(shù)關(guān)于「文本增強(qiáng)」的研究也都針對(duì)這個(gè)任務(wù)。 在2020年5月的時(shí)候,JayJay突然在想:NER如何進(jìn)行數(shù)據(jù)增強(qiáng)?有什么奇思妙想可以用上?于是我陷入沉思中......
NER做數(shù)據(jù)增強(qiáng),和別的任務(wù)有啥不一樣呢?很明顯,NER是一個(gè)token-level的分類任務(wù),在進(jìn)行全局結(jié)構(gòu)化預(yù)測(cè)時(shí),一些增強(qiáng)方式產(chǎn)生的數(shù)據(jù)噪音可能會(huì)讓NER模型變得敏感脆弱,導(dǎo)致指標(biāo)下降、最終奔潰。 在實(shí)踐中,我們也可以把常用的數(shù)據(jù)增強(qiáng)方法遷移到NER中,比如,我們通常采用的「同類型實(shí)體」隨機(jī)替換等。但這類方法通常需要獲得額外資源(實(shí)體詞典、平行語(yǔ)料等),如果沒(méi)有知識(shí)庫(kù)信息,NER又該如何做數(shù)據(jù)增強(qiáng)呢?有沒(méi)有一種單獨(dú)為NER適配的數(shù)據(jù)增強(qiáng)方法呢? 本文JayJay主要介紹在最近頂會(huì)中、對(duì)NER進(jìn)行數(shù)據(jù)增強(qiáng)的2篇paper:
COLING20:《An Analysis of Simple Data Augmentation for Named Entity Recognition》
EMNLP20:《DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks》
COLING20主要是將傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法應(yīng)用于NER中、并進(jìn)行全面分析與對(duì)比。 EMNLP20主要是提出了一種適配于NER的數(shù)據(jù)增強(qiáng)方法——語(yǔ)言模型生成方法:1)這種方式不依賴于外部資源,比如實(shí)體詞典、平行語(yǔ)料等;2)可同時(shí)應(yīng)用于有監(jiān)督、半監(jiān)督場(chǎng)景。 具體效果如何,我們來(lái)一探究竟吧~本文的組織結(jié)構(gòu)為:
1
傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法遷移到NER,效果如何?
在COLING20的paper中,作者借鑒sentence-level的傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,將其應(yīng)用于NER中,共有4種方式(如上圖所示):
Label-wise token replacement (LwTR):即同標(biāo)簽token替換,對(duì)于每一token通過(guò)二項(xiàng)分布來(lái)選擇是否被替換;如果被替換,則從訓(xùn)練集中選擇相同的token進(jìn)行替換。
Synonym replacement (SR):即同義詞替換,利用WordNet查詢同義詞,然后根據(jù)二項(xiàng)分布隨機(jī)替換。如果替換的同義詞大于1個(gè)token,那就依次延展BIO標(biāo)簽。
Mention replacement (MR):即實(shí)體提及替換,與同義詞方法類似,利用訓(xùn)練集中的相同實(shí)體類型進(jìn)行替換,如果替換的mention大于1個(gè)token,那就依次延展BIO標(biāo)簽,如上圖:「headache」替換為「neuropathic pain syndrome」,依次延展BIO標(biāo)簽。
Shuffle within segments (SiS):按照mention來(lái)切分句子,然后再對(duì)每個(gè)切分后的片段進(jìn)行shuffle。如上圖,共分為5個(gè)片段: [She did not complain of], [headache], [or], [any other neurological symptoms], [.]. 。也是通過(guò)二項(xiàng)分布判斷是否被shuffle(mention片段不會(huì)被shuffle),如果shuffle,則打亂片段中的token順序。
論文也設(shè)置了不同的資源條件:
Small(S):包含50個(gè)訓(xùn)練樣本;
Medium (M):包含150個(gè)訓(xùn)練樣本;
Large (L):包含500個(gè)訓(xùn)練樣本;
Full (F):包含全量訓(xùn)練集;
由上圖可以看出:
各種數(shù)據(jù)增強(qiáng)方法都超過(guò)不使用任何增強(qiáng)時(shí)的baseline效果。
對(duì)于RNN網(wǎng)絡(luò),實(shí)體提及替換優(yōu)于其他方法;對(duì)于Transformer網(wǎng)絡(luò),同義詞替換最優(yōu)。
總體上看,所有增強(qiáng)方法一起使用(ALL)會(huì)由于單獨(dú)的增強(qiáng)方法。
低資源條件下,數(shù)據(jù)增強(qiáng)效果增益更加明顯;
充分?jǐn)?shù)據(jù)條件下,數(shù)據(jù)增強(qiáng)可能會(huì)帶來(lái)噪聲,甚至導(dǎo)致指標(biāo)下降;
2
DAGA:?jiǎn)为?dú)適配于NER的數(shù)據(jù)增強(qiáng)方法
EMNLP這篇NER數(shù)據(jù)增強(qiáng)論文DAGA來(lái)自阿里達(dá)摩院,其主要是通過(guò)語(yǔ)言模型生成來(lái)進(jìn)行增強(qiáng),其整體思路也非常簡(jiǎn)單清晰。
DAGA的核心思路也十分清晰,就是標(biāo)簽線性化:即將原始的「序列標(biāo)注標(biāo)簽」與「句子token」進(jìn)行混合,也就是變成「Tag-Word」的形式,如上圖所示:將「B-PER」放置在「Jose」之前,將「E-PER」放置在「Valentin」之前;對(duì)于標(biāo)簽「O」則不與句子混合。標(biāo)簽線性化后就可以生成一個(gè)句子了,基于這個(gè)句子就可以進(jìn)行「語(yǔ)言模型生成」訓(xùn)練啦~是不是超級(jí)簡(jiǎn)單?!
DAGA 網(wǎng)絡(luò)(如上圖)僅僅通過(guò)一層LSTM進(jìn)行自回歸的語(yǔ)言模型訓(xùn)練,網(wǎng)絡(luò)很輕,沒(méi)有基于BERT做。 DAGA的一大優(yōu)點(diǎn)就是不需要額外資源,比如同義詞替換就需要一個(gè)WordNet。但是論文也考慮到了使用外部資源時(shí)的情況,比如:1)有大量無(wú)標(biāo)注語(yǔ)料時(shí);2)有外部知識(shí)庫(kù)時(shí);
對(duì)于不同的3種資源條件下,具體的訓(xùn)練語(yǔ)料構(gòu)建如上圖所示:
對(duì)于標(biāo)注語(yǔ)料,用[labeled]在句首作為條件標(biāo)記;
對(duì)于無(wú)標(biāo)注語(yǔ)料,用[unlabeled]在句首作為條件標(biāo)記;
對(duì)于知識(shí)庫(kù),對(duì)無(wú)標(biāo)注語(yǔ)料進(jìn)行詞典匹配后(正向最大匹配),用[KB]在句首作為條件標(biāo)記;
只要輸入[BOS]+[labeled]/[unlabeled]/[KB],即可通過(guò)上述語(yǔ)言模型、自回歸生成新的增強(qiáng)數(shù)據(jù)啦~ 下面我們分別對(duì)上述3種資源條件下的生成方法進(jìn)行驗(yàn)證:2.1 只使用標(biāo)注語(yǔ)料進(jìn)行語(yǔ)言生成共采用4種實(shí)驗(yàn)設(shè)置:
gold:通過(guò)標(biāo)注語(yǔ)料進(jìn)行NER訓(xùn)練
gen:即DAGA,1)通過(guò)標(biāo)注語(yǔ)料進(jìn)行語(yǔ)言模型訓(xùn)練、生成新的數(shù)據(jù):2) 過(guò)采樣標(biāo)注語(yǔ)料; 3)新數(shù)據(jù)+過(guò)采樣標(biāo)注語(yǔ)料,最后一同訓(xùn)練NER;
rd:1)通過(guò)隨機(jī)刪除進(jìn)行數(shù)據(jù)增強(qiáng); 2)過(guò)采樣標(biāo)注語(yǔ)料;3)新數(shù)據(jù)+過(guò)采樣標(biāo)注語(yǔ)料,最后一同訓(xùn)練NER;
rd*:同rd,只是不過(guò)采樣標(biāo)注語(yǔ)料。
具體結(jié)果由上圖展示(設(shè)置了6種不同語(yǔ)言數(shù)據(jù)、不同的原始標(biāo)注數(shù)據(jù)量進(jìn)行對(duì)比),可以看出:DAGA方式(gen)明顯超過(guò)其他數(shù)據(jù)增強(qiáng)方法,特別是在低資源條件下(1k和2k數(shù)據(jù)量)。2.2 使用無(wú)標(biāo)注語(yǔ)料進(jìn)行語(yǔ)言生成共采用3種實(shí)驗(yàn)設(shè)置:
gold:通過(guò)標(biāo)注語(yǔ)料進(jìn)行NER訓(xùn)練;
wt:即弱監(jiān)督方法,采用標(biāo)注語(yǔ)料訓(xùn)練好一個(gè)NER模型,然后通過(guò)NER模型對(duì)無(wú)標(biāo)注語(yǔ)料偽標(biāo)生成新數(shù)據(jù),然后再重新訓(xùn)練一個(gè)NER模型;
gen-ud:通過(guò)標(biāo)注和無(wú)標(biāo)注語(yǔ)料共同進(jìn)行語(yǔ)言模型訓(xùn)練、生成新數(shù)據(jù),然后再訓(xùn)練NER模型;
由上圖的紅框進(jìn)行對(duì)比,可以看出:DAGA方法在所有設(shè)置下、均超過(guò)了弱監(jiān)督數(shù)據(jù)方法。其實(shí)弱監(jiān)督方法生成的數(shù)據(jù)質(zhì)量較低、噪聲較大,而DAGA可以有效改善這一情況。 可以預(yù)見(jiàn)的是:當(dāng)有大量無(wú)標(biāo)注語(yǔ)料時(shí),DAGA進(jìn)行的NER數(shù)據(jù)增強(qiáng),將有效提升NER指標(biāo)。2.3 使用無(wú)標(biāo)注語(yǔ)料+知識(shí)庫(kù)進(jìn)行語(yǔ)言生成同樣也是采用3種實(shí)驗(yàn)設(shè)置:
gold:通過(guò)標(biāo)注語(yǔ)料進(jìn)行NER訓(xùn)練;
kb:從全量訓(xùn)練集中積累實(shí)體詞典(實(shí)體要在訓(xùn)練集上中至少出現(xiàn)2次),然后用實(shí)體詞典匹配標(biāo)注無(wú)標(biāo)注語(yǔ)料、生成新數(shù)據(jù),最后再訓(xùn)練NER模型;
gen-kb:與kb類似,將kb生成的新數(shù)據(jù)訓(xùn)練語(yǔ)言模型,語(yǔ)言模型生成數(shù)據(jù)后、再訓(xùn)練NER模型;
如上圖紅框所示,總體上DAGA超過(guò)了kb方式,低資源條件(1k)下,kb方式還是強(qiáng)于DAGA。
3
DAGA為何如此有效?
DAGA更具多樣性:
如上圖所示,在原始的訓(xùn)練集中「Sandrine」只會(huì)和「Testud」構(gòu)成一個(gè)實(shí)體span,而DAGA生成的數(shù)據(jù)中,「Sandrine」會(huì)和更豐富的token構(gòu)成一個(gè)實(shí)體。
此外,DAGA會(huì)生成更豐富的實(shí)體上下文,論文以相同實(shí)體mention的1-gram作為評(píng)估指標(biāo)進(jìn)行了統(tǒng)計(jì)。如下圖所示,桔色代表DAGA生成的實(shí)體上下文,比原始的訓(xùn)練集會(huì)有更豐富的上下文。
DAGA可以有效利用無(wú)標(biāo)注語(yǔ)料:DAGA通過(guò)無(wú)標(biāo)注語(yǔ)料來(lái)生成有用的數(shù)據(jù),新數(shù)據(jù)中會(huì)出現(xiàn)那些未在標(biāo)注語(yǔ)料中出現(xiàn)的新實(shí)體。
4
總結(jié)
本文就「NER如何進(jìn)行數(shù)據(jù)增強(qiáng)」進(jìn)行了介紹:
雖然傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法也可用于NER中,不過(guò),JayJay認(rèn)為:傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法應(yīng)用到NER任務(wù)時(shí),需要外部資源,且數(shù)據(jù)增強(qiáng)的豐富性不足、噪音可能較大。
基于語(yǔ)言生成的DAGA方法是NER數(shù)據(jù)增強(qiáng)的一種新興方式,再不利用外部資源時(shí)會(huì)有較好的豐富性、數(shù)據(jù)質(zhì)量較好。
責(zé)任編輯:xj
原文標(biāo)題:打開(kāi)你的腦洞:NER如何進(jìn)行數(shù)據(jù)增強(qiáng) ?
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7145瀏覽量
89582 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13646 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22109
原文標(biāo)題:打開(kāi)你的腦洞:NER如何進(jìn)行數(shù)據(jù)增強(qiáng) ?
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
三大方法解決開(kāi)關(guān)電源適配器絕緣掩護(hù)!
一種降低VIO/VSLAM系統(tǒng)漂移的新方法
![<b class='flag-5'>一種</b>降低VIO/VSLAM系統(tǒng)漂移的新<b class='flag-5'>方法</b>](https://file1.elecfans.com/web3/M00/02/32/wKgZO2dbqBOAdkLrAABgnDOmV0Y836.png)
一種混合顏料光譜分區(qū)間識(shí)別方法
![<b class='flag-5'>一種</b>混合顏料光譜分區(qū)間識(shí)別<b class='flag-5'>方法</b>](https://file1.elecfans.com//web3/M00/00/BE/wKgZPGdNbkmASbUpAAAI0XgbdeA226.png)
一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架
![<b class='flag-5'>一種</b>面向飛行試驗(yàn)的<b class='flag-5'>數(shù)據(jù)</b>融合框架](https://file1.elecfans.com/web3/M00/00/1A/wKgZPGdGk8-ABnxHAABN_-2O8AQ544.png)
一種提升無(wú)人機(jī)小物體跟蹤精度的方法
![<b class='flag-5'>一種</b>提升無(wú)人機(jī)小物體跟蹤精度的<b class='flag-5'>方法</b>](https://file1.elecfans.com/web1/M00/F4/19/wKgZoWckPEaAVtnvAABITN1mvL0676.png)
一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法
![<b class='flag-5'>一種</b>創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)<b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/0B/46/wKgaomcfMJmAXFYrAAEzgGcXUbU308.jpg)
一種基于光強(qiáng)度相關(guān)反饋的波前整形方法
![<b class='flag-5'>一種</b>基于光強(qiáng)度相關(guān)反饋的波前整形<b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/0B/3D/wKgaomcd-maAR2liAAAIzDC2aQU423.jpg)
一種簡(jiǎn)單高效配置FPGA的方法
![<b class='flag-5'>一種</b>簡(jiǎn)單高效配置FPGA的<b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/0A/1C/wKgZomcZ7-WAIjnBAAINroizvyU375.png)
BitEnergy AI公司開(kāi)發(fā)出一種新AI處理方法
一種利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包方法
![<b class='flag-5'>一種</b>利用wireshark對(duì)遠(yuǎn)程服務(wù)器/路由器網(wǎng)絡(luò)抓包<b class='flag-5'>方法</b>](https://file.elecfans.com/web2/M00/40/03/pYYBAGJrSWqAb-nSAAAXmKtCFeo833.jpg)
一種無(wú)透鏡成像的新方法
![<b class='flag-5'>一種</b>無(wú)透鏡成像的新<b class='flag-5'>方法</b>](https://file1.elecfans.com//web2/M00/FD/50/wKgZomaZlSKAXJd7AAD91lO42tY599.jpg)
rup是一種什么模型
基于助聽(tīng)器開(kāi)發(fā)的一種高效的語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò)
江西薩瑞微獨(dú)家研發(fā)【一種LDMOS場(chǎng)效應(yīng)管及其制備方法】
![江西薩瑞微獨(dú)家研發(fā)【<b class='flag-5'>一種</b>LDMOS場(chǎng)效應(yīng)管及其制備<b class='flag-5'>方法</b>】](https://file1.elecfans.com/web2/M00/C8/D1/wKgaomYXX-2AC755AABNhUMDhL0605.png)
介紹一種OpenAtom OpenHarmony輕量系統(tǒng)適配方案
![介紹<b class='flag-5'>一種</b>OpenAtom OpenHarmony輕量系統(tǒng)<b class='flag-5'>適配</b>方案](https://file1.elecfans.com/web2/M00/C3/89/wKgaomXmdQ2API-MAAAONfnizq8510.png)
評(píng)論