主要貢獻(xiàn):片段語(yǔ)義角色標(biāo)注目前的兩種主流方法分別為:基于BIO序列標(biāo)注的方法和基于片段的圖解析方法。該論文提出一種新的基于詞的圖解析方法,將片段圖解析方法的搜索空間從O(n^3)降低到O(n^2),從而大幅度提升了模型的訓(xùn)練和解碼效率,且性能超過(guò)了前人結(jié)果。
-01-
摘要
該論文的出發(fā)點(diǎn)是將端到端基于片段的(span-based)語(yǔ)義角色標(biāo)注(SRL)轉(zhuǎn)換為基于詞的(word-based)圖解析(graph parsing)任務(wù)。其中主要的挑戰(zhàn)是如何在詞級(jí)別上表示片段信息。該論文通過(guò)借鑒中文分詞(CWS)和命名實(shí)體識(shí)別(NER)的研究成果,提出了四種不同的圖表示方案,即BES、BE、BIES和BII。此外,根據(jù)SRL結(jié)構(gòu)的約束,作者還提出了一個(gè)簡(jiǎn)單的約束Viterbi過(guò)程,以保證輸出圖的合法性。作者在兩個(gè)廣泛使用的CoNLL05和CONLL12基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,在端到端和謂詞給定的所有設(shè)置下,在沒(méi)有和有預(yù)訓(xùn)練語(yǔ)言模型的情況下,該論文提出的基于word的圖解析方法都取得了比以前方法更好的性能。更重要的是,該論文提出的方法推理速度很快,在不使用預(yù)訓(xùn)練模型(PLMs)的情況下,每秒可以解析669個(gè)句子;在使用PLMs的情況下,每秒可以解析252個(gè)句子。
-02-
背景介紹
語(yǔ)義角色標(biāo)注是自然語(yǔ)言處理(NLP)中一個(gè)必不可少的任務(wù),它使用謂詞-論元的結(jié)構(gòu)去表示一個(gè)淺層的句子語(yǔ)義。SRL結(jié)構(gòu)能夠幫助解決很多下游NLP任務(wù),比如機(jī)器翻譯和問(wèn)答。
SRL存在兩個(gè)形式,分別基于詞(word-based)和片段(span-based),劃分依據(jù)取決于一個(gè)論元是包含單個(gè)單詞還是一個(gè)片段。對(duì)比基于word的SRL來(lái)說(shuō),基于span的SRL是更加復(fù)雜的。上圖1也展示了一個(gè)基于span的樣例,語(yǔ)義角色被邊的標(biāo)簽所劃分,比如施事(agent)“A0”和受事(patient)“A1”。
隨著深度學(xué)習(xí)的發(fā)展,尤其是預(yù)訓(xùn)練模型的提出,基于span的SRL近些年也取得了巨大的進(jìn)展,吸引了研究人員們的關(guān)注。該工作主要關(guān)注端到端基于span的SRL任務(wù),并提出了一個(gè)模型可以同時(shí)識(shí)別輸入句子中的謂詞和論元。這里端到端是指一個(gè)句子中所有的謂詞和論元都是通過(guò)單個(gè)模型同時(shí)推斷得到的。
基于span的圖解析方法直接把所有的詞片段考慮為候選論元節(jié)點(diǎn),并將他們鏈接到謂詞節(jié)點(diǎn)上。然而,對(duì)于一個(gè)句長(zhǎng)為n的句子,計(jì)算候選謂詞和候選論元的復(fù)雜度分別為O(n)和O(n^2),從而導(dǎo)致了一個(gè)非常大的搜索空間O(n^3),使得這種方法效率較低。在以往的一些工作,通常使用啟發(fā)式剪枝技術(shù)來(lái)提高效率。
針對(duì)端到端基于span的 SRL,該論文首次提出了一種基于word的圖解析方法。由于圖網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)只對(duì)應(yīng)于單個(gè)單詞,關(guān)鍵的挑戰(zhàn)是如何在基于單詞的圖中表示基于span的論元。一旦解決了這個(gè)問(wèn)題,就可以在現(xiàn)有的基于單詞的圖解析模型基礎(chǔ)上構(gòu)建解析器。該工作的主要貢獻(xiàn)點(diǎn)如下:
1: 提出了一種新的基于word的圖解析方法,可以用于端到端基于span的SRL。通過(guò)簡(jiǎn)單的修改,該方法也可以應(yīng)用于謂詞給定的設(shè)置。
2: 借鑒中文分詞(CWS)和命名實(shí)體識(shí)別(NER)的研究思路,作者提出了4個(gè)圖方案,其中BES方案穩(wěn)定優(yōu)于其他方案。
3: 同時(shí),由于圖解析模型可能會(huì)輸出不合法的圖,不能正確地轉(zhuǎn)換為SRL結(jié)構(gòu)。為了解決這一問(wèn)題,作者提出了一個(gè)簡(jiǎn)單的約束Viterbi過(guò)程(constrained Viterbi procedure),用于非法圖的后處理。
4: 作者在CoNLL05和CoNLL12基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。在端到端和謂詞給定的所有設(shè)置下,無(wú)論是否使用PLMs,該論文提出的方法都能取得比以前方法更好的性能。并且模型推斷速度要快得多,在不使用PLMs和使用PLMs的情況下,每秒分別可以分析669/252個(gè)句子。
-03-
方法
3.1 圖構(gòu)造方案
該工作把端到端基于span的SRL看作是一個(gè)基于word的圖解析任務(wù)。但是所面臨的一個(gè)關(guān)鍵挑戰(zhàn)是需要設(shè)計(jì)一個(gè)合適的圖方案使得在不產(chǎn)生歧義的情況下,讓所有的謂詞和基于span的論元能夠在同一個(gè)圖中被正確表示。并且,這個(gè)圖在沒(méi)有性能損失的情況下,也可以被轉(zhuǎn)換成其對(duì)應(yīng)SRL結(jié)構(gòu)。方案具體設(shè)計(jì)如下所述。
3.1.1 SRL-Graph轉(zhuǎn)換
該工作設(shè)計(jì)了四種不同的方案來(lái)將基于span的SRL結(jié)構(gòu)轉(zhuǎn)換為基于word的圖。其基本的想法是連接論元的詞語(yǔ)到其對(duì)應(yīng)的謂詞,并且標(biāo)記出語(yǔ)義角色標(biāo)簽和詞在論元中的位置。具體來(lái)講,該工作在句子的開(kāi)頭添加一個(gè)偽“Root”節(jié)點(diǎn),并且把所有的謂詞連接到這個(gè)節(jié)點(diǎn),其所構(gòu)造的邊為“PRD”。這樣的設(shè)計(jì)能夠?qū)崿F(xiàn)通過(guò)一個(gè)端到端的方式直接預(yù)測(cè)謂詞和論元。通過(guò)借鑒CWS和NER的思想,該工作提出兩種論元到其對(duì)應(yīng)謂詞的策略:boundary-attach和all-attach。boundary-attach表示僅僅連接論元開(kāi)頭和結(jié)尾的詞語(yǔ)到對(duì)應(yīng)的的謂詞上。而all-attach表示連接論元中所有的單詞到其對(duì)應(yīng)謂詞。該工作又分別為這兩種策略設(shè)計(jì)了兩個(gè)連接的方案,對(duì)應(yīng)如下:
Boundary-attach:BES和BE
如上圖所示,對(duì)應(yīng)了該工作所設(shè)計(jì)的boundary-attach的兩種方案BES和BE,分別為紅色和藍(lán)色。當(dāng)論元包含多個(gè)單詞的時(shí)候,兩種方案均只需要把論元的開(kāi)頭和結(jié)尾的單詞連接到對(duì)應(yīng)謂詞,并使用“B-r”和“E-r”作為對(duì)應(yīng)的邊標(biāo)簽,其中r表示這個(gè)原始的語(yǔ)義角色標(biāo)簽。
當(dāng)論元只有一個(gè)單詞的時(shí)候, BE方案僅僅使用“B-r”作為標(biāo)簽。而為了區(qū)分論元包含多個(gè)詞和單個(gè)詞的情況,BES方案使用額外的“S-r”作為標(biāo)簽。
All-attach: BIES 和 BII
如上圖所示,對(duì)應(yīng)了該工作所設(shè)計(jì)的all-attach的兩種方案BIES和BII,分別為紅色和藍(lán)色。在這個(gè)BII方案中,第一次詞被標(biāo)記為“B-r”,然后后面的詞語(yǔ)被標(biāo)記為“I-r”。對(duì)于BIES方案,其開(kāi)頭詞語(yǔ)和結(jié)尾詞語(yǔ)的標(biāo)記方法和BES類(lèi)似,仍為“B-r”和“E-r”,中間的單詞被標(biāo)記為“I-r”。
3.1.2 SRL-Graph恢復(fù)
在評(píng)估階段,輸入一個(gè)句子,圖解析模型根據(jù)選擇的方案,輸出一個(gè)最優(yōu)的圖。這之后的主要工作是如何將這個(gè)圖恢復(fù)到對(duì)應(yīng)的SRL結(jié)構(gòu)。
假如該輸出的圖是沒(méi)有標(biāo)簽沖突的,那么可以直接進(jìn)行恢復(fù)。比如對(duì)應(yīng)BES方案,圖中“Root”節(jié)點(diǎn)的全部孩子節(jié)點(diǎn)(word)可以被認(rèn)為是謂詞。然后對(duì)應(yīng)每一個(gè)謂詞,使用邊標(biāo)注來(lái)恢復(fù)所有其對(duì)應(yīng)的論元。一個(gè)論元對(duì)應(yīng)成對(duì)的標(biāo)簽,比如“B-A0”和“E-A0”,或者是一個(gè)單獨(dú)的標(biāo)簽,比如“S-A0”。
但是在實(shí)際過(guò)程中,保證被輸出圖的合法性是非常困難的,往往并不能直接根據(jù)上述的規(guī)則將圖恢復(fù)為SRL結(jié)構(gòu)。為了解決這個(gè)問(wèn)題,該工作基于一個(gè)受約束的Viterbi解碼方法提出了一個(gè)簡(jiǎn)單并且高效的后處理方法,具體描述在章節(jié)3.3中。
3.2 模型
基于上面提出的方案,我們可以將基于span的作為基于word的圖解析任務(wù)進(jìn)行處理。該論文的模型框架包括兩個(gè)階段: 1)預(yù)測(cè)所有邊 2)為邊分配標(biāo)簽。
3.2.1 編碼器
雙向LSTM:模型的輸入單詞w_{i}是由三部分組成,
從左至右依次是詞向量、引理向量(lemma embedding)和char LSTM表示向量。將送入三層BiLSTM編碼器中,計(jì)算得到每個(gè)單詞的表示。
預(yù)訓(xùn)練模型:該論文也嘗試分別使用ELMo和BERT兩個(gè)預(yù)訓(xùn)練模型作為編碼器。其中,使用ELMo三層輸出的和作為表示,使用BERT最后四層輸出的和作為表示。
3.2.2 邊預(yù)測(cè)
在語(yǔ)義依存圖解析(SDGP)中,邊的預(yù)測(cè)問(wèn)題被看作是0/1的二分類(lèi)問(wèn)題。這里的1代表在給定的單詞對(duì)之間存在一條邊,0則代表給定的單詞對(duì)之間不存在邊。當(dāng)計(jì)算得到的存在邊的概率大于0.5時(shí),就認(rèn)為兩個(gè)單詞之間存在邊。
對(duì)于該論文提出的方法來(lái)說(shuō),僅僅使用一階子樹(shù)是不夠的,原因在于一階模型做了強(qiáng)假設(shè),即邊是相互獨(dú)立的,因此在計(jì)算logits的時(shí)候只需要關(guān)注當(dāng)前兩個(gè)單詞之間的信息。然而,在該論文的例子中,圖中的邊通常具有很強(qiáng)的相關(guān)性。例如,在BE方案中,一條“B-*”的邊通常調(diào)用一條“E-*”的邊,反之亦然,以形成一個(gè)完整的論元。所以該論文通過(guò)增加二階子樹(shù)的三種情況將模型從一階擴(kuò)展至二階。該論文使用MFVI(mean field variational inference,平均場(chǎng)變分推斷)來(lái)計(jì)算logits。(注:這部分內(nèi)容讀者可以參考論文《Second-order semantic dependency parsing with end-to-end neural networks》(https://arxiv.org/pdf/1906.07880.pdf);一階、二階子樹(shù)參考下圖例子。
(圖片源自【王新宇- Second-Order Semantic Dependency Parsing with End-to-End Neural Networks】 https://www.bilibili.com/video/BV1bE411f7b9))
logits的計(jì)算分成兩部分:第一部分是一階分?jǐn)?shù)s(i,j),使用兩個(gè)MLP和BiAffine計(jì)算得到。第二部分是二階分?jǐn)?shù),使用三個(gè)MLP和TriAffine計(jì)算得到。如下圖所示。
有了一階和二階分?jǐn)?shù)之后,再使用MFVI方法迭代聚合得到最終的和。(注:MFVI的迭代計(jì)算過(guò)程可以參考這個(gè)視頻(https://www.bilibili.com/video/BV1bE411f7b9))
3.2.3標(biāo)簽預(yù)測(cè)
類(lèi)似于計(jì)算邊的分?jǐn)?shù),該論文使用兩個(gè)MLP和多個(gè)BiAffine來(lái)計(jì)算標(biāo)簽分?jǐn)?shù)。每一個(gè)標(biāo)簽的分?jǐn)?shù)都由一個(gè)獨(dú)立的BiAffine計(jì)算得到。
3.2.4模型訓(xùn)練
整個(gè)模型的損失由邊預(yù)測(cè)和標(biāo)簽預(yù)測(cè)兩個(gè)模塊組成,如下所示.給定一句話(huà)X和對(duì)應(yīng)的真實(shí)答案圖G,C代表X全連接的圖,CG代表不正確的邊的集合。第一個(gè)公式計(jì)算邊預(yù)測(cè)的損失,其含義為讓模型預(yù)測(cè)出正確邊概率更大的同時(shí),讓模型預(yù)測(cè)錯(cuò)誤的邊的概率更小。第二個(gè)公式計(jì)算標(biāo)簽預(yù)測(cè)的損失。
最后,對(duì)兩個(gè)損失通過(guò)超參λ加權(quán),這里λ= 0.06。
3.3沖突消除
在使用圖解析模型預(yù)測(cè)出結(jié)果后,該工作使用一個(gè)簡(jiǎn)單的過(guò)程檢查是否生成圖是合法的。具體操作為,對(duì)于每一個(gè)謂詞,首先掃描這個(gè)謂詞的所有邊從左到右。例如,在這個(gè)BES方案下,一個(gè)“B-*”邊后面必須是一個(gè)“E-*”邊;“S-*”邊和“E-*”后面可以是一個(gè)“B-*”邊,或者是一個(gè)“S-*”邊。假如該生成圖是合法的,可以直接使用前面章節(jié)中所描述的過(guò)程將其恢復(fù)成一個(gè)SRL結(jié)構(gòu)。
然而,在實(shí)際中,所生成圖有可能會(huì)包含沖突。如上圖所示的一個(gè)例子,紅色的邊包含了沖突關(guān)系。如果兩條邊都被標(biāo)記為“E-*”,其將不可能恢復(fù)為相應(yīng)的論元。另外一個(gè)沖突為,僅僅存在一個(gè)單獨(dú)的邊標(biāo)記“B-*”或“E-*”,比如上圖中的“E-A1”。
約束Viterbi
該工作使用一個(gè)約束解碼方法來(lái)解決對(duì)應(yīng)的沖突。在恢復(fù)一個(gè)論元的過(guò)程中,如果發(fā)生沖突,則重新標(biāo)記句子中所有的謂詞。但是,將約束Viterbi應(yīng)用于SDGP框架中并不簡(jiǎn)單。
拿BES方案舉例來(lái)說(shuō)(其他方案對(duì)應(yīng)的處理過(guò)程也是類(lèi)似的),在第一階段中,表示這個(gè)該邊在最終圖中存在的概率;但是在第二階段中,表示這個(gè)邊被標(biāo)記為的概率??梢钥闯鰶](méi)有包含“I”和“O”,二者分別表示這個(gè)詞分別在一個(gè)論元或者不在任何論元中,在這個(gè)序列標(biāo)注過(guò)程中它們是不可缺少的。
為了解決該問(wèn)題,該工作添加兩個(gè)偽標(biāo)簽“O/I”到標(biāo)簽集合中,并重新分配標(biāo)簽的概率分布:
這里,是類(lèi)似“B-A0”這些標(biāo)準(zhǔn)標(biāo)簽的概率。由于“O”和“I”意味著沒(méi)有邊指向這個(gè)詞,所以和的概率相同,但是“I”有一個(gè)額外的含義:左邊有一個(gè)不成對(duì)的“B-*”。因此,可以通過(guò)控制轉(zhuǎn)換矩陣來(lái)解決沖突。
如上圖,不允許從“E-*”到“E-*”的轉(zhuǎn)換。所以上述例子中的“Some”和“students”的標(biāo)簽要重新進(jìn)行標(biāo)記為“B-A0”和“E-A0”。最終,得到了語(yǔ)義角色為“A0”的論元span“Some students”。
-04-
實(shí)驗(yàn)
該論文在CoNLL05和CoNLL12兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。作者首先在CoNLL05數(shù)據(jù)集上面測(cè)試了四種構(gòu)建方案。結(jié)果如下表所示,從整體上來(lái)看,我們可以得到結(jié)論:BES > BE > BIES > BII。
如下圖所示,作者根據(jù)論元的寬度將論元分為四類(lèi),給出了每個(gè)類(lèi)別在真實(shí)答案數(shù)據(jù)中的比例,并報(bào)告每一類(lèi)的F1值。首先,可以看到BES和BIES在1-width論元上要好得多。這表明,用“S-r”單獨(dú)表示寬度為1的論元是必要的。然后,可以發(fā)現(xiàn)BE和BES在包含多個(gè)單詞的論元上比BII和BIES表現(xiàn)更好。我們知道BE和BES是邊界附加策略的結(jié)果,它更關(guān)注邊界信息。因此,可以得出結(jié)論,邊界信息對(duì)多詞論元的識(shí)別更有幫助。
同時(shí),作者還測(cè)試了該論文所提方法與其他方法推理速度的對(duì)比,結(jié)果如下表所示。該論文所提出的方法相比之前基于span的SRL模型,推理效率得到大幅度提高。
最后,作者還將該論文的方法分別在CoNLL05和CoNLL12兩個(gè)數(shù)據(jù)集上面與其他同類(lèi)型方法進(jìn)行對(duì)比。結(jié)果如下表所示。
-05-
總結(jié)
該論文提出了四種新的圖表示方案,用于將原始的基于span的SRL結(jié)構(gòu)轉(zhuǎn)換為基于word的圖。基于此方案,該論文將基于span的SRL轉(zhuǎn)換為一個(gè)基于word的圖解析任務(wù),并得到了一個(gè)更快更準(zhǔn)的解析器。此外,作者還提出了一種簡(jiǎn)單的基于約束Viterbi的后處理方法來(lái)處理輸出圖中的沖突。實(shí)驗(yàn)表明,該論文提出的解析器:1)相比之前的解析器效率大幅度提高,每秒可以解析600多個(gè)句子;2)在CoNLL05和CoNLL12數(shù)據(jù)集上的性能始終優(yōu)于之前的結(jié)果。對(duì)四種方案的深入對(duì)比表明,邊界信息在識(shí)別論元時(shí)起著重要作用。此外,區(qū)分單詞論元和多詞論元也可以提高最終的性能。這些發(fā)現(xiàn)可能有助于研究人員在未來(lái)從新的角度思考SRL。
-
BIO
+關(guān)注
關(guān)注
0文章
6瀏覽量
9388 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24834 -
nlp
+關(guān)注
關(guān)注
1文章
489瀏覽量
22109 -
訓(xùn)練模型
+關(guān)注
關(guān)注
1文章
36瀏覽量
3888
原文標(biāo)題:COLING'22 Best Paper | 蘇大提出:又快又準(zhǔn)的端到端跨語(yǔ)義角色標(biāo)注作為基于詞的圖解析
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
PAD貼片電阻識(shí)別標(biāo)注方法
科學(xué)數(shù)據(jù)時(shí)間序列的預(yù)測(cè)方法
DNA片段拼接中的預(yù)歸并重復(fù)序列屏蔽方法
基于運(yùn)行序列的軟件故障診斷方法
AutoCAD內(nèi)常用術(shù)語(yǔ)的自動(dòng)標(biāo)注方法
音箱功率的標(biāo)注方法
貼片電阻阻值標(biāo)注方法詳解
無(wú)刷電機(jī)的繞制和接線(xiàn)方法及實(shí)物圖解
新聞圖像人臉標(biāo)注方法
NLP:序列標(biāo)注
汽車(chē)電路圖的標(biāo)注及閱讀方法
![汽車(chē)電路圖的<b class='flag-5'>標(biāo)注</b>及閱讀<b class='flag-5'>方法</b>](https://file.elecfans.com/web1/M00/DC/F4/pIYBAGAPiyWAJ6vbAABEXdxMSqk961.png)
基于強(qiáng)化學(xué)習(xí)的壯語(yǔ)詞標(biāo)注方法
基于序列標(biāo)注的實(shí)體識(shí)別所存在的問(wèn)題
焊接符號(hào)標(biāo)注實(shí)例及方法
![焊接符號(hào)<b class='flag-5'>標(biāo)注</b>實(shí)例及<b class='flag-5'>方法</b>](https://file1.elecfans.com/web2/M00/89/C5/wKgaomSKw1WAaFulAAASJ1NpZLo876.jpg)
評(píng)論