必发线上赌场,金沙集团欧洲业务,咪咕视频体育频道(中国)·官方网站

編者按：自然語言推理所用的數(shù)據(jù)集再近年得到了研究和發(fā)展，但是在本文中，來自華盛頓大學(xué)、卡內(nèi)基梅隆大學(xué)和紐約大學(xué)等機(jī)構(gòu)的研究人員發(fā)現(xiàn)，這些數(shù)據(jù)集中不可避免出現(xiàn)了明顯的“人工痕跡”，使得模型的表現(xiàn)被高估了，評(píng)估自然語言推理模型的問題仍然存在。以下是論智的編譯。

自然語言推理是NLP領(lǐng)域被廣泛研究的領(lǐng)域之一，有了這一技術(shù)，許多復(fù)雜的語義任務(wù)如問題回答和文本總結(jié)都能得到解決。而用于自然語言推理的大規(guī)模數(shù)據(jù)集是通過向眾包工作者提供一個(gè)句子（前提）p，然后讓他們創(chuàng)作出三個(gè)新的與之相關(guān)的句子（假設(shè)）h創(chuàng)造出來的。自然語言推理的目的就是判斷是否能根據(jù)p的語義推斷出h。我們證明，利用這種方法，使得數(shù)據(jù)中的很大一部分只需查看新生成的句子，無需看“前提”，就能了解到數(shù)據(jù)的標(biāo)簽。具體來說，一個(gè)簡單的文本分類模型在SNLI數(shù)據(jù)集上對(duì)句子分類的正確率達(dá)到了67%，在MultiNLI上的正確率為53%。分析表明，特定的語言現(xiàn)象，比如否定和模糊與某些推理類別非常相關(guān)。所以這一研究表示，目前的自然語言推理模型的成功被高估了，這一問題仍然難以解決。

2015年，Bowman等人通過眾包標(biāo)記的方法創(chuàng)造了大規(guī)模推斷數(shù)據(jù)集SNLI；2018年，Williams等人又推出了MultiNLI數(shù)據(jù)集。在這一過程中，研究人員從一些語料中抽取某個(gè)前提句子p，讓眾包標(biāo)注者基于p創(chuàng)作三個(gè)新句子，創(chuàng)作的句子與p有三種關(guān)系標(biāo)準(zhǔn)：

包含（Entailment）：h與p非常相關(guān)；

中立（Neutral）：h與p可能相關(guān)；

矛盾（Contradiction）：h與p絕對(duì)不相關(guān)。

下面是SNLI數(shù)據(jù)集中具體的例子：

在這篇論文中，我們發(fā)現(xiàn)，通過眾包生成的句子人工痕跡太過明顯，以至于分類器無需查看條件句子p就能將其正確分類。下面我們將詳細(xì)講解分析過程。

注釋中的“人工痕跡”其實(shí)很明顯

我們猜想，注釋任務(wù)的框架對(duì)眾包人員編寫句子時(shí)會(huì)產(chǎn)生顯著的影響，這一影響會(huì)反映在數(shù)據(jù)中，我們稱之為“人工注釋（annotation artifacts）”。

為了確定這種人為行為對(duì)數(shù)據(jù)的影響程度，我們訓(xùn)練一個(gè)模型來預(yù)測生成句子的標(biāo)簽，無需查看前提句子。具體來說，我們使用現(xiàn)成的文本分類器fastText，它可以將文本模型化為許多單詞和二元語法（bigrams），以預(yù)測句子的標(biāo)簽。

下表顯示，每個(gè)測試集中大部分?jǐn)?shù)據(jù)都能在不看前提句子的情況下被正確分類，這也證明了即使不用對(duì)自然語言推理建模，分類器也能表現(xiàn)得很好。

人工注釋的特點(diǎn)

之前我們說到，超過一半的MultiNLI數(shù)據(jù)和三分之二的SNLI數(shù)據(jù)都有明顯的人工痕跡，為了從中總結(jié)出它們的特點(diǎn)，我們將對(duì)數(shù)據(jù)進(jìn)行大致分析，重點(diǎn)關(guān)注詞匯的選擇和句子的長度。

詞匯選擇

為了了解特定詞匯的選擇是否會(huì)影響句子的分類，我們計(jì)算了訓(xùn)練集中每個(gè)單詞和類別之間的點(diǎn)互信息（PMI）：

下表顯示了每個(gè)分類中與類別最相關(guān)的幾個(gè)單詞，以及訓(xùn)練語句中包含這些單詞的比例。

相關(guān)句子（Entailment）

與前提句子完全相關(guān)的生成句子都含有通用詞匯，如動(dòng)物、樂器和戶外等，這些詞語還有可能衍生出更具體的詞語例如小狗、吉他、沙灘等等。另外，這些據(jù)此都會(huì)用確切的數(shù)字代替近似值（一些、至少、各種等等），并且會(huì)移除明確的性別。有些還會(huì)帶有具體的環(huán)境，例如室內(nèi)或室外，這些都是SNLI數(shù)據(jù)集中圖片的個(gè)性特征。

中立句子

中立關(guān)系的句子中，最常見的就是修飾詞（高、悲傷、受歡迎）和最高級(jí)詞語（第一、最愛、最多）。除此之外，中立句子比較常見的是原因和目的從句，例如因?yàn)椤?/p>

不相關(guān)句子

否定詞例如“沒有人”、“不”、“從不”、“沒有”等都是不相關(guān)句子的常見詞語。

句子長度

我們發(fā)現(xiàn)，生成句子中tokens的數(shù)量在不同的推理類別中并不是平均分配的。下圖顯示，中性的句子中token往往較長，而相關(guān)句子往往較短。句子長度的差異可能表明，眾包工作者在生成相關(guān)句子時(shí)只是簡單地從前提句子p中刪除了幾個(gè)單詞。而事實(shí)上，當(dāng)每個(gè)句子都用bag of words表示時(shí)，SNLI中有8.8%的相關(guān)生成句子完全包含在前提句子之中，而只有0.2%的中性和矛盾句子包含前提。

結(jié)論

通過觀察結(jié)果，并對(duì)比其他人工注釋分析，我們得到了三個(gè)主要結(jié)論。

很多數(shù)據(jù)集都包含有“人工痕跡”

監(jiān)督模型需要利用人工注釋。Levy等人證明了監(jiān)督詞匯推理模型在很大程度上以來數(shù)據(jù)集中人工生成的詞匯。

人工注釋會(huì)高估模型性能。大多數(shù)測試集都能單獨(dú)依靠人工注釋解決問題，所以我們鼓勵(lì)開發(fā)額外的標(biāo)準(zhǔn)，能夠給讓人了解NLI模型的真實(shí)性能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

自然語言

自然語言

+關(guān)注

關(guān)注
1

文章
291

瀏覽量
13398

原文標(biāo)題：自然語言推理數(shù)據(jù)集“人工痕跡”嚴(yán)重，模型性能被高估

文章出處：【微信號(hào)：jqr_AI，微信公眾號(hào)：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

PyTorch教程-16.7。自然語言推理：微調(diào) BERT

實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開筆記本在本章前面的部分中，我們?yōu)?SNLI 數(shù)據(jù)集上的自然語言推理任務(wù)（如第 16.4 節(jié)所述）設(shè)計(jì)了一個(gè)基于注意力的架

發(fā)表于 06-05 15:44 ?1295次閱讀

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

大語言模型（LLM）是人工智能領(lǐng)域的尖端技術(shù)，憑借龐大的參數(shù)量和卓越的語言理解能力贏得了廣泛關(guān)注。它基于深度學(xué)習(xí)，利用神經(jīng)網(wǎng)絡(luò)框架來理解和生成自然語

發(fā)表于 05-04 23:55

python自然語言

學(xué)和人工智能，但同樣受到諸如機(jī)器學(xué)習(xí)，計(jì)算統(tǒng)計(jì)學(xué)和認(rèn)知科學(xué)這些相對(duì)新興的學(xué)科影響。python下面只要安裝自然語言工具包nltk，下面版主開始正式進(jìn)入學(xué)習(xí)。Natural Language

發(fā)表于 05-02 13:50

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

發(fā)表于 04-16 11:11

什么是自然語言處理

什么是自然語言處理？自然語言處理任務(wù)有哪些？自然語言處理的方法是什么？

發(fā)表于 09-08 06:51

什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理？

領(lǐng)域，包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理和其他幾個(gè)學(xué)科。首先，人工智能涉及使計(jì)算機(jī)具有自我意識(shí)，利用計(jì)算機(jī)視覺、自然語言理解和模仿其他感官。其次，

發(fā)表于 03-22 11:19

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處

發(fā)表于 12-28 15:42 ?5933次閱讀

一種注意力增強(qiáng)的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強(qiáng)的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層添加到ESIM模型的雙向LSTM網(wǎng)絡(luò)中，從而

發(fā)表于 03-25 11:34 ?9次下載

PyTorch教程16.4之自然語言推理和數(shù)據(jù)集

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.4之自然語言推理和數(shù)據(jù)集.pdf》資料免費(fèi)下載

發(fā)表于 06-05 10:57 ?0次下載

PyTorch教程16.5之自然語言推理：使用注意力

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.5之自然語言推理：使用注意力.pdf》資料免費(fèi)下載

發(fā)表于 06-05 10:49 ?0次下載

PyTorch教程16.7之自然語言推理：微調(diào)BERT

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.7之自然語言推理：微調(diào)BERT.pdf》資料免費(fèi)下載

發(fā)表于 06-05 10:52 ?0次下載

PyTorch教程-16.4。自然語言推理和數(shù)據(jù)集

16.4。自然語言推理和數(shù)據(jù)集? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Col

發(fā)表于 06-05 15:44 ?591次閱讀

PyTorch教程-16.5。自然語言推理：使用注意力

實(shí)驗(yàn)室在 SageMaker Studio Lab 中打開筆記本我們?cè)?6.4 節(jié)介紹了自然語言推理任務(wù)和 SNLI 數(shù)據(jù)集。鑒于許多基于復(fù)雜和深層架構(gòu)的

發(fā)表于 06-05 15:44 ?604次閱讀

自然語言處理的概念和應(yīng)用 自然語言處理屬于人工智能嗎

　　自然語言處理(Natural Language Processing)是一種人工智能技術(shù)，它是研究自然語言與計(jì)算機(jī)之間的交互和通信的一門學(xué)科。自然語言處理旨在研究機(jī)器如何理解人類

發(fā)表于 08-23 17:31 ?1750次閱讀

自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系 自然語言處理的基本概念及步驟

Learning，簡稱ML）是人工智能的一個(gè)核心領(lǐng)域，它使計(jì)算機(jī)能夠從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。自然語言處理與機(jī)器學(xué)習(xí)之間有著密切的關(guān)系，因?yàn)闄C(jī)器學(xué)習(xí)提供了一種強(qiáng)大的工具，用于從大量文本數(shù)

發(fā)表于 12-05 15:21 ?719次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

自然語言推理數(shù)據(jù)集“人工痕跡”嚴(yán)重，模型性能被高估

評(píng)論

PyTorch教程-16.7。自然語言推理：微調(diào) BERT

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

python自然語言

自然語言處理的語言模型

什么是自然語言處理

什么是人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理？

自然語言處理常用模型解析

一種注意力增強(qiáng)的自然語言推理模型aESIM

PyTorch教程16.4之自然語言推理和數(shù)據(jù)集

PyTorch教程16.5之自然語言推理：使用注意力

PyTorch教程16.7之自然語言推理：微調(diào)BERT

PyTorch教程-16.4。自然語言推理和數(shù)據(jù)集

PyTorch教程-16.5。自然語言推理：使用注意力

自然語言處理的概念和應(yīng)用自然語言處理屬于人工智能嗎

自然語言處理與機(jī)器學(xué)習(xí)的關(guān)系自然語言處理的基本概念及步驟