吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個完整的MNIST測試集,其中包含60000個測試樣本

WpOh_rgznai100 ? 來源:lq ? 2019-06-02 09:43 ? 次閱讀

盡管MNIST是源于NIST數據庫的基準數據集,但是導出MNIST的精確處理過程已經隨著時間的推移被人們多遺忘。因此,作者提出了一種足以替代MNIST數據集的重建數據集,并且它不會帶來準確度的降低。作者將每個MNIST數字與它在NIST中的源相對應,并得到了更加豐富的元數據,如作者標識符、分區標識符等。作者還重建了一個完整的MNIST測試集,其中包含60000個測試樣本,而不是通常使用的10000個樣本。由于多余的50000個樣本沒有被使用,因此可以用來探究25年來已有的MNIST實驗模型在該數據集上的測試效果。

引言

MNIST數據集被用作機器學習的基準集已經超過二十年了。在過去的十年中,許多研究者都表示該數據集已經被過度使用了。特別是它僅有10000個樣本用于測試,這引起了不少的關注。已有數百篇論文的方法在這個測試集上取得越來越好的效果。那這些模型是否在測試集上過擬合?我們還能相信在這個數據集上得到的新結論嗎?機器學習的數據集多久會變得無用?

NIST手寫字符集的第一部分已經在一年前發布,它是一個由2000名人口普查局員工手寫的訓練集和500名高中生手寫的更具挑戰性的測試集。 LeCun、Cortes 和Burges的目標是創建一個具有類似分布的訓練集和測試集。這個過程生成了兩組60000個樣本的數據集,可能是由于當時電腦計算這些數據集的速度非常慢,他們將測試集下采樣到僅10000個樣本,因此多余的50000樣本從未被用于任何的測試。

本文研究的目的是重建MNIST預處理算法,以便將每個MNIST數字圖追溯到NIST中原始的手寫體。這種重建是基于可用信息,之后通過迭代細化來提升它的水平。第2節描述了這個過程,并計算了重建樣本與官方MNIST樣本的匹配程度。重建的訓練集包含了與原有MNIST訓練集相匹配的60000張圖片。類似的,重建的10000張測試圖片也與MNIST測試集里面的每張圖片相匹配。剩下的50000張是對在MNIST中丟失的50000張圖像的重建。

與Recht等人一致,重建這50000張樣本,使得研究人員可以量化官方MNIST測試集在25年來退化的過程。第3節比較和討論了在一些知名算法在原始MNIST測試集、重建MNIST測試集,以及丟失的50000測試樣本集上進行測試的性能。本文的實驗結果在不同數據集上驗證了Recht et al. [2018, 2019]指出的趨勢。

重構MNIST

圖1:LeCun94年文獻中描述MNIST的處理過程

圖1 顯示的是MNIST創建的過程。作者提到,該描述錯誤地描述了數字圖在hsf4分區中的位數,在原始的NIST測試集中應該是58527,而不是58646。這兩段話給出了一個相對精確的處理方法,使用它生成的數據集比實際MNIST訓練集多了一個0,少了一個8。盡管并不匹配,這些類分布是如此相近,以至于hsf4分區中確實好像缺少了119位。那么應該如何來裁剪128x128的二進制NIST圖像?應該使用哪種啟發式算法來忽略不屬于圖片本身的噪聲像素?以及對于最終的中心坐標,應該如何四舍五入呢?

本文的初始重建算法是根據圖1中的描述得到的,但作者在Lush代碼庫里面發現了另一種重采用的算法,它不是使用雙線性插值或雙三次插值,而是計算輸入和輸出的精確重疊像素。作者重建的第一個QMNISTV1與實際的MNIST非常相似,但是存在著鋸齒圖像,因此作者通過微調初始中心坐標和重采樣算法,得到了QMNISTV2。

圖2:并排顯示MNIST和QMNIST的圖像,其中放大圖說明了重建的圖片是抗鋸齒像素的。

接著,作者又發現MNIST和QMNIST之間的最小距離L2是一個較可靠的指標,因此作者使用匈牙利算法計算匹配度,并進一步調整裁剪算法,這樣一步一步迭代調整,又可以得到QMNISTV3、V4、V5。最終得到了QMNIST。

評估QMNIST

作者做了一系列實驗來評估QMNIST與MNIST之間的差距。

表1:在MNIST和QMNIST之間抖動像素的四分位數,L2距離表示一個像素的差異,L1距離表示像素之間的最大絕對差。

表2:在沒有平移或+-1像素平移下,MNIST和QMNIST訓練圖像標齊的數量

表3:在MNIST和QMNIST訓練集上訓練LeNet5卷積網絡,并在MNIST測試集、QMNIST測試集和QMNIST新部分上進行測試

重構觀察到的結論

重構MNIST,使作者發現了一些之前未報道過的關于MNIST的事情。

1、整個NIST手寫字符集只有三個重復的數字,其中只有一個屬于生成MNIST的字段,但被MNIST作者刪除了。

2、MNIST測試集的前5001張圖片似乎是從高中生(#2350-#2599)寫的圖片中隨機挑選出來的,接下來的4999張圖片是按順序(#35000-#39998)由48位人工普查局員工(#326-#373)撰寫的,雖然人數有點少,可能讓人擔心統計樣本有問題,但這些圖像比較干凈,幾乎對總測試誤差沒有影響。

3、第一個MNIST訓練集樣本中的偶數圖像與高中學生所寫的數字完全匹配,其余圖像是NIST圖像#0到#30949的順序。這意味著在連續的mini-batch的MNIST訓練圖像中,圖像可能是同一人寫的。因此作者建議在minibatch中,打亂訓練集。

4、28x28MNIST圖像的中心點存在舍入誤差。事實中,MNIST數字的平均中心原理圖像幾何中心至少半個像素。這很重要,因為使用正確的圖像進行訓練,然后在MNIST上進行測試,可能會使模型性能下降很多。

5、MNIST重采樣代碼中的缺陷會在粗字符的暗區域產生低幅周期性的圖像。這在Lush代碼中仍然可見,這些模式的周期取決于傳遞給重采樣代碼的輸入和輸出圖像的相對大小。

6、關于將二次采樣圖像的連續值像素轉換為整數值像素有一些奇怪的事情。我們當前的代碼將每個圖像中觀察到的范圍線性映射到區間【0.0,255.0】,之后四舍五入到最接近的整數。然而,像素比較直方圖顯示MNIST值128的像素更多,值255的像素更少。

圖3:像素直方圖對比,紅色為MNIST,藍色為QMNIST。

泛化性能評估

本節是利用未用的50000個樣本,來重新審視已經報道過的一些論文結論。Recht等人對CIFAR10和ImageNet有類似的研究。作者使用了三個測試集:MNIST測試集(10000張)、重建的QMNIST測試集(10000張,QMNIST10),以及重建的未用的50000張測試集(QMNIST50)。在MNIST訓練集上,類似地,我們使用TQTM、TQTQ10和TQTQ50來表示結果。這些數據都沒有使用數據增強。作者使用了KNN、SVM、MLP、Lenet5等方法。

總結

作者重構了MNIST數據集,不僅是重新溯源到NIST源圖像和相關元數據,還重構了原始MNIST測試集,包括從未發布的50000個測試樣本。經過長時間的研究,作者的發現與Recht等人的成果一致。所有這些結果都表明“測試集腐爛”問題確實存在,但遠遠沒有研究者擔心的那么嚴重,重復使用相同測試集會影響性能,但它同樣有利于模型選擇。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133074
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24829
  • MNIST
    +關注

    關注

    0

    文章

    10

    瀏覽量

    3397

原文標題:MNIST重生,測試集增加至60000張!

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    計算機視覺/深度學習領域常用數據匯總

    `深度學習領域的“Hello World!”,入門必備!MNIST手寫數字數據庫,它有60000訓練
    發表于 08-29 10:36

    深度學習中開發測試的定義

    下載了含有貓的圖片(正樣本,又譯作正例),以及不含貓的圖片(負樣本,又譯作反例),從而得到了巨型的數據。他們將數據
    發表于 11-30 16:58

    開發測試應該有多大?

    對整體系統的性能進行高度可信的評估。種常見的啟發式策略是將整體 30% 的數據用作測試,這適用于總體數據量規模
    發表于 12-10 10:23

    清洗誤標注的開發測試樣本

    的標簽質量。處理這些誤標注的樣本將幫助你找出分類器的誤差是接近 1.4% 還是 2.0% ,差異顯著。在項目初始階段容許些誤標注的開發/測試
    發表于 12-19 09:48

    如何研究帶有菊花鏈路由的BGA測試樣本?

    HI。我是名大學生,正在研究SMT焊點的可靠性。在我的研究中,我需要系列帶有菊花鏈路由的BGA測試樣本,如IPC-9701。在下面的網站上我發現你也做了些研究。所以我想知道你是否
    發表于 11-08 13:40

    TensorFlow邏輯回歸處理MNIST數據

    .train.labels。mnist.train.images 的每項都是范圍介于 0 到 1 的像素強度: 在 TensorFlow 圖中為訓練數據的輸入 x 和標簽 y 創
    發表于 08-11 19:36

    TensorFlow邏輯回歸處理MNIST數據

    .train.labels。mnist.train.images 的每項都是范圍介于 0 到 1 的像素強度: 在 TensorFlow 圖中為訓練數據的輸入 x 和標簽 y 創
    發表于 08-11 19:36

    如何利用keras打包制作mnist數據

    ~/.keras/datasets目錄存放mnist.npz 數據,這是numpy格式的壓縮文件,所以可以用numpy打開。 import numpy as np file_pa
    發表于 08-18 06:12

    針對特定測試樣本的隱寫分析方法

    擁有大數據訓練資源的前提下,研究了隱寫對圖像特征的影響,找出了隱寫分析與圖像特征之間的重要關系,基于此提出了種為測試樣本選擇專用訓練的隱寫分析方法.以經典的JPEG隱寫算法nsF5和主流的JPEG隱寫分析特征(CC-PEV、
    發表于 12-15 16:05 ?0次下載

    MNIST簡單的計算機視覺數據

    為了探索這點,我們可以把MNIST數據點看作是在784維立方體中固定的點。立方體的每個維度都對應
    的頭像 發表于 05-07 16:14 ?1.1w次閱讀

    如何用Fashion-MNIST數據搭建用于辨認時尚單品的機器學習模型

    去年八月份,德國研究機構Zalando Research在GitHub上推出了全新的數據,其中訓練
    的頭像 發表于 11-08 08:59 ?2w次閱讀

    基于測試樣本誤差重構的協同表示分類方法

    。CRC利用范數正則化來解決測試樣本的線性表示問題,以期得到較穩定的數值解。已有研究表明,正則化參數的選擇對協同表示的數值穩定性起著非常重要的作用。文中提岀了種新的基于
    發表于 05-28 16:32 ?5次下載

    簡述PyTorch中mnist的transforms圖像處理

    60000訓練樣本和10000測試樣本組成,每個樣本都是
    的頭像 發表于 02-24 10:43 ?580次閱讀
    簡述PyTorch中<b class='flag-5'>mnist</b>的transforms圖像處理

    兆易創新“種NAND閃存芯片的測試樣本”專利獲授權

     根據專利摘要,本發明實際公開了nand閃存芯片的測試樣本,測試樣本由多個相同的樣本區域組成,每個樣本區域包含多個相鄰的數據塊。相鄰的幾個數
    的頭像 發表于 10-13 09:47 ?742次閱讀
    兆易創新“<b class='flag-5'>一</b>種NAND閃存芯片的<b class='flag-5'>測試樣本</b>”專利獲授權

    圖像識別算法的測試方法有哪些

    圖像識別算法的測試方法是廣泛而深入的話題,涉及到多個方面。 數據的選擇 : 標準數據 :使用廣泛認可的數據
    的頭像 發表于 07-16 11:06 ?689次閱讀
    大发888娱乐场 zb8| 中骏百家乐官网的玩法技巧和规则| 濮阳市| 百家乐那个娱乐城信誉好| 哪个百家乐投注平台信誉好| 百家乐官网的玩法视频| 乌鲁木齐县| 甘孜县| 百家乐官网去哪里玩最好| 玩百家乐怎么能赢呢| 大发888娱乐城客服| 大发888下载专区| 网上棋牌是真的吗| 捕鱼棋牌游戏| 四平市| 澳门百家乐官网大揭密| 利都百家乐官网国际赌场娱乐网规则| 将军百家乐官网的玩法技巧和规则 | 百家乐官网怎么看门路| 百家乐官网生活馆| 大众百家乐官网娱乐城| 太阳城百家乐怎么出千| 利都百家乐国际娱乐场开户注册| 大发888娱乐城 建账号| 师宗县| 百家乐官网算号软件| 百家乐官网稳赢秘诀教学| 百家乐有人赢过吗| 电玩百家乐的玩法技巧和规则| 百家乐凯时娱乐网| 大发888国际娱乐net| 米林县| 百家乐官网平台送彩金| 宾利百家乐游戏| 百家乐怎样下注| 齐博线上娱乐| 百家乐官网秘诀| 百家乐官网必学技巧| 玩百家乐官网如何硬| 百家乐做中介赚钱| 大发888游戏平台 df888ylc3403|