0. 背景介紹
在深度學習領域,網絡上充斥著大量可自由訪問的數據,其中包括像ImageNet和MS-Celeb-1M數據集這樣的關鍵資源。然而,這些數據可能攜帶未經授權收集的個人信息,引發了公眾對隱私的擔憂。人們擔心,私人數據可能會在沒有所有者授權的情況下被不當地用于構建商業模型
這一問題凸顯了在我們追求科技創新和性能提升的同時,更需要關注數據隱私和合理使用的問題。為了解決這些難題,越來越多的研究力量正在集中于使數據無法被濫用的方向。這些方法采用了一些巧妙的手段,比如向圖像中引入難以察覺的“捷徑”噪聲。通過這種方式,深度學習模型不再僅僅學習有用的語義信息,而是開始學習噪聲和標簽之間的對應關系。因此,在這種數據上的訓練得到的模型,無法準確分類干凈的數據,有效地保護了用戶的隱私。這種巧妙的方法被稱為不可學習樣本(UE),也可稱之為可用性攻擊。
然而,隨著研究的深入,我們發現了在這種保護中的一個關鍵漏洞。如果無法利用的數據是唯一可訪問的數據,那么這種保護就會起效果。但現實情況卻并非總是如此。數據保護人員只能在他們自己的數據中添加“不可學習”的擾動,卻無法阻止未經授權的用戶訪問其他來源的類似的未受保護數據。因此,通過研究新收集的未受保護數據,人們仍然可以研究受保護示例的潛在分布。以人臉識別為例,雖然不可學習的樣本不能直接用于訓練分類器,但很容易收集到新的未受保護的人臉數據。只要新收集的未受保護數據與原始干凈數據之間有足夠的相似性,仍然有可能訓練出能夠成功對原始干凈數據進行分類的分類器。換句話說,未經授權的用戶可以很容易地繞過數據保護,從新收集的未受保護數據中學習原始數據表示,即使這些數據可能規模很小,與干凈的數據不同,缺乏標簽注釋,并且單獨不適合訓練分類器。為了證明上述漏洞的存在,我們設計了一種新的方法,可以將不可學習的樣本轉化為可學習的樣本。
1. 方法
一個直接的解決方案是設計一個特定的訓練方案,可以在不可利用的數據上進行訓練。這是不太理想的,因為它只是對不可利用的數據進行分類,而沒有揭示潛在的干凈數據,即不可學習數據的未保護版本。
我們認為,最終的對策是通過將UE再次轉變為可學習的方式來推斷/暴露底層的干凈數據,這可能會導致進一步的未經授權的利用,如標準訓練或表示學習。因此,理想的可學習的非授權數據應該獨立于訓練方案之外,可以像原始訓練數據一樣正常使用。我們將可學習的未授權數據中的示例稱為可學習示例(LEs)。
受擴散模型在噪聲凈化和圖像生成中的強大功能的啟發,我們提出了一種基于擴散模型的新型凈化方法,用于生成可學習的示例。與常見的噪聲凈化(如對抗性凈化)假設訓練數據的可訪問性不同,在沒有訪問訓練數據的情況下訓練擴散模型對去除UE保護提出了關鍵挑戰,這是現有凈化方法尚未探索的。為了克服這一挑戰,獲得可學習示例背后的關鍵思想是從其他類似數據中學習一個可學習的數據流形,然后將不可學習的示例投射到該流形上。然而,學習到的數據流形通常與原始數據流形不同,導致凈化樣本與原始干凈樣本相比語義偏差。為了緩解這一問題,我們進一步提出了一種新的聯合條件擴散凈化方法,以捕獲從不可學習樣本到相應的干凈樣本的映射。
我們首先向不可學習圖像中逐步注入一定量的高斯噪聲,直到它們的不可學習擾動被高斯噪聲淹沒。接下來,我們為去噪過程提供了一個新的聯合條件,在保持圖像語義的同時加快了去噪速度。聯合條件由不可學習樣本與其相應去噪版本之間的像素距離和神經感知距離參數化構成。這是基于這樣的觀察,即不可學習的樣本通常與干凈樣本在像素距離上表現出很小的差異,而這種差異對人類視覺來說是難以察覺的。因此,通過最小化與不可學習樣本的視覺差異,降噪后的圖像應該與原始樣本非常相似。
2. 結果與討論
我們在許多基準數據集上廣泛評估了我們在監督和無監督UE上的方法,并將其與現有的對抗方法進行了比較。結果表明,LE是唯一一種在監督學習和無監督學習下都保持有效性的方法,更重要的是,我們的LE不像現有的對策那樣與特定的訓練方案捆綁在一起,我們的可學習樣例是獨立的,可以作為原始的干凈的訓練數據正常使用。
令人驚訝的是,我們發現即使新收集的數據(用于訓練可學習的數據流形)和干凈的數據之間存在很大的分布差異,我們的方法仍然保持有效性。換句話說,訓練數據和收集的原始數據之間的分布可以是不同的,我們仍然可以將不可學習的例子變成可學習的。
這無疑進一步加深了我們對UE保護脆弱性的擔憂,因為訓練數據和收集的原始數據之間的分布即使是不同的,我們仍然可以將不可學習的樣本變成可學習的。
最后,我們做了消融實驗,說明了聯合條件凈化相比于直接應用簡單擴散模型凈化的有效性。
-
模型
+關注
關注
1文章
3309瀏覽量
49224 -
數據集
+關注
關注
4文章
1209瀏覽量
24834 -
深度學習
+關注
關注
73文章
5515瀏覽量
121551
原文標題:ACM MM 2023 | 通過擴散模型理解不可學習樣本對于數據隱私保護的脆弱性
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
基于數據流的脆弱性靜態分析
基于差分隱私的數據匿名化隱私保護模型
![基于差分<b class='flag-5'>隱私</b>的<b class='flag-5'>數據</b>匿名化<b class='flag-5'>隱私</b><b class='flag-5'>保護</b><b class='flag-5'>模型</b>](https://file.elecfans.com/web2/M00/49/7A/poYBAGKhwLuAG9tzAAAX77w13Ns579.jpg)
電網脆弱性綜合評估
![電網<b class='flag-5'>脆弱性</b>綜合評估](https://file.elecfans.com/web2/M00/49/82/poYBAGKhwMCADBuqAAAiq41TYXw550.jpg)
網絡脆弱性擴散分析方法
![網絡<b class='flag-5'>脆弱性</b><b class='flag-5'>擴散</b>分析方法](https://file.elecfans.com/web2/M00/49/89/poYBAGKhwMSAWJFUAAATJwpsu_w230.jpg)
一種非脆弱性同步保性能控制方法
改進DEAHP的支路綜合脆弱性評估
基于鏈路已用率的電力通信網脆弱性分析
SCADA系統該如何解決脆弱性泄露問題?
人工智能:機器學習模型存在著對抗樣本的安全威脅
![人工智能:機器<b class='flag-5'>學習</b><b class='flag-5'>模型</b>存在著對抗<b class='flag-5'>樣本</b>的安全威脅](https://file.elecfans.com/web1/M00/C5/84/pIYBAF9HamWAbYOqAAEgKnay-aY824.png)
評論