吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Kaggle知識點:使用大模型進行特征篩選

穎脈Imgtec ? 2024-12-03 01:06 ? 次閱讀

本文轉自:Coggle數據科學


數據挖掘的核心是是對海量數據進行有效的篩選和分析。傳統上數據篩選依賴于數據驅動的方法,如包裹式、過濾式和嵌入式篩選。隨著大模型的發展,本文將探討如何利用大模型進行特征篩選。

afea0562-b0cf-11ef-8084-92fbcf53809c.png

篩選思路

數據驅動方法依賴于數據集中的樣本點進行統計推斷,而基于文本的方法需要描述性的上下文以更好地在特征和目標變量之間建立語義關聯。

b01e086c-b0cf-11ef-8084-92fbcf53809c.png

這種方法利用了大型語言模型(LLMs)中豐富的語義知識來執行特征選擇。大模型將利用數據集描述(desd)和特征描述(desf),描述特征的重要性。

  • LLM生成的特征重要性得分(LLM-Score)
  • LLM生成的特征排名(LLM-Rank)
  • 基于LLM的交叉驗證篩選(LLM-Seq)

實驗設置

  • 模型:實驗中使用了不同參數規模的LLMs,包括LLaMA-2(7B和13B參數)、ChatGPT(約175B參數)和GPT-4(約1.7T參數)。
  • 比較方法:將基于LLM的特征選擇方法與傳統的特征選擇基線方法進行比較,包括互信息過濾(MI)、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)和隨機特征選擇。
  • 數據集:使用了多個數據集進行分類和回歸任務的評估,包括Adult、Bank、Communities等。

實現細節:對于每個數據集,固定特征選擇比例為30%,并在16-shot、32-shot、64-shot和128-shot的不同數據可用性配置下進行評估。使用下游L2懲罰的邏輯/線性回歸模型來衡量測試性能,并使用AUROC和MAE作為評估指標。


實驗結果

將LLM-based特征選擇方法與傳統的特征選擇基線方法進行比較,包括LassoNet、LASSO、前向序貫選擇、后向序貫選擇、遞歸特征消除(RFE)、最小冗余最大相關性選擇(MRMR)、基于互信息(MI)的過濾和隨機特征選擇。

b04b950c-b0cf-11ef-8084-92fbcf53809c.png
  • 發現1:在小規模數據集上,基于文本的特征選擇方法比數據驅動的方法更有效。在幾乎所有的LLM和任務中,基于文本的特征選擇方法的性能都超過了數據驅動方法。
  • 發現2:使用最先進的LLMs進行基于文本的特征選擇,在每種數據可用性設置下都能與傳統特征選擇方法相媲美。
  • 發現3:當樣本數量增加時,使用LLMs的數據驅動特征選擇會遇到困難。特別是當樣本大小從64增加到128時,分類任務的性能顯著下降。
  • 發現4:與數據驅動特征選擇相比,基于文本的特征選擇顯示出更強的模型規模擴展性。
b0700e78-b0cf-11ef-8084-92fbcf53809c.pngb0a18124-b0cf-11ef-8084-92fbcf53809c.png

GPT-4基于LLM-Score在folktables數據集上整體表現最佳,在MIMIC-IV數據集上顯著優于LassoNet和隨機特征選擇基線。LLM-Score在選擇前10%和30%的特征時,與最佳數據驅動基線的性能相媲美,且明顯優于隨機選擇。在醫療保健等復雜領域,LLM-Score即使在沒有訪問訓練數據的情況下,也能有效地進行特征選擇。

參考文獻

https://arxiv.org/pdf/2408.12025

  • https://arxiv.org/pdf/2407.02694


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語言模型
    +關注

    關注

    0

    文章

    538

    瀏覽量

    10340
  • 海量數據
    +關注

    關注

    0

    文章

    4

    瀏覽量

    906
  • 大模型
    +關注

    關注

    2

    文章

    2545

    瀏覽量

    3163
收藏 人收藏

    評論

    相關推薦

    C語言鏈表知識點(2)

    C語言鏈表知識點(2)
    發表于 08-22 10:38 ?353次閱讀
    C語言鏈表<b class='flag-5'>知識點</b>(2)

    使用PADS軟件進行PCB設計,有哪些基礎知識點

    使用PADS軟件進行PCB設計,有哪些基礎知識點?發現知識點很多、很雜、很亂,有沒有聚合歸納統一的內容給到
    發表于 08-20 12:07

    BFC的基礎知識點有哪些?

    BFC的基礎知識點:css盒模型清除浮動 div水平垂直居中原型和原型鏈
    發表于 11-05 06:02

    計算機組成原理考研知識點歸納

    計算機組成原理考研知識點歸納 寫在前面的話:理科知識重在于理解知識點本身,對于每一個知識點,大家都有自己理解的方式。這篇
    發表于 04-13 14:06 ?1927次閱讀

    基于知識點的改進型遺傳組卷算法的研究

    為了實現無紙化考試系統題庫的自動組卷需求,提出了一種基于知識點的改進型遺傳組卷算法,該算法主要是先對知識點進行多次隨機篩選,然后利用改進型遺傳組卷算法對其它多個約
    發表于 01-08 15:28 ?0次下載
    基于<b class='flag-5'>知識點</b>的改進型遺傳組卷算法的研究

    高一數學知識點總結

    高一數學知識點總結高一數學知識點總結高一數學知識點總結
    發表于 02-23 15:27 ?0次下載

    高二數學知識點總結

    高二數學知識點總結高二數學知識點總結高二數學知識點總結
    發表于 02-23 15:27 ?0次下載

    PWM知識點詳解

    PWM知識點
    發表于 03-16 08:00 ?44次下載

    嵌入式知識點總結

    嵌入式知識點總結(arm嵌入式開發led過程)-嵌入式知識點總結? ? ? ? ? ? ? ? ? ??
    發表于 07-30 14:20 ?23次下載
    嵌入式<b class='flag-5'>知識點</b>總結

    電力基礎知識點合集

    電力基礎知識點合集
    發表于 03-14 16:35 ?0次下載

    詳解射頻微波基礎知識點

    詳解射頻微波基礎知識點
    的頭像 發表于 01-29 10:28 ?2470次閱讀

    C語言最重要的知識點

    C語言知識點總結.doc
    發表于 02-16 16:37 ?9次下載

    數字電路知識點總結

    本文整理了數字電路課程中的相關基本的知識點和較為重要的知識點,用于求職的數電部分的知識準備,差缺補漏。
    的頭像 發表于 05-30 15:07 ?5039次閱讀
    數字電路<b class='flag-5'>知識點</b>總結

    滾珠螺桿的基本知識點

    滾珠螺桿的基本知識點
    的頭像 發表于 07-07 17:40 ?1608次閱讀
    滾珠螺桿的基本<b class='flag-5'>知識點</b>

    STM32 RTOS知識點

    電子發燒友網站提供《STM32 RTOS知識點.pdf》資料免費下載
    發表于 08-01 14:28 ?3次下載
    STM32 RTOS<b class='flag-5'>知識點</b>
    云浮市| 全讯网新2网址| 职业赌百家乐技巧| 百家乐博彩策略论坛| 百家乐官网博百家乐官网的玩法技巧和规则| 百家乐官网象棋玩法| 澳门百家乐官网技术| 百家乐官网赌场分析网| 在线百家乐官网博彩| 百家乐官网游戏单机牌| 送彩金百家乐官网的玩法技巧和规则| 百苑百家乐官网的玩法技巧和规则 | 大发888 赌博网站| 网上百家乐游戏| 嘉定区| 百家乐官网里面的奥妙| 百家乐官网真人游戏网上投注| 百家乐官网蓝盾有赢钱的吗| 百家乐官网特殊计| 百家乐必胜软件下载| 百家乐真人百家乐皇冠| 大发888手机| 武夷山市| 百家乐官网赌场娱乐城| 百家乐官网筹码防伪| 百家乐五星宏辉怎么玩| 大发888客户端 运行| 祁门县| 金殿百家乐官网的玩法技巧和规则| 太阳城百家乐投注| 黄金城百家乐苹果版| 足球比分| 百家乐官网认牌| 来博百家乐现金网| 百家乐长龙技巧| 盛世国际娱乐城| 百家乐官网出闲几率| 百家乐长龙有几个| 威尼斯人娱乐平台最新地址| 元阳县| E世博百家乐官网的玩法技巧和规则 |