吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無監督學習的數據集變換和聚類

汽車玩家 ? 來源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀

1、類型

主要有兩種類型:數據集變換和聚類。

無監督變換:

降維:接受數據的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構成”數據的各個組成部分。例如,文本的主題提取。

聚類:

將數據劃分成不同的組,每組包含相似的物項

2、降維

1. 主成分分析(PCA)

一種旋轉數據集的方法,旋轉后的特征在統計上不相關。旋轉后,通常根據新特征對數據集的重要性來選擇它的一個子集。

主成分

方差最大的方向為“成分1”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個數與原始特征相同。

在PCA找到的額旋轉表示中,坐標軸之間 不相關。

應用

高維數據集可視化

特征提取:找到一種數據表示,比給定的原始表示更適合于分析。

對PCA模型的另一種理解:僅適用一些成分對原始數據進行重建。

2. 非負矩陣分解(NMF)

在NMF中,目標是分量和系數均為非負。只能應用于每個特征都是非負的數據,因為非負分量的非負求和不可能得到負值。

與PCA不同,減少分量個數不僅會刪除一些方向,而且會創建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機初始化,根據隨機種子的不同可能會產生不同的結果。

3. t-SNE與流形學習

流形學習算法 :主要用于可視化,允許進行更復雜的映射。只能變換用于訓練的數據。

t-SNE:找到數據的一個二維表示,盡可能保持數據點之間的距離。試圖保存那些點比較靠近的信息。

3、聚類

聚類:將數據集劃分成組的任務,這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數據特定區域的簇中心

算法過程

① 將每個數據點分配給最近的簇中心

② 將每個簇中心設置為所分配的所有數據點的平均值,如果簇的分配不再變化,結束;反之,執行步驟1

注:聚類算法與分類算法類似,但不存在真實的標簽,標簽本身沒有先驗意義。

注意

每個簇僅由其中心決定,這意味著每個簇都是凸型的,因此,只能找到相對簡單的形狀。

k均值假設所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設所有方向對每個簇同等重要

特點

優點:

容易理解和實現

運行速度相對較快

擴展到大型數據集比較容易

缺點:

依賴于隨機初始化

對簇形狀的假設的約束性較強

要求制定所要尋找到簇的個數

2. 凝聚聚類

算法首先聲明每個點是自己的簇,然后合并兩個最相似的簇,直到滿足某種停止準則為止。

連接準則:規定如何度量“最相似的簇”。

① ward型:兩個簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個簇合并

③ complete型:簇中點之間最大距離最小的兩個簇合并

注:凝聚算法不能對新數據點做出預測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應用)

原理

識別特征空間的“擁擠”區域中的點,這些區域成為密集區域。簇形成數據的密集區域,并由相對較空的區域分隔開。在密集區域中的點成為核心樣本,指定參數eps和min_samples。如果在一個點eps的距離內至少有min_samples個數據點,則為核心樣本。

算法過程

① 任意選取一個點,檢查是否是核心樣本。

② 若不是,標記為噪聲。反之,標記為核心樣本,并分配一個新的簇標簽。然后檢查鄰居,若未被分配,分配簇標簽;如果是核心樣本,依次訪問鄰居。

③ 選取另一個尚未被訪問過的點,重復以上過程。

最后得到三種點:核心點、邊界點、噪聲。

特點

優點:

不需先驗設置簇的個數

可以劃分具有復雜形狀的簇

可以找出不屬于任何簇的點

缺點:

不允許對新的測試數據進行預測

聚類評估

1. 真實值評估

調整rand指數(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關的聚類。

2. 沒有真實值

輪廓系數 計算一個簇的緊致度,值越大越好,最高分數為1。雖然緊致的簇很好,但不允許復雜的形狀。

聚類小結

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法,。每個數據點都由其簇中心表示

DBSCAN

可以檢測噪聲點

可以自動判斷簇的數量

允許簇有復雜的形狀

有時會生成大小差別很大的簇,可能是優點可能是缺點

凝聚聚類

可以提供數據的可能劃分的整個層次結構

可以通過樹狀圖查看

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4630

    瀏覽量

    93365
  • 無監督學習
    +關注

    關注

    1

    文章

    16

    瀏覽量

    2766
收藏 人收藏

    評論

    相關推薦

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?333次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    屏蔽氧銅網線的作用是什么

    屏蔽氧銅網線在網絡和通信領域具有重要的作用,以下是其具體作用的詳細闡述: 一、提高數據傳輸質量和速度 六屏蔽氧銅網線采用優質的
    的頭像 發表于 10-29 10:42 ?301次閱讀

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;算法,如K-Means、D
    發表于 08-07 23:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    如何理解機器學習中的訓練、驗證和測試

    理解機器學習中的訓練、驗證和測試,是掌握機器學習核心概念和流程的重要一步。這三者不僅構成了模型學習
    的頭像 發表于 07-10 15:45 ?4672次閱讀

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的
    的頭像 發表于 07-09 18:06 ?896次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?953次閱讀

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的
    的頭像 發表于 07-02 14:09 ?2041次閱讀

    機器學習的經典算法與應用

    關于數據機器學習就是喂入算法和數據,讓算法從數據中尋找一種相應的關系。Iris鳶尾花數據是一個
    的頭像 發表于 06-27 08:27 ?1729次閱讀
    機器<b class='flag-5'>學習</b>的經典算法與應用

    基于FPGA的腦計算平臺 —PYNQ 集群的監督圖像識別腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模
    發表于 06-25 18:35

    傅里葉變換基本原理及在機器學習應用

    連續傅里葉變換(CFT)和離散傅里葉變換(DFT)是兩個常見的變體。CFT用于連續信號,而DFT應用于離散信號,使其與數字數據和機器學習任務更加相關。
    發表于 03-20 11:15 ?1067次閱讀
    傅里葉<b class='flag-5'>變換</b>基本原理及在機器<b class='flag-5'>學習</b>應用

    機器學習基礎知識全攻略

    監督學習通常是利用帶有專家標注的標簽的訓練數據學習一個從輸入變量X到輸入變量Y的函數映射。Y = f (X),訓練數據通常是(n×x,y)的形式,其中n代表訓練樣本的大小,x和y分
    發表于 02-25 13:53 ?285次閱讀
    機器<b class='flag-5'>學習</b>基礎知識全攻略

    OpenAI推出Sora:AI領域的革命性突破

    大模型的核心技術是自然語言處理(NLP)和深度學習。具體而言,它基于Transformer架構,使用了大規模監督學習方法,例如自回歸語言建模和掩碼語言建模,來訓練一個龐大的神經網絡模型。
    發表于 02-21 16:36 ?1054次閱讀
    OpenAI推出Sora:AI領域的革命性突破

    Meta發布新型監督視頻預測模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的監督視頻預測模型,名為“V-JEPA”。這一模型在視頻處理領域引起了廣泛關注,因為它通過抽象性預測生成視頻中缺失或模糊的部分來進行學習,提供了一種全新的視頻處理方法。
    的頭像 發表于 02-19 11:19 ?1085次閱讀
    威尼斯人娱乐城开户地址| 百家乐官网园千术大全| 百家乐官网网开服表| 大发888 大发娱乐城| 百家乐官网槛| 赌百家乐2号破解| 百家乐官网分析软件下| 百家乐霸王闲| 百家乐官网转盘技巧| 百家乐投注平台信誉排名| 洛阳市| 网上百家乐庄家有赌场优势吗| 葡京百家乐官网玩法| 百家乐咨询网址| E乐博| 百家乐象棋玩法| 百家乐官网视频游戏平台| 机器百家乐软件| 百家乐官网哪家赌安全| 威尼斯人娱乐棋牌是真的吗| 百家乐官网旺门打法| 百家乐对子计算方法| 百家乐官网庄闲机率| 博狗百家乐的玩法技巧和规则 | 赤水市| 百家乐线上| 百家乐官网连长| 网络棋牌游戏平台| 网络百家乐游戏机怎么破解| 百家乐官网娱乐城玩法| 百家乐网站那个诚信好| 如何玩百家乐官网的玩法技巧和规则 | 百家乐可以作假吗| 百家乐官网百姓话题| 大发888 bet娱乐场下载 | 大发888 娱乐| 聚宝盆百家乐游戏| 菲律宾百家乐官网娱乐网| 大发888游戏平台hgx2dafa888gw| 百家乐官网网页游戏| 百家乐官网3宜3忌|