吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

十大機器學習算法中的線性判別分析的詳細介紹

牽手一起夢 ? 來源:網絡整理 ? 作者:佚名 ? 2020-02-03 07:28 ? 次閱讀

先前呢,我們在最受歡迎的十大機器學習算法-part1和最受歡迎的十大機器學習算法-part2兩篇文章中簡單介紹了十種機器學習算法,有的讀者反映看完還是云里霧里,所以,我會挑幾種難理解的算法詳細講解一下,今天我們介紹的是線性判別分析。

線性判別分析(Linear Discriminant Analysis)簡稱LDA,是分類算法中的一種。LDA通過對歷史數據進行投影,以保證投影后同一類別的數據盡量靠近,不同類別的數據盡量分開。并生成線性判別模型對新生成的數據進行分離和預測。

LDA投影矩陣

在維基百科中對投影的定義是:“投影是從向量空間映射到自身的一種線性變換,是日常生活中“平行投影”概念的形式化和一般化”。例如,在日常生活中,陽光會在大地上留下各種物體的影子。陽光將三維空間中的物體映射到影子的二維空間中,而影子隨著一天中太陽照射角度的變化也會發生變化。

如果你玩過游戲《Shadowmatic》就能理解LDA投影的過程。《Shadowmatic》是一款由TRIADA Studio開發的3D解謎游戲。游戲需要玩家在燈光下旋轉,扭動懸浮在空中的不明物體,并通過燈光的投影在墻上尋找不明物體的真面目。只要找對角度就能成功。如下面的游戲截圖中,不明物體在某個角度的投影是一只可愛的小兔子。

LDA投影矩陣與《Shadowmatic》相似。其中的不明物體是歷史數據樣本。我們需要通過“旋轉”和“扭動”這些歷史數據,找到正確的角度發現其中的模式。以下是銀行對企業貸款的樣本數據,其中包含了企業經營時間和拖延還款天數以及最終是否還款的數據。

十大機器學習算法中的線性判別分析的詳細介紹

我們把這些樣本數據生成散點圖,其中X軸是企業經營時間,Y軸是拖延還款天數,藍色三角表示未還款數據,紅色方框表示已還款數據。在散點圖中未還款和已還款數據相互交織,無法發現其中的模式。這就是游戲中的不明物體。

十大機器學習算法中的線性判別分析的詳細介紹

與游戲中不同的是我們無法“旋轉”和“扭動”樣本數據,而是要通過移動背景墻的位置來發現最終的“小兔子”。在下面的圖中,無論我們將樣本數據投影到X軸,還是Y軸,已還款和未還款的兩類數據都交織在一起,我們無法發現其中的模型。更無法對數據進行分類和預測。因為任何一個單獨的維度都無法判斷企業最終是否會還款。我們需要變換投影背景墻的位置來找到能將兩類數據分離的“角度”。

十大機器學習算法中的線性判別分析的詳細介紹

在LDA中這個投影背景墻是一個新的Y軸,角度是向量W。我們通過計算獲得向量W并生成新的Y軸,使兩個類別的樣本數據在新Y軸的投影中能最大程度的分離。計算向量W的方法是使用兩類數據的平均值差的平方除以兩類數據各自的方差之和。在這個公式中,我們希望分母越小越好,分子越大越好。換句話說就是兩類數據的均值相差的越大越好,這樣可以保證兩類數據間的分離程度。而同一類數據的方差越小越好,這樣可以保證每一類數據都不會太分散。這樣我們就可以找出一個W使J(W)的值最大。而這個最大值就是新的投影背景墻Y軸的方向。(這里需要通過拉格朗日來求W的最大值)

十大機器學習算法中的線性判別分析的詳細介紹

當歷史樣本數據被投影到新的Y軸背景墻時,可以看到數據與之前的情況不同,被明顯的分為了兩組。并且兩組數據間的交叉很少。這符合了LDA的預期,不同類別的數據間分離的越遠越好,同一類別的數據越集中越好。

十大機器學習算法中的線性判別分析的詳細介紹

到這里我們對兩類數據進行了分離,但這還不能實現對數據分類和預測。因此我們還需要找到一個點來區分這兩類數據。這個點就是線性辨別模型中。

LDA模式分類

線性辨別模型(Z=b1x1+b2x2)是一條直線方程,通過這條直線方程我們可以在散點圖中發現可以將兩組數據進行區分的數據點。并對新產生的數據進行分類和預測。如下圖所示,我們通過線性辨別模型獲得一條可以區分不同類別的直線。其中X1是企業經營時間,X2是拖延還款天數。而b1和b2是我們所要求的模型系數。

十大機器學習算法中的線性判別分析的詳細介紹

方差,協方差,協方差矩陣

在求線性辨別模型中的b1和b2時,需要用到協方差矩陣,因此我們先來簡單介紹與協方差有關的一些概念和計算方法。

均值

首先是均值,均值的計算很簡單。但要了解協方差和方差的概念,就必須先從均值開始。以下是均值的計算公式。均值表示一組數的集中程度。

十大機器學習算法中的線性判別分析的詳細介紹

方差

方差與均值正好相反,用來表示一組數的離散程度,也就是一組數中每一個數到均值的距離。由于均值通常是一組數的中心點,為了避免左右兩側的數據由于正負相互抵消無法準確的表示平均距離。我們先對距離取平方在進行匯總,匯總的結果就是方差的值。方差開平方就是標準差。

十大機器學習算法中的線性判別分析的詳細介紹

協方差

協方差是在方差的基礎上擴展得到的,從計算公式中就能看出來。協方差與方差有兩個最大的區別,第一個區別是方差是用來描述一組數的而協方差是用來描述兩組數的。第二個區別是方差用來描述一組數的離散程度,也就是離均值的距離,而協方差是用來描述兩組數直接的聯系的。

方差與協方差計算公式:

十大機器學習算法中的線性判別分析的詳細介紹

十大機器學習算法中的線性判別分析的詳細介紹

協方差是一種用來度量兩個隨機變量關系的統計量。

當cov(X, Y)>0時,表明 X與Y 正相關;

當cov(X, Y)<0時,表明X與Y負相關;

當cov(X, Y)=0時,表明X與Y不相關。

協方差矩陣

協方差只能處理兩組數(兩維)間的關系,當要計算的數據多于兩組(多維)時,就要用到協方差矩陣。協方差矩陣其實是分別計算了不同維度之間的協方差。通過下圖可以發現協方差矩陣是一個對稱的矩陣,對角線是各個維度上的方差。

十大機器學習算法中的線性判別分析的詳細介紹

計算線性辨別模型

在開始計算線性辨別模型之前,我們按企業是否還款將歷史數據分為已還款和未還款兩個類別。用以進行后面的計算。

十大機器學習算法中的線性判別分析的詳細介紹

計算均值,概覽及協方差矩陣

我們分別計算出已還款和未還款兩個類別中條目的數量,在整體樣本數據中出現的概率以及企業經營時間和拖延還款天數的均值。

十大機器學習算法中的線性判別分析的詳細介紹

按照前面介紹的協方差矩陣公式分別計算出兩個類別的協方差矩陣。從下圖中可以發現,協方差矩陣是一個對稱的矩陣,并且對角線上的兩個數字就是企業經營天數和拖延還款天數的方差值。

十大機器學習算法中的線性判別分析的詳細介紹

合并協方差矩陣

按照合并協方差的公式我們將兩個類別的協方差矩陣按出現的概率合并為一個協方差矩陣。以下是合并協方差的公式。

十大機器學習算法中的線性判別分析的詳細介紹

按照上面的公式,將每個類別的協方差矩陣乘以該類別的概率我們獲得了合并協方差矩陣。

十大機器學習算法中的線性判別分析的詳細介紹

逆協方差矩陣

最后我們對兩個類別的協方差矩陣求他的逆協方差矩陣。。

十大機器學習算法中的線性判別分析的詳細介紹

這是我們求得的合并協方差矩陣的逆矩陣。

十大機器學習算法中的線性判別分析的詳細介紹

計算線性辨別模型系數

求得逆協方差矩陣后,就可以通過兩個類別的均值差和逆協方差矩陣計算線性辨別模型的系數。下面分別給出了兩個類別的均值,逆協方差矩陣的對應表。

十大機器學習算法中的線性判別分析的詳細介紹

十大機器學習算法中的線性判別分析的詳細介紹

通過公式分別求出線性辨別模型的兩個系數b1和b2,以下是公式和計算步驟。

十大機器學習算法中的線性判別分析的詳細介紹

b1=0.0001(116.23-115.04)+0.0003(16.89-55.32)=-0.009696

十大機器學習算法中的線性判別分析的詳細介紹

b2=0.0003(116.23-115.04)+0.0037(16.89-55.32)=-0.143453

兩個系數分別為b1=-0.009696,b2=-0.143453。將系數值代入到模型中,就是我們所求的線性辨別模型。

十大機器學習算法中的線性判別分析的詳細介紹

十大機器學習算法中的線性判別分析的詳細介紹

責任編輯:gt

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 3D
    3D
    +關注

    關注

    9

    文章

    2910

    瀏覽量

    107993
  • 游戲
    +關注

    關注

    2

    文章

    750

    瀏覽量

    26363
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133080
收藏 人收藏

    評論

    相關推薦

    【專輯精選】機器學習算法教程與資料

    電子發燒友總結了以“算法”為主題的精選干貨,今后每天一個主題為一期,希望對各位有所幫助!(點擊標題即可進入頁面下載相關資料)經典算法大全(51個C語言算法+單片機常用算法+
    發表于 05-09 17:06

    基于核函數的Fisher判別分析算法在人耳識別的應用

    針對人耳圖像自身的特點,并通過對現有生物識別技術的研究,本文嘗試采用了一種基于核函數的Fisher 判別分析算法對人耳進行識別。該算法不僅可以有效地提取人耳特征,獲得
    發表于 05-30 11:44 ?29次下載

    近鄰邊界Fisher判別分析

    將數據集進行合理的維數約簡對于一些機器學習算法效率的提高起著至關重要的影響。該文提出了一種利用數據點鄰域信息的線性監督降維算法:近鄰邊界Fi
    發表于 11-21 11:12 ?7次下載

    虛電壓的判別分析

    虛電壓的判別分析
    發表于 08-08 17:37 ?1665次閱讀
    虛電壓的<b class='flag-5'>判別分析</b>圖

    不相關判別分析算法在人臉識別應用

    對高維數據降維并選取有效特征對分類起著關鍵作用。針對人臉識別存在的高維和小樣本問題,從特征選取和子空間學習入手,提出了一種L2.1范數正則化的不相關判別分析算法。該
    發表于 11-22 14:40 ?1次下載

    核局部Fisher判別分析的行人重識別

    ;在度量學習方面,傳統的核局部Fisher判別分析度量學習方法對所有查詢圖像統一映射到相同的特征空間中,忽略了查詢圖像不同區域的重要性,為此在核局部Fisher判別分析的基礎上對特征進
    發表于 12-13 17:25 ?0次下載

    基于逐步判別分析的血液氣味識別

    本文以血液氣味色譜為基礎,利用逐步判別分析法建立了血液氣味識別模型,并對血液氣味識別模型的建立進行了詳細描述。以Matlab為計算工具,編寫了血液氣味識別模型的代碼。以人體血液與犬、雞的血液為例,討論了血液氣味識別模型的使用方法。血液氣味識別模型能夠正確區分人體血液與動物
    發表于 01-04 16:38 ?0次下載
    基于逐步<b class='flag-5'>判別分析</b>的血液氣味識別

    機器學習算法的FSS算法詳細資料合集免費下載

    本文檔的主要內容詳細介紹的是機器學習算法的FSS算法
    發表于 11-22 17:07 ?9次下載

    python機器學習工具sklearn使用手冊的中文版免費下載

    本文檔的主要內容詳細介紹的是python機器學習工具sklearn使用手冊的中文版免費下載包括了:1.緒言,2.有監督學習,3.廣義
    發表于 03-26 08:00 ?0次下載
    python<b class='flag-5'>機器</b><b class='flag-5'>學習</b>工具sklearn使用手冊的中文版免費下載

    利用基于線性判別分析的多變量分析模型對豇豆種子進行分類

    成像系統在高通量豇豆種子分類的應用潛力。利用自動機器視覺發芽系統在種子吸脹和發芽期間不間斷地監測,來識別所有單個種子的不同類別。本文利用從多光譜圖像中提取的單個豇豆種子的光譜特征,建立了基于線性
    的頭像 發表于 03-29 15:11 ?2487次閱讀
    利用基于<b class='flag-5'>線性</b><b class='flag-5'>判別分析</b>的多變量<b class='flag-5'>分析</b>模型對豇豆種子進行分類

    機器學習十大算法精髓總結

    最常見的機器學習算法學習映射Y = f(X)來預測新X的Y,這叫做預測建模或預測分析
    的頭像 發表于 05-05 09:21 ?3817次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>十大</b><b class='flag-5'>算法</b>精髓總結

    10大常用機器學習算法匯總

    本文介紹了10大常用機器學習算法,包括線性回歸、Logistic回歸、線性
    發表于 11-20 11:10 ?2827次閱讀

    線性判別分析LDA背后的數學原理

    線性判別分析(LDA)是一種降維技術,其目標是將數據集投影到較低維度空間中。線性判別分析也被稱為正態判別分析(NDA)或
    的頭像 發表于 04-19 11:30 ?1452次閱讀
    <b class='flag-5'>線性</b><b class='flag-5'>判別分析</b>LDA背后的數學原理

    機器學習算法入門 機器學習算法介紹 機器學習算法對比

    機器學習算法入門 機器學習算法介紹
    的頭像 發表于 08-17 16:27 ?1004次閱讀

    機器學習的基本流程和十大算法

    為了進行機器學習和數據挖掘任務,數據科學家們提出了各種模型,在眾多的數據挖掘模型,國際權威的學術組織 ICDM(the IEEE International Conference on Data Mining)評選出了
    發表于 10-31 11:30 ?1076次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>的基本流程和<b class='flag-5'>十大</b><b class='flag-5'>算法</b>
    澳门百家乐免费开户| 百家乐官网有秘技吗| 24山是什么意思| bet365公司欧赔| 百家乐官网15人桌| 在线博弈游戏| 百家乐网络赌博地址| 大余县| 电玩城百家乐技巧| 百家乐官网视频游戏界面| 百家乐百家乐技巧| 现金百家乐官网破解| 美国太阳城养老社区| 百家乐官网赌博外挂| 大发888 com| 百家乐千术道具| 百家乐官网里和的作用| 全讯网网站xb112| 足球百家乐官网系统| 真人在线百家乐| A8百家乐赌场娱乐网规则| 百家乐官网有人玩吗| 888达人| 深圳百家乐的玩法技巧和规则| 网上百家乐官网骗人的| 百家乐博娱乐网| 百家乐官网赌博器| 皇家娱乐场| 郑州百家乐高手| 天堂鸟百家乐官网的玩法技巧和规则| 大发888真钱游戏祖比| 百家乐玩法窍门| 太阳城百家乐官网的分数| 大发888亚付宝充值| 百家乐哪家赌安全| 百家乐官网扑克多少张| 鸿博投注| 赌百家乐的玩法技巧和规则| 如何看百家乐官网的玩法技巧和规则| 大发888下载df888| 试玩区百家乐1000|