在格物匯之前的文章中,我們討論了特征抽取的經典算法——主成分分析PCA與線性判別分析LDA的原理與應用場景。PCA是一種無監督的降維方法,尋找的是讓數據方差最大的一種映射;LDA是一種有監督的降維方法,尋找的是讓數據分類效果最好的一種映射。但是它們仍然有應用的局限性,今天我們就一起來了解下。
PCA的局限性
我們先來回顧一下PCA的降維原理:PCA試圖通過旋轉找到新的正交基,滿足這樣的兩條性質:
1、最近重構性:樣本點到新映射的正交基距離足夠接近。
2、最大可分性:樣本點在新正交基上方差最大。
最后我們推導得到:
我們只需要對協方差矩陣XX^T 進行特征值分解,得到的特征值和特征向量即是變換矩陣w的解和改主成分所解釋的方差量。這樣的降維方法是線性的降維方法,即從高維空間到低維空間的函數映射是線性的。然而在不少應用場景中,線性映射可能不能得到想要的結果,例如如下的例子:S型曲線的本真二維結構是其低維空間的原本形狀,通過線性降維后得到的結果明顯并不是我們所期望的。
核方法
我們介紹SVM的時候所介紹的核方法是一種可以進行升維來生成一些非線性的映射。這個方法我們可以同樣使用在PCA降維分析中。
假設我們有一個樣本集:
x1,x2?xn
假設映射函數為,那么映射到高維以后,數據變成:
類似于PCA的求解方法, XX^T經過高維映射后得到
,
故:
我們把λ 移動到等號左邊得到:
我們令:
做一個簡單的替換,得到:
代入等式1,得到:
我們在左右兩邊同時乘上
得到:
做一下簡單的改變:
非常幸運的是,我們設計出了
是否還記得我們在SVM的核函數中曾經驗證過,在低維空間計算(<x1,x2>+1)^2得到的結果與高維空間上計算
的結果相似,只是系數略有不同。因此我們也可以在此應用核方法來計算。我們在此定義核函數矩陣:
代入上面等式2,便可得到:
即
很明顯,這又回到了特征值分解的問題,取K最大的d個特征值所對應的特征向量即可。
小結
我們通過將數據映射到高維以后,巧妙的構建出了
目的是為了通過在低維空間上應用核函數,計算得到跟高維空間上差不多的效果。PCA所做的是對坐標軸線性變換,即變換后的新基還是一條直線。而KPCA對坐標軸做了非線性變換,數據所映射的新基就不再是一條直線了,而是一條曲線或者曲面,如下圖所示:
通過上面這個圖,大家應該了解了KPCA和PCA的區別了吧?好了,本期格物匯的內容就到這里,我們下期再見。
審核編輯:符乾江
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
相關推薦
AD驅動器一個共模電壓,按照ADC08D1020的datasheet第43頁描述的,經過一個lmv321,到AD驅動器,現在我讓ADC08D1020上電,給PD管腳一個低電平,然后測試AD的Vcmo輸出電平,是1.83V,但是按照手冊上說的是最大才1.45V,現在不清楚為啥那么大的電壓?期待您的回復
發表于 01-21 08:38
汽車轟鳴聲、動物的叫喚、人們的交談聲、學校的讀書聲、耳機里的音樂……聲音可以說無處不在。我們把人類能夠聽到的所有聲音都稱之為音頻。我們還可以將現實世界的聲音錄制儲存,“變”成數字信號;反過來,我們也可以把儲存下來的音頻文件通過聲卡及音頻軟件播放,還原以前錄下的聲音。這兩個過程的實現,與模擬信號、數字信號、模數轉換器(ADC)和數模轉換器(DAC)有著緊密的關
發表于 11-14 01:09
?1924次閱讀
Pcm1861里面有寄存器要配置嗎,pcm 1861與pcm1865的資料放在一塊分不清楚了
發表于 10-28 07:59
有位客戶說登錄了myTI賬號也無法使用,如下圖,請問怎么辦呢?
發表于 10-18 07:19
我用一個TMR磁場傳感器,后面接一個儀表放大器,測出來的信號的噪聲特別大,如圖所示。這種情況怎么辦呀
發表于 09-06 11:09
在服務器遭受DDoS攻擊后,應立即采取相應措施,包括加強服務器安全、使用CDN和DDoS防御服務來減輕攻擊的影響。rak小編為您整理發布ddos造成服務器癱瘓后怎么辦。
發表于 08-15 10:08
?340次閱讀
電子發燒友網站提供《大電流一體成型電感有噪音怎么辦.docx》資料免費下載
發表于 07-30 12:30
?0次下載
如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協議,該如何判斷是否成功切換至QC3.0協議?
因為QC2.0協議的class B支持的20V的切換方式和QC3.0的升壓的方式是一樣的
發表于 07-20 11:56
無線電通信涉及幾個重要參數,分別是頻段、信道、信道帶寬和傳輸速率,它們在無線網絡配置中扮演著重要角色。頻段:“不同的高速公路”頻段(FrequencyBand)指的是無線電波的一個特定頻率范圍,這個范圍被分配給無線通信使用。不同的無線通信技術會使用不同的頻段,避免相互之間的干擾。如最常見的Wi-Fi頻段有兩個:2.4GHz和5GHz。這兩個頻段就像是兩條不同
發表于 06-21 08:21
?4493次閱讀
KT142C-sop16語音芯片的芯片,我直接焊到我的板子上面,插上usb,但是出不來虛擬U盤怎么辦?
發表于 05-23 10:50
?532次閱讀
寫在前面:好多朋友經常把藍牙AOA和UWB-AOA混淆,傻傻分不清楚。UWB和藍牙分屬兩種無線電技術,AOA指的是測量無線電到達信號的角度,UWB-AOA和藍牙AOA是兩種完全不同的產品,相較于藍牙AOA UWB-AOA定位精度更高、覆蓋范圍更廣、適用場景更加豐富。
發表于 05-09 17:07
?2060次閱讀
LIN的UART接收沖突怎么辦?貌似不加LIN的berak和分界符也能被從節點的UART收到
發表于 05-09 08:12
工控主板發生故障該怎么辦?前幾天有個客戶問了我這個問題,大部分情況下出現的故障并不可怕,主要是用戶粗心大意造成的。那今天小編就來講解一下工控主板一般會出現故障的主要原因及判斷方法:
發表于 04-11 18:19
?929次閱讀
在現代科技發展的時代,電容器在各個領域都扮演著重要的角色。然而,由于各種原因,電容器的負極可能會發生熔斷的情況。那么,當電容器的負極熔斷時,我們應該怎么辦呢?
發表于 04-10 14:15
?585次閱讀
1、隧道廣播的設置標準 根據交通運輸部 2012 年第 3 號公告發布的《高速公路通信技術要求》有線廣播設計原則為:隧道監控等級為 A + 、A、B 等級的隧道應設置有線廣播系統,隧道監控等級為 C等級的隧道可設置有線廣播系統, 隧道段有線廣播揚聲器設置在隧道洞外入、出口,洞內宜每隔50m設置1臺。 隧道廣播與緊急電話分機的一般布設形式:在隧道內沿行車方向右側每隔約200m左右布設一部隧道廣播與緊急電話分機,隧道外距隧道洞口約5m左右布設一部緊
發表于 03-15 13:18
?601次閱讀
評論