吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對監(jiān)督機器學(xué)習(xí)的基本限制和目標進行深刻而簡潔的描述

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-09-24 08:51 ? 次閱讀

當(dāng)貝葉斯、奧卡姆和香農(nóng)一起給機器學(xué)習(xí)下定義,將統(tǒng)計學(xué)、信息理論和自然哲學(xué)的一些核心概念結(jié)合起來,我們便會會發(fā)現(xiàn),可以對監(jiān)督機器學(xué)習(xí)的基本限制和目標進行深刻而簡潔的描述。

令人有點驚訝的是,在所有機器學(xué)習(xí)的流行詞匯中,我們很少聽到一個將統(tǒng)計學(xué)、信息理論和自然哲學(xué)的一些核心概念融合起來的短語。

而且,它不是一個只有機器學(xué)習(xí)博士和專家懂得的晦澀術(shù)語,對于任何有興趣探索的人來說,它都具有精確且易于理解的含義,對于ML和數(shù)據(jù)科學(xué)的從業(yè)者來說,它具有實用的價值。

這個術(shù)語就是最小描述長度(Minimum Description Length)。

讓我們剝繭抽絲,看看這個術(shù)語多么有用……

貝葉斯和他的理論

我們從托馬斯·貝葉斯(Thomas Bayes)說起,順便一提,他從未發(fā)表過關(guān)于如何做統(tǒng)計推理的想法,但后來卻因“貝葉斯定理”而不朽。

Thomas Bayes

那是在18世紀下半葉,當(dāng)時還沒有一個數(shù)學(xué)科學(xué)的分支叫做“概率論”。人們知道概率論,是因為亞伯拉罕 · 棣莫弗(Abraham de Moievre)寫的《機遇論》(Doctrine of Chances)一書。

1763年,貝葉斯的著作《機會問題的解法》(An Essay toward solving a Problem in the Doctrine of opportunities)被寄給英國皇家學(xué)會,但經(jīng)過了他的朋友理查德·普萊斯(Richard Price)的編輯和修改,發(fā)表在倫敦皇家學(xué)會哲學(xué)匯刊。在那篇文章中,貝葉斯以一種相當(dāng)繁復(fù)的方法描述了關(guān)于聯(lián)合概率的簡單定理,該定理引起了逆概率的計算,即貝葉斯定理。

自那以后,統(tǒng)計科學(xué)的兩個派別——貝葉斯學(xué)派和頻率學(xué)派(Frequentists)之間發(fā)生了許多爭論。但為了回歸本文的目的,讓我們暫時忽略歷史,集中于對貝葉斯推理的機制的簡單解釋。請看下面這個公式:

這個公式實際上告訴你,在看到數(shù)據(jù)/證據(jù)(可能性)之后更新你的信念(先驗概率),并將更新后的信念程度賦予后驗概率。你可以從一個信念開始,但每個數(shù)據(jù)點要么加強要么削弱這個信念,你會一直更新你的假設(shè)。

聽起來十分簡單而且直觀是吧?很好。

不過,我在這段話的最后一句話里耍了個小花招。你注意了嗎?我提到了一個詞“假設(shè)”。

在統(tǒng)計推理的世界里,假設(shè)就是信念。這是一種關(guān)于過程本質(zhì)(我們永遠無法觀察到)的信念,在一個隨機變量的產(chǎn)生背后(我們可以觀察或測量到隨機變量,盡管可能有噪聲)。在統(tǒng)計學(xué)中,它通常被稱為概率分布。但在機器學(xué)習(xí)的背景下,它可以被認為是任何一套規(guī)則(或邏輯/過程),我們認為這些規(guī)則可以產(chǎn)生示例或訓(xùn)練數(shù)據(jù),我們可以學(xué)習(xí)這個神秘過程的隱藏本質(zhì)。

因此,讓我們嘗試用不同的符號重新定義貝葉斯定理——用與數(shù)據(jù)科學(xué)相關(guān)的符號。我們用D表示數(shù)據(jù),用h表示假設(shè),這意味著我們使用貝葉斯定理的公式來嘗試確定數(shù)據(jù)來自什么假設(shè),給定數(shù)據(jù)。我們把定理重新寫成:

現(xiàn)在,一般來說,我們有一個很大的(通常是無限的)假設(shè)空間,也就是說,有許多假設(shè)可供選擇。貝葉斯推理的本質(zhì)是,我們想要檢驗數(shù)據(jù)以最大化一個假設(shè)的概率,這個假設(shè)最有可能產(chǎn)生觀察數(shù)據(jù)(observed data)。我們一般想要確定P(h|D)的argmax,也就是想知道哪個h的情況下,觀察到的D是最有可能的。為了達到這個目的,我們可以把這個項放到分母P(D)中,因為它不依賴于假設(shè)。這個方案就是最大后驗概率估計(maximum a posteriori,MAP)。

現(xiàn)在,我們應(yīng)用以下數(shù)學(xué)技巧:

最大化對于對數(shù)與原始函數(shù)的作用類似,即采用對數(shù)不會改變最大化問題

乘積的對數(shù)是各個對數(shù)的總和

一個量的最大化等于負數(shù)量的最小化

那些負對數(shù)為2的術(shù)語看起來很熟悉是不是......來自信息論(Information Theory)!

讓我們進入克勞德·香農(nóng)(Claude Shannon)的世界吧!

香農(nóng)和信息熵

如果要描述克勞德·香農(nóng)的天才和奇特的一生,長篇大論也說不完。香農(nóng)幾乎是單槍匹馬地奠定了信息論的基礎(chǔ),引領(lǐng)我們進入了現(xiàn)代高速通信和信息交流的時代。

香農(nóng)在MIT電子工程系完成的碩士論文被譽為20世紀最重要的碩士論文:在這篇論文中,22歲的香農(nóng)展示了如何使用繼電器和開關(guān)的電子電路實現(xiàn)19世紀數(shù)學(xué)家喬治布爾(George Boole)的邏輯代數(shù)。數(shù)字計算機設(shè)計的最基本的特征——將“真”和“假”、“0”和“1”表示為打開或關(guān)閉的開關(guān),以及使用電子邏輯門來做決策和執(zhí)行算術(shù)——可以追溯到香農(nóng)論文中的見解。

但這還不是他最偉大的成就。

1941年,香農(nóng)去了貝爾實驗室,在那里他從事戰(zhàn)爭事務(wù),包括密碼學(xué)。他還研究信息和通信背后的原始理論。1948年,貝爾實驗室研究期刊發(fā)表了他的研究,也就是劃時代的題為“通信的一個數(shù)學(xué)理論”論文。

香農(nóng)將信息源產(chǎn)生的信息量(例如,信息中的信息量)通過一個類似于物理學(xué)中熱力學(xué)熵的公式得到。用最基本的術(shù)語來說,香農(nóng)的信息熵就是編碼信息所需的二進制數(shù)字的數(shù)量。對于概率為p的信息或事件,它的最特殊(即最緊湊)編碼將需要-log2(p)比特。

而這正是在貝葉斯定理中的最大后驗表達式中出現(xiàn)的那些術(shù)語的本質(zhì)!

因此,我們可以說,在貝葉斯推理的世界中,最可能的假設(shè)取決于兩個術(shù)語,它們引起長度感(sense of length),而不是最小長度。

那么長度的概念是什么呢?

Length (h): 奧卡姆剃刀

奧卡姆的威廉(William of Ockham,約1287-1347)是一位英國圣方濟會修士和神學(xué)家,也是一位有影響力的中世紀哲學(xué)家。他作為一個偉大的邏輯學(xué)家而享有盛名,名聲來自他的被稱為奧卡姆剃刀的格言。剃刀一詞指的是通過“剔除”不必要的假設(shè)或分割兩個相似的結(jié)論來區(qū)分兩個假設(shè)。

奧卡姆剃刀的原文是“如無必要勿增實體”。用統(tǒng)計學(xué)的話說,我們必須努力用最簡單的假設(shè)來解釋所有數(shù)據(jù)。

其他杰出人物響應(yīng)了類似的原則。

牛頓說:“解釋自然界的一切,應(yīng)該追求使用最少的原理。”

羅素說:“只要有可能,用已知實體的結(jié)構(gòu)去替代未知實體的推論。”

人們總是喜歡更短的假設(shè)。

那么我們需要一個關(guān)于假設(shè)的長度的例子嗎?

下面哪個決策樹的長度更小?A還是B?

即使沒有一個對假設(shè)的“長度”的精確定義,我相信你肯定會認為左邊的樹(A)看起來更小或更短。當(dāng)然,你是對的。因此,更短的假設(shè)就是,它要么自由參數(shù)更少,要么決策邊界更不復(fù)雜,或者這些屬性的某種組合可以表示它的簡潔性。

那么Length(D | h)是什么?

給定假設(shè)是數(shù)據(jù)的長度。這是什么意思?

直觀地說,它與假設(shè)的正確性或表示能力有關(guān)。給定一個假設(shè),它支配著數(shù)據(jù)的“推斷”能力。如果假設(shè)很好地生成了數(shù)據(jù),并且我們可以無錯誤地測量數(shù)據(jù),那么我們就根本不需要數(shù)據(jù)。

想想牛頓的運動定律。

牛頓運動定律第一次出現(xiàn)在《自然哲學(xué)的數(shù)學(xué)原理》上時,它們并沒有任何嚴格的數(shù)學(xué)證明。它們不是定理。它們很像基于對自然物體運動的觀察而做出的假設(shè)。但是它們對數(shù)據(jù)的描述非常好。因此它們就變成了物理定律。

這就是為什么你不需要記住所有可能的加速度數(shù)字,你只需要相信一個簡潔的假設(shè),即F=ma,并相信所有你需要的數(shù)字都可以在必要時從這個假設(shè)中計算出來。它使得Length(D | h) 非常小。

但是如果數(shù)據(jù)與假設(shè)有很大的偏差,那么你需要對這些偏差是什么,它們可能的解釋是什么等進行詳細描述。

因此,Length(D | h)簡潔地表達了“數(shù)據(jù)與給定假設(shè)的匹配程度”這個概念。

實質(zhì)上,它是錯誤分類(misclassication)或錯誤率( error rate)的概念。對于一個完美的假設(shè),它是很短的,在極限情況下它為零。對于一個不能完美匹配數(shù)據(jù)的假設(shè),它往往很長。

而且,存在著權(quán)衡。

如果你用奧卡姆剃刀刮掉你的假設(shè),你很可能會得到一個簡單的模型,一個無法獲得所有數(shù)據(jù)的模型。因此,你必須提供更多的數(shù)據(jù)以獲得更好的一致性。另一方面,如果你創(chuàng)建了一個復(fù)雜的(長的)假設(shè),你可能可以很好地處理你的訓(xùn)練數(shù)據(jù),但這實際上可能不是正確的假設(shè),因為它違背了MAP 原則,即假設(shè)熵是小的。

將所有這些結(jié)合起來

因此,貝葉斯推理告訴我們,最好的假設(shè)就是最小化兩個項之和:假設(shè)的長度和錯誤率。

這句話幾乎涵蓋了所有(有監(jiān)督)機器學(xué)習(xí)。

想想它的結(jié)果:

線性模型的模型復(fù)雜度——選擇多項式的程度,如何減少平方和殘差。

神經(jīng)網(wǎng)絡(luò)架構(gòu)的選擇——如何不公開訓(xùn)練數(shù)據(jù),達到良好的驗證精度,并且減少分類錯誤。

支持向量機正則化和kernel選擇——軟邊界與硬邊界之間的平衡,即用決策邊界非線性來平衡精度

我們真正得出的結(jié)論是什么?

我們從最小描述長度(MDL)原理的分析中得出什么結(jié)論?

這是否一勞永逸地證明了短的假設(shè)就是最好的?

沒有。

MDL表明,如果選擇假設(shè)的表示(representation)使得h的大小為-log2 P(h),并且如果異常(錯誤)的表示被選擇,那么給定h的D的編碼長度等于-log2 P(D | h),然后MDL原則產(chǎn)生MAP假設(shè)。

然而,為了表明我們有這樣一個表示,我們必須知道所有先驗概率P(h),以及P(D | h)。沒有理由相信MDL假設(shè)相對于假設(shè)和錯誤/錯誤分類的任意編碼應(yīng)該是首選。

對于實際的機器學(xué)習(xí),人類設(shè)計者有時可能更容易指定一種表示來獲取關(guān)于假設(shè)的相對概率的知識,而不是完全指定每個假設(shè)的概率。

這就是知識表示和領(lǐng)域?qū)I(yè)知識變得無比重要的地方。它使(通常)無限大的假設(shè)空間變小,并引導(dǎo)我們走向一組高度可能的假設(shè),我們可以對其進行最優(yōu)編碼,并努力找到其中的一組MAP假設(shè)。

總結(jié)和思考

一個奇妙的事實是,如此簡單的一套數(shù)學(xué)操作就能在概率論的基本特征之上產(chǎn)生對監(jiān)督機器學(xué)習(xí)的基本限制和目標的如此深刻而簡潔的描述。對這些問題的簡明闡述,讀者可以參考來自CMU的一篇博士論文《機器學(xué)習(xí)為何有效》(Why Machine Learning Works)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標題:當(dāng)貝葉斯,奧卡姆和香農(nóng)一起來定義機器學(xué)習(xí)

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    機器學(xué)習(xí)技術(shù)在圖像分類和目標檢測上的應(yīng)用

    在本章中,我們將討論機器學(xué)習(xí)技術(shù)在圖像處理中的應(yīng)用。首先,定義機器學(xué)習(xí),并學(xué)習(xí)它的兩種算法——監(jiān)督
    的頭像 發(fā)表于 10-20 10:52 ?1834次閱讀

    【下載】《機器學(xué)習(xí)》+《機器學(xué)習(xí)實戰(zhàn)》

    、謀發(fā)展的決定性手段,這使得這一過去為分析師和數(shù)學(xué)家所專屬的研究領(lǐng)域越來越為人們所矚目。本書第一部分主要介紹機器學(xué)習(xí)基礎(chǔ),以及如何利用算法進行分類,并逐步介紹了多種經(jīng)典的監(jiān)督學(xué)習(xí)算法,
    發(fā)表于 06-01 15:49

    【阿里云大學(xué)免費精品課】機器學(xué)習(xí)入門:概念原理及常用算法

    的性能。2.機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究。3.機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標準。機器
    發(fā)表于 06-23 13:51

    如何用卷積神經(jīng)網(wǎng)絡(luò)方法去解決機器監(jiān)督學(xué)習(xí)下面的分類問題?

    人工智能下面有哪些機器學(xué)習(xí)分支?如何用卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法去解決機器學(xué)習(xí)監(jiān)督學(xué)習(xí)下面的分類問題?
    發(fā)表于 06-16 08:09

    如何使用深度學(xué)習(xí)進行視頻行人目標檢測

    。由于深度神經(jīng)網(wǎng)絡(luò)能夠通過多層表示的方式更加深刻描述目標特征,基于深度學(xué)習(xí)的檢測方法優(yōu)點在于能夠準確檢測具有訓(xùn)練數(shù)據(jù)中目標特征的
    發(fā)表于 11-19 16:01 ?22次下載
    如何使用深度<b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>進行</b>視頻行人<b class='flag-5'>目標</b>檢測

    你想要的機器學(xué)習(xí)課程筆記在這:主要討論監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)

    with experience E(一個程序從經(jīng)驗E中學(xué)習(xí)解決任務(wù)T進行某一任務(wù)量度P,通過P測量在T的表現(xiàn)而提高經(jīng)驗E(另一種定義:機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序
    發(fā)表于 12-03 17:12 ?595次閱讀

    如何用Python進行監(jiān)督學(xué)習(xí)

    監(jiān)督學(xué)習(xí)是一種用于在數(shù)據(jù)中查找模式的機器學(xué)習(xí)技術(shù)。無監(jiān)督算法給出的數(shù)據(jù)不帶標記,只給出輸入變量(X),沒有相應(yīng)的輸出變量。在無監(jiān)督學(xué)習(xí)中,
    的頭像 發(fā)表于 01-21 17:23 ?4330次閱讀

    監(jiān)督機器學(xué)習(xí)如何保護金融

    監(jiān)督機器學(xué)習(xí)是近年才發(fā)展起來的反欺詐手法。目前國內(nèi)反欺詐金融服務(wù)主要是應(yīng)用黑白名單、有監(jiān)督學(xué)習(xí)和無監(jiān)督
    發(fā)表于 05-01 22:11 ?1028次閱讀

    機器學(xué)習(xí)算法中有監(jiān)督和無監(jiān)督學(xué)習(xí)的區(qū)別

    監(jiān)督學(xué)習(xí)的好處之一是,它不需要監(jiān)督學(xué)習(xí)必須經(jīng)歷的費力的數(shù)據(jù)標記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學(xué)習(xí)算法的輸出與測試數(shù)據(jù)的實際標簽進行比較,可以很
    的頭像 發(fā)表于 07-07 10:18 ?5844次閱讀

    最基礎(chǔ)的半監(jiān)督學(xué)習(xí)

    導(dǎo)讀 最基礎(chǔ)的半監(jiān)督學(xué)習(xí)的概念,給大家一個感性的認識。 半監(jiān)督學(xué)習(xí)(SSL)是一種機器學(xué)習(xí)技術(shù),其中任務(wù)是從一個小的帶標簽的數(shù)據(jù)集和相對較大的未帶標簽的數(shù)據(jù)中
    的頭像 發(fā)表于 11-02 16:08 ?2707次閱讀

    監(jiān)督學(xué)習(xí)最基礎(chǔ)的3個概念

    有趣的方法,用來解決機器學(xué)習(xí)中缺少標簽數(shù)據(jù)的問題。SSL利用未標記的數(shù)據(jù)和標記的數(shù)據(jù)集來學(xué)習(xí)任務(wù)。SSL的目標是得到比單獨使用標記數(shù)據(jù)訓(xùn)練的監(jiān)督學(xué)習(xí)
    的頭像 發(fā)表于 11-02 16:14 ?3032次閱讀
    半<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>最基礎(chǔ)的3個概念

    為什么半監(jiān)督學(xué)習(xí)機器學(xué)習(xí)的未來?

    為什么半監(jiān)督學(xué)習(xí)機器學(xué)習(xí)的未來。 監(jiān)督學(xué)習(xí)是人工智能領(lǐng)域的第一種學(xué)習(xí)類型。從它的概念開始,無數(shù)的算法,從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡(luò),
    的頭像 發(fā)表于 11-27 10:42 ?3962次閱讀

    機器學(xué)習(xí)中若干典型的目標函數(shù)構(gòu)造方法

    幾乎所有的機器學(xué)習(xí)算法都歸結(jié)為求解最優(yōu)化問題。有監(jiān)督學(xué)習(xí)算法在訓(xùn)練時通過優(yōu)化一個目標函數(shù)得到模型,然后用模型
    的頭像 發(fā)表于 12-26 09:52 ?4361次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>中若干典型的<b class='flag-5'>目標</b>函數(shù)構(gòu)造方法

    機器學(xué)習(xí)的類型介紹

    機器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí),強化學(xué)習(xí),深度
    發(fā)表于 03-12 16:01 ?3285次閱讀

    機器學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)應(yīng)用在哪些領(lǐng)域

    監(jiān)督學(xué)習(xí)|機器學(xué)習(xí)| 集成學(xué)習(xí)|進化計算| 非監(jiān)督學(xué)習(xí)| 半監(jiān)督學(xué)習(xí)| 自
    發(fā)表于 01-20 10:52 ?5002次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>中的無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>應(yīng)用在哪些領(lǐng)域
    南京百家乐在哪| 百家乐正品地址| 百家乐过滤工具| 万豪国际娱乐网| 菲律宾百家乐官网娱乐网| 济州岛百家乐官网的玩法技巧和规则| 网上百家乐辅助软件| 免费下百家乐赌博软件| 大发888娱乐城破解软件| 百家乐官网游戏规则介绍| 三元玄空24山坐向开门| 百家乐博弈指| 安龙县| 百家乐官网园鼎丰娱乐城| 百家乐高手的心得| 真钱轮盘游戏| 百家乐官网单打| 多伦多百家乐的玩法技巧和规则| 香港六合彩官方网| 银河百家乐官网的玩法技巧和规则| 百家乐赌场详解| 韩城市| 属鸡与属羊做生意| 大发888大发888体育| 百家乐官网开户平台| 百家乐网上真钱娱乐场| 安多县| 网上百家乐网站导航| 盈乐博娱乐城| 百家乐官网投注| 大发888优惠代码| 百家乐官网出千方法技巧| 线上百家乐的玩法技巧和规则| 肇州县| 澳门百家乐现场真人版| 百家乐赌博| 网上百家乐网站导航| 博彩赌场| 伟博百家乐官网娱乐城| 大发888官方 截图| 唐朝百家乐官网的玩法技巧和规则 |