吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解釋數(shù)據(jù)科學、機器學習和人工智能這3者之間的差異和區(qū)別

zhKF_jqr_AI ? 2018-01-12 17:22 ? 次閱讀

編者按:如果你要寫3段同樣的代碼,你最好調(diào)用函數(shù);如果你被人當面問了3次同樣的問題,你最好寫一篇文章……數(shù)據(jù)科學、機器學習人工智能,隨著這些詞日漸頻繁地出現(xiàn)在公眾視野里,一些類似“程序員=修電腦”的誤會也逐漸變得常見起來。那么,這三者的區(qū)別究竟是什么呢?近日,Stack Overflow的一位數(shù)據(jù)科學家David Robinson就不堪誤會之擾,專門撰寫了文章解釋這三個名詞的區(qū)別,讓我來看看他的理解吧。

當我介紹自己是一名數(shù)據(jù)科學家的時候,我經(jīng)常會遇到“機器學習和數(shù)據(jù)科學有什么區(qū)別?”“你是搞人工智能的嗎?”這樣的問題,我回答了一遍一遍又一遍,但所謂事不過三,現(xiàn)在我已經(jīng)受不了了。

誠然,這些領(lǐng)域確實有很多重疊,再加上媒體連續(xù)不斷的捆綁營銷炒作,人們很容易把它們誤解為同一種東西。但事實上,數(shù)據(jù)科學、機器學習、人工智能這三個概念是不可混淆的:大多數(shù)領(lǐng)域內(nèi)的專業(yè)人士都對其中的區(qū)別有直觀理解,但一旦涉及用語言描述出來,這個事情就變得困難重重了。

所以在這篇文章中,我想談一談這三個領(lǐng)域之間差異的簡單定義:

數(shù)據(jù)科學產(chǎn)生見解;

機器學習產(chǎn)生預測;

人工智能產(chǎn)生行為。

需要注意的是,這些定義只是泛泛而談:符合這些定義的東西未必能被歸類于相對應的領(lǐng)域(算命先生天天幫人預測,但我不會說他們是在搞機器學習);這些定義也不是確定某人方向、職位的衡量標準(“我是數(shù)據(jù)科學家嗎?”);其中包含的是三者各自偏重的重點和經(jīng)驗(任何工作都是這樣:寫文章是我工作的一部分,但我不是專業(yè)作家)。

雖然“嚴謹”不足,但我依然認為這些定義是區(qū)分數(shù)據(jù)科學、機器學習、人工智能這三個概念的有效方法,它至少可以讓你在聊天的時候不那么門外漢。事實上,我在這篇文章內(nèi)只做描述,不做定義。我對告訴你這些術(shù)語“應該是什么意思”完全不感興趣,但我會告訴你相應領(lǐng)域的人會對用這些術(shù)語做什么事感興趣。

數(shù)據(jù)科學產(chǎn)生見解

數(shù)據(jù)科學和機器學習、人工智能有顯著區(qū)別,它關(guān)注的是人類目標:得到見解和理解。對此,杰夫·李克(Jeff Leek)在Types of Data Science Questions中給出了很好的定義,他認為數(shù)據(jù)科學應該包含描述性(如“普通客戶的續(xù)訂概率為70%”)、探索性(如“不同銷售人員手中客戶的續(xù)訂率不同”)以及因果關(guān)系(研究表明分配給小明的客戶的續(xù)訂率比小紅高)。

當然,并非所有帶有一定見解的數(shù)據(jù)資料都屬于數(shù)據(jù)科學范疇,從學科上講,數(shù)據(jù)科學應該是統(tǒng)計學、軟件工程和相關(guān)領(lǐng)域?qū)I(yè)的結(jié)合,但這一點能把它和機器學習、AI明顯區(qū)分開來。這三者的一個主要區(qū)別在于,在數(shù)據(jù)科學中,人是循環(huán)中不可缺少的一個組成部分:算法得出數(shù)字、結(jié)果,人從中得到見解,挖掘原因。對于機器學習,DeepMind的圍棋算法不需要依靠人來選擇下一步;對于AI,Google地圖推薦行車路線時也不需要人來幫忙。

因此,數(shù)據(jù)科學強調(diào)的是:

統(tǒng)計推理;

數(shù)據(jù)可視化;

實驗設計;

專業(yè)領(lǐng)域知識;

溝通。

數(shù)據(jù)科學家可能會使用一些簡單的工具:計算百分比,并根據(jù)SQL查詢制作線圖。他們也會使用非常復雜的方法:用分布式數(shù)據(jù)存儲分析數(shù)以萬億計的數(shù)據(jù),開發(fā)尖端統(tǒng)計技術(shù),并構(gòu)建可視化交互工具。無論他們做了什么,怎么做,目標都是更好地解讀數(shù)據(jù)。

機器學習產(chǎn)生預測

我認為機器學習的特點是產(chǎn)生預測:給定具有特定特征的樣本X,預測Y。這些預測可能是關(guān)于未來的(如預測病人的疾病惡化情況),也有可能是關(guān)于計算機的弱勢領(lǐng)域的(如預測圖像中是否有鳥)。Kaggle上的所有項目比賽幾乎都可以被視為機器學習問題:他們提供一些訓練數(shù)據(jù),看參賽者的模型能否基于數(shù)據(jù)集準確預測全新樣本。

數(shù)據(jù)科學和機器學習有許多交叉,邏輯回歸就是其中的一個典型。例如,我們可以用邏輯回歸算法分析客戶:客戶越有錢,他買我們的商品的幾率就越大,那我們就需要相應地改變營銷策略。那么怎么制定營銷策略呢?一個可參考的標準就是算法的預測:這個客戶的購買幾率是53%,所以我們應該向他推銷產(chǎn)品

但數(shù)據(jù)科學和機器學習畢竟是不同的。像隨機森林這樣的模型,我們在數(shù)據(jù)科學上很難對它作出解釋,但它在機器學習領(lǐng)域卻是最簡單基礎的模型之一,而深度學習的內(nèi)容就更難理解了。如果你的目標是提取見解而不是做出預測,那么機器學習并不適合你。因此我們可以為數(shù)據(jù)科學和機器學習畫一個簡單的界限:數(shù)據(jù)科學更傾向于使用可解釋的模型,而機器學習會更多地涉及“黑盒”模型。

事實上,大多數(shù)領(lǐng)域內(nèi)的人都能在這兩者之間輕松地來回切換,比如我就經(jīng)常會在工作中用到數(shù)據(jù)科學和機器學習:我會基于Stack Overflow的業(yè)務數(shù)據(jù)建立一個模型來預測哪些用戶可能正在找工作(機器學習),但與此同時我也需要就模型為什么能起作用給出總結(jié)并進行可視化測試(數(shù)據(jù)科學)。這是發(fā)現(xiàn)模型缺陷、和算法偏差作斗爭的重要途徑,也是數(shù)據(jù)科學家經(jīng)常負責開發(fā)產(chǎn)品的機器學習組件的原因之一。

人工智能產(chǎn)生行為

迄今為止,人工智能可以稱得上是三者中歷史最悠久、社會認可度最高的領(lǐng)域,因此定義它頗具挑戰(zhàn)性。談及人工智能,最直觀的一個感受就是炒作,研究人員、媒體、創(chuàng)業(yè)公司……人工智能堪稱炒作的溫床,搭上它,你就能獲得名譽、熱度和金錢。

如果你想融資,寫AI;

如果你想招聘,寫ML;

如果你想實現(xiàn),線性回歸;

如果你在debugging,printf()。

這就導致了我對它的悲觀看法,因為這種“萬物皆AI”的炒作會使一些理應被作為AI內(nèi)容的基礎工作“無家可歸”。對此,一些研究人已經(jīng)員開始抱怨AI效應:“我們現(xiàn)在根本無法實現(xiàn)AI。”那么,哪些工作可以被視為AI的一部分呢?

在Poole、Mackworth和Goebel于1998年出版的《計算智能》里,和Stuart Russell、Peter Norvig于2003年出版的《人工智能:現(xiàn)代方法》里,他們定義的“人工智能”有一個共同點,就是首先我們需要一個模擬人類智能的智能體代理,其次它能自主執(zhí)行任務,并能根據(jù)行為作出反饋。所以以下是我認為應該被描述為AI的內(nèi)容:

游戲算法(Game-playing algorithms),如AlphaGo;

機器人及控制論;

優(yōu)化,如Google地圖選擇駕駛路線;

自然語言處理;

強化學習。

同樣的,人工智能也和其他兩個領(lǐng)域有大量交叉內(nèi)容,尤其是深度學習在機器學習和人工智能上表現(xiàn)出來的跨界成就。深度學習的一個典型用法是基于數(shù)據(jù)進行訓練,然后再進行預測,這很機器學習,但它的模型在游戲中也大獲成功。和之前仗著算力提升,簡單粗暴算出所有下法的超級計算機“深藍”不同,AlphaGo雖然也有不低的算力要求,但它不再窮舉,而是專注于探索和優(yōu)化解決方案的未來空間。

但人工智能也很不一樣。如果我正在用模型分析一些銷售數(shù)據(jù),發(fā)現(xiàn)某特定行業(yè)的客戶比其他行業(yè)的客戶擁有更高的續(xù)訂率,那我會輸出它的一些數(shù)字和圖表,而不是簡單下個結(jié)論(盡管主管會需要這個結(jié)論并基于它調(diào)整銷售策略,但這一系列行為不是自主的)。在這種情況下,我在做的事叫做數(shù)據(jù)科學。

請!千萬!千萬!千萬不要說:我正在用AI來提高銷售額!(請聯(lián)系某些金融機構(gòu)的廣告自行判斷)

人工智能和機器學習之間也存在微妙的區(qū)別。以前我們會把機器學習作為人工智能的一個子領(lǐng)域,尤其是計算機視覺,它是后者的一個經(jīng)典問題。但現(xiàn)在,我認為機器學習很大程度上已經(jīng)從人工智能中剝離出來了,其中的一個原因是從業(yè)人員的反感:大多數(shù)從事機器學習的人都不愿意把自己形容為AI研究人員(許多機器學習突破都源于統(tǒng)計學)。獨立意味著你可以把問題描述為“從Y預測X”,而不是用AI這樣頗具玄學的詞匯。

根據(jù)今天的定義,y=mx+b都成了一個人工智能機器人,因為它能告訴你函數(shù)線會往哪兒走。

案例研究:三者的組合

假設我們正在制造一輛自動駕駛汽車,需要研究汽車識別停車標志這個問題,那么我們需要結(jié)合這三個領(lǐng)域的知識。

機器學習:汽車必須使用攝像頭識別停車標志。我們構(gòu)建了一個包含數(shù)百萬個包含路標的街景圖像的數(shù)據(jù)集,并基于它訓練一個能夠準確識別停車標志的算法。

人工智能:一旦我們的車識別出了停車標志,它必須能自主判斷何時剎車。過早過晚都是很危險的,同時它也要兼顧路況(如雨雪天氣光滑路面),這是控制論的問題。

數(shù)據(jù)科學:在實際路測時,我們發(fā)現(xiàn)汽車性能不夠好,因為停車標志出現(xiàn)了不少導致錯誤的消極因素。分析路測數(shù)據(jù)后,我們得到的結(jié)論是假陰性率(漏判率)取決于時間:日出前、日落后,汽車容易錯過路標。由此我們發(fā)現(xiàn)大部分訓練數(shù)據(jù)都是全天候的,汽車并沒有針對夜間環(huán)境做過訓練,所以我們搜集了很多夜間停車標志圖像,返回機器學習步驟。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47683

    瀏覽量

    240307
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8441

    瀏覽量

    133088
  • 數(shù)據(jù)科學
    +關(guān)注

    關(guān)注

    0

    文章

    166

    瀏覽量

    10102

原文標題:數(shù)據(jù)科學、機器學習和人工智能到底有什么區(qū)別?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    《AI for Science:人工智能驅(qū)動科學創(chuàng)新》第一章人工智能驅(qū)動的科學創(chuàng)新學習心得

    人工智能科學研究的加速器 第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習
    發(fā)表于 10-14 09:12

    未來趨勢:人工智能+機器人+互聯(lián)網(wǎng)三融合

    當下的趨勢表明,未來需要人工智能機器人和互聯(lián)網(wǎng)三融合在一起。今天大家都在談論“互聯(lián)網(wǎng)+”,相信將來會有更多人看到“人工智能+”。如今,機器
    發(fā)表于 01-25 11:30

    了解AI人工智能背后的科學?

    是了解最初部署人工智能的原理。 組織有大量的數(shù)據(jù),通過關(guān)注快速建立成功和建立信任是關(guān)鍵。例如,讓我們將電子郵件指標作為客戶行為的可能預測因素。 您可以從機器學習開始回答以下問題:√根據(jù)
    發(fā)表于 09-25 10:03

    人工智能機器學習的前世今生

    可以交替使用的概念,或多或少地加重了與這些概念相關(guān)聯(lián)的已經(jīng)存在的混淆程度。讓我們領(lǐng)會這些概念,直截了當?shù)乩斫馑鼈兊膬?nèi)涵和之間的細微差別。人工智能是一個比機器
    發(fā)表于 08-27 10:16

    人工智能:超越炒作

    :高性能處理來完成工作正如我們所看到的,人工智能展開其巨大的潛力在很大程度上依賴于足夠的硬件。特別是機器學習需要巨大的處理和存儲容量。例如,百度語音識別模型之一的訓練周期不僅需要4TB的訓練數(shù)
    發(fā)表于 05-29 10:46

    人工智能數(shù)據(jù)挖掘、機器學習和深度學習的關(guān)系

    人工智能數(shù)據(jù)挖掘、機器學習和深度學習之間,主要有什么關(guān)系?
    發(fā)表于 03-16 11:35

    python人工智能/機器學習基礎是什么

    python人工智能——機器學習——機器學習基礎
    發(fā)表于 04-28 14:46

    人工智能機器學習數(shù)據(jù)挖掘有什么區(qū)別

    人工智能機器學習數(shù)據(jù)挖掘的區(qū)別
    發(fā)表于 05-14 16:02

    人工智能基本概念機器學習算法

    目錄人工智能基本概念機器學習算法1. 決策樹2. KNN3. KMEANS4. SVM5. 線性回歸深度學習算法1. BP2. GANs
    發(fā)表于 09-06 08:21

    物聯(lián)網(wǎng)人工智能是什么?

    2.概率推理3.機器人技術(shù)4.計算機視覺5.自然語言處理等常見人工智能產(chǎn)品:語音識別,指紋識別,人臉識別,視網(wǎng)膜識別,智能搜索,無人駕駛,機器
    發(fā)表于 09-09 14:12

    什么是人工智能機器學習、深度學習和自然語言處理?

    領(lǐng)域,包括機器學習、深度學習數(shù)據(jù)挖掘、計算機視覺、自然語言處理和其他幾個學科。首先,人工智能涉及使計算機具有自我意識,利用計算機視覺、自然
    發(fā)表于 03-22 11:19

    機器學習人工智能有什么區(qū)別

    機器學習人工智能有什么區(qū)別?當今唯一可用的軟件選項是 ML 系統(tǒng)。在十年左右的時間里,當計算能力和算法開發(fā)達到可以顯著影響結(jié)果的地步時,我們將見證第一個真正的
    發(fā)表于 04-12 08:21

    人工智能機器學習區(qū)別

    當人們被要求評估人工智能機器學習的潛力以解決其組織的問題時,最好了解兩者之間區(qū)別。如今,人工智能
    的頭像 發(fā)表于 03-16 10:43 ?4232次閱讀

    淺析人工智能機器學習者之間區(qū)別

    當人們被要求評估人工智能機器學習的潛力以解決其組織的問題時,最好了解兩者之間區(qū)別
    發(fā)表于 03-18 17:28 ?2456次閱讀

    人工智能機器學習、深度學習區(qū)別

    人工智能包含了機器學習和深度學習。你可以在圖中看到,機器學習
    的頭像 發(fā)表于 03-29 11:04 ?1538次閱讀
    <b class='flag-5'>人工智能</b>與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>、深度<b class='flag-5'>學習</b>的<b class='flag-5'>區(qū)別</b>
    网上百家乐官网哪家最好| 百家乐官网下载| 永利百家乐官网娱乐场| 赌博百家乐官网秘笈| 玩网上百家乐官网的技巧| HG百家乐官网大转轮| 电脑打百家乐官网怎么赢| 自贡百家乐官网娱乐场开户注册| 百家乐官网冼牌机| 下三元八运24山详解| 百家乐娱乐城赌场| 百家乐概率统计| 百家乐赢一注| 新葡京娱乐城开户| 无锡市| 百家乐官网制胜软件| 24山向是什么| 赌场百家乐攻略| 百家乐路单生| 365足球备用| 百家乐官网网址皇冠现金网| 百家乐官网和21点| 金彩百家乐官网的玩法技巧和规则| 百家乐分析绿色版| 网上百家乐公司| 菲律宾赌球| 百家乐官网5式直缆投注法| 瑞博国际娱乐| 百家乐官网洗码| 百家乐官网电子发牌盒| 澳门百家乐怎么| 大发888官网客户端| 西林县| 百家乐官网路单怎样| 百家乐公式书| 大发扑克网址| 百家乐官网获胜秘决百家乐官网获胜秘诀| 百家乐官网博牌规| 百家乐游戏免费| 大发888娱乐城怎么玩| 永利高百家乐官网会员|