數(shù)據(jù)科學家或機器學習專家有必要閱讀研究論文嗎?
簡而言之,答案是肯定的。如果你沒有正式的學術(shù)背景,或者只獲得了機器學習領域的本科學位,也不要擔心。
對于沒有廣泛教育背景的個人來說,閱讀學術(shù)研究論文可能會有威脅。然而,缺乏學術(shù)閱讀經(jīng)驗不應妨礙數(shù)據(jù)科學家利用 machine learning 和 AI development 的寶貴信息和知識來源。
這篇文章為任何技能水平的數(shù)據(jù)科學家提供了一個實踐教程,他們可以閱讀 NeurIPS 、 JMLR 、 ICML ,以及 等學術(shù)期刊上發(fā)表的研究論文。
在全神貫注于如何閱讀研究論文之前,學習如何閱讀研究論文的第一階段包括選擇相關(guān)主題和研究論文。
步驟 1 :確定一個主題
機器學習和數(shù)據(jù)科學領域擁有大量可以研究的學科領域。但這并不一定意味著在機器學習中處理每個主題是最好的選擇。
雖然建議入門級實踐者進行泛化,但我猜當涉及到長期機器學習時,職業(yè)前景、實踐者和行業(yè)興趣通常會轉(zhuǎn)向?qū)I(yè)化。
確定一個適合的主題可能很難,但很好。不過,經(jīng)驗法則是選擇一個 ML 領域,你要么對獲得專業(yè)職位感興趣,要么已經(jīng)有經(jīng)驗。
深度學習 是我的興趣之一,我是一名計算機視覺工程師,在應用程序中使用深度學習模型專業(yè)地解決 computer vision 問題。因此,我對姿勢估計、動作分類和手勢識別等主題感興趣。
基于角色,以下是 ML / DS 職業(yè)和相關(guān)主題要考慮的例子。
圖 1 :機器學習和數(shù)據(jù)科學角色及相關(guān)主題。作者創(chuàng)造的形象 。
對于本文,我將選擇姿勢估計這一主題進行探索,并選擇相關(guān)的研究論文進行研究。
第二步:尋找研究論文
在閱讀與機器學習相關(guān)的研究論文、數(shù)據(jù)集、代碼和其他相關(guān)材料時,最優(yōu)秀的工具之一是 PapersWithCode 。
我們使用 PapersWithCode 網(wǎng)站上的搜索引擎來獲取所選主題“姿勢估計”的相關(guān)研究論文和內(nèi)容下圖顯示了它是如何完成的。
搜索結(jié)果頁面包含對搜索主題的簡短說明,然后是相關(guān)數(shù)據(jù)集、模型、論文和代碼的表格。在不深入太多細節(jié)的情況下,本用例感興趣的領域是“最偉大的代碼論文”。本節(jié)包含與任務或主題相關(guān)的論文。出于本文的目的,我將選擇 DensePose :野外密集的人類姿勢估計 。
第 3 步:第一步(獲得背景和理解)
在這一點上,我們選擇了一篇研究論文進行研究,并準備從其內(nèi)容中提取任何有價值的經(jīng)驗教訓和發(fā)現(xiàn)。
很自然,你的第一個沖動就是開始寫筆記,從頭到尾地閱讀文檔,也許在其間休息一下。然而,為研究論文的內(nèi)容提供一個上下文是閱讀它的一種更實際的方式。標題、摘要和結(jié)論是理解任何研究論文的三個關(guān)鍵部分。
您所選論文的第一關(guān)的目標是實現(xiàn)以下目標:
確保論文是相關(guān)的。
通過學習論文的內(nèi)容、方法和發(fā)現(xiàn),了解論文的背景。
認識作者的目標、方法和成就。
標題
標題是作者和讀者之間信息共享的第一點。因此,研究論文的標題是直接的,并且以一種不會留下歧義的方式組成。
研究論文的標題是最能說明問題的方面,因為它表明了研究與你的工作的相關(guān)性。標題的重要性在于對論文的內(nèi)容有一個簡要的了解。
在這種情況下,標題是“ DensePose :野外密集的人類姿勢估計”這提供了一個工作的廣泛概述,并意味著它將研究如何在高活動水平和真實情況下提供姿勢估計。
摘要
摘要部分給出了論文的摘要。這是一個簡短的部分,包含 300-500 字,簡單地告訴你這篇論文是關(guān)于什么的。摘要是一篇簡短的文章,概述了文章的內(nèi)容、研究人員的目標、方法和技巧。
在閱讀機器學習研究論文摘要時,您通常會遇到提到的數(shù)據(jù)集、方法、算法和其他術(shù)語。與文章內(nèi)容相關(guān)的關(guān)鍵字提供上下文。在這一點上記筆記和跟蹤所有關(guān)鍵字可能會有所幫助。
對于論文“ DensePose :野外密集的人類姿勢估計 ”,我在摘要中確定了以下關(guān)鍵詞:姿勢估計、 COCO 數(shù)據(jù)集、 CNN 、基于區(qū)域的模型、實時。
總結(jié)
在你第一次通過考試時,從上到下閱讀論文時會感到疲勞是很常見的,尤其是對于沒有高級學術(shù)經(jīng)驗的數(shù)據(jù)科學家和從業(yè)者來說。雖然在長時間的研究之后,從論文的后面部分提取信息可能看起來很乏味,但結(jié)論部分通常很短。因此,建議閱讀第一遍的結(jié)論部分。
結(jié)論部分簡要概述了該作品的作者和/或貢獻、成就以及對未來發(fā)展和局限性的承諾。
在閱讀研究論文的主要內(nèi)容之前,先閱讀結(jié)論部分,看看研究者的貢獻、問題領域和結(jié)果是否符合你的需要。
遵循這一簡單的第一步可以充分理解和概述研究論文的范圍和目標,以及內(nèi)容的背景。你可以用激光注意力再次瀏覽,從內(nèi)容中獲得更詳細的信息。
第 4 步:第二關(guān)(內(nèi)容熟悉)
內(nèi)容熟悉是一個與初始步驟相關(guān)的過程。閱讀本文研究論文的系統(tǒng)方法。熟悉過程是一個步驟,包括研究論文的引言部分和圖表。
如前所述,不需要直接深入研究論文的核心,因為知識適應可以在以后的過程中更輕松、更全面地檢查研究。
介紹
研究論文的導論部分旨在概述研究工作的目標。該目標提及并解釋了問題領域、研究范圍、先前的研究工作和方法。
使用相似或不同的方法,在這一領域找到與過去研究工作相似的地方是很正常的。其他論文的引用提供了問題領域的范圍和廣度,為讀者拓寬了探索領域。在這一點上,合并步驟 3 中概述的程序就足夠了。
導言部分提供的另一個好處是提供了接觸和理解研究論文內(nèi)容所需的必要知識。
圖表
研究論文中的說明性材料確保讀者能夠理解支持問題定義或所提出方法解釋的因素。通常,研究論文中使用表格來提供與類似方法相比的新技術(shù)定量性能的信息。
圖 4 : 顯示 DensePose 與其他單人姿勢估計解決方案比較的圖像。
一般來說,數(shù)據(jù)和性能的可視化表示可以幫助您直觀地理解論文的上下文。在前面提到的密集姿勢論文中,使用插圖描述了作者姿勢估計和創(chuàng)建方法的性能。全面了解生成和注釋數(shù)據(jù)樣本所涉及的步驟。
在深度學習領域,經(jīng)常會發(fā)現(xiàn)描述人工神經(jīng)網(wǎng)絡結(jié)構(gòu)的拓撲圖。這再次為任何讀者創(chuàng)造了直觀的理解。通過插圖和數(shù)字,讀者可以自己解釋信息,并獲得更全面的觀點,而不必對結(jié)果有任何先入為主的概念。
圖 5 : 顯示 DensePose 交叉級聯(lián)架構(gòu)的圖像。
第五步:第三遍(深度閱讀)
論文的第三遍與第二遍相似,盡管它涵蓋了正文的大部分。關(guān)于這個過程最重要的一點是,你要避免任何復雜的算術(shù)或技術(shù)公式,這對你來說可能是困難的。在此過程中,您還可以跳過任何您不理解或不熟悉的單詞和定義。應注意這些不熟悉的術(shù)語、算法或技術(shù),以便稍后返回。
在本課程中,你的主要目標是對論文內(nèi)容有一個廣泛的了解。接近論文,從摘要到結(jié)論再開始,但一定要在各部分之間進行中間休息。此外,建議有一個記事本,在記事本中記錄所有重要的見解和收獲,以及不熟悉的術(shù)語和概念。
Pomodoro 技術(shù)是管理深度閱讀或?qū)W習時間的有效方法。簡單地說, Pomodoro 技術(shù)將一天分成幾部分工作,然后是短暫的休息。
對我有效的是 50 / 15 分割,也就是說, 50 分鐘的學習和 15 分鐘的休息時間。我傾向于在延長 30 分鐘的休息時間之前,連續(xù)執(zhí)行兩次分割。如果您不熟悉這種時間管理技巧,請采用相對簡單的劃分,如 25 / 5 ,并根據(jù)您的注意力和時間容量調(diào)整時間劃分。
第六步:第四關(guān)(最后一關(guān))
最后一關(guān)通常涉及到發(fā)揮你的智力和學習能力,因為它涉及到在前一關(guān)中提到的不熟悉的術(shù)語、術(shù)語、概念和算法。這一關(guān)的重點是使用外部材料來理解論文中記錄的不熟悉的方面。
對不熟悉的主題進行深入研究沒有規(guī)定的時間長度,有時甚至需要幾天或幾周的時間。最終成功通過的關(guān)鍵因素是為進一步勘探找到合適的油源。
不幸的是,互聯(lián)網(wǎng)上沒有一個來源能提供你所需要的豐富信息。盡管如此,有多個來源,如果協(xié)調(diào)使用并適當使用,可以填補知識空白。下面是其中的一些資源。
機器學習子系統(tǒng)
深度學習子系統(tǒng)
PapersWithCode
頂級會議搜索為 NIPS 、 ICML 、 ICLR
Research Gate
機器學習蘋果
研究論文的參考部分提到了技術(shù)和算法。因此,當前的論文要么從中汲取靈感,要么以之為基礎,這就是為什么參考部分是一個有用的來源,可用于您的深度閱讀課程。
步驟 7 :摘要(可選)
在近十年的與技術(shù)相關(guān)的學科和角色的學術(shù)和專業(yè)研究中,通過重述所探索的主題,確保所學到的任何新信息保留在我的長期記憶中的最有效方法。通過用我自己的語言重寫新信息,無論是書面的還是打字的,我都能夠以一種可理解和令人難忘的方式強化提出的觀點。
更進一步,可以通過博客平臺和社交媒體宣傳學習成果和筆記。試圖向廣大讀者解釋新探索的概念,假設讀者不習慣該主題或主題,則需要理解主題的內(nèi)在細節(jié)。
結(jié)論
毫無疑問,為新手數(shù)據(jù)科學家和 ML 實踐者閱讀研究論文是令人畏懼和具有挑戰(zhàn)性的;即使是經(jīng)驗豐富的實踐者也發(fā)現(xiàn)很難一次成功地消化研究論文的內(nèi)容。
數(shù)據(jù)科學專業(yè)的性質(zhì)是非常實用和涉及的。這意味著,數(shù)據(jù)科學領域與人工智能密切相關(guān),人工智能仍然是一個發(fā)展中的領域,因此,它的從業(yè)者必須具備學術(shù)思維。
總而言之,以下是閱讀研究論文應遵循的所有步驟:
確定一個主題。
尋找相關(guān)研究論文
閱讀標題、摘要和結(jié)論,對研究工作目標和成果有一個模糊的理解。
通過深入介紹,熟悉內(nèi)容;包括對文中給出的圖形和圖表的探索。
在自上而下閱讀論文的過程中,利用深度閱讀課程來消化論文的主要內(nèi)容。
使用外部資源探索不熟悉的術(shù)語、術(shù)語、概念和方法。
用你自己的話總結(jié)基本的要點、定義和算法。
關(guān)于作者
Richmond Alake 是一名機器學習和計算機視覺工程師,他與多家初創(chuàng)公司和公司合作,整合深度學習模型,以解決商業(yè)應用中的計算機視覺任務。
審核編輯:郭婷
-
機器學習
+關(guān)注
關(guān)注
66文章
8438瀏覽量
133084 -
深度學習
+關(guān)注
關(guān)注
73文章
5513瀏覽量
121550
發(fā)布評論請先 登錄
相關(guān)推薦
《具身智能機器人系統(tǒng)》第10-13章閱讀心得之具身智能機器人計算挑戰(zhàn)
【「大話芯片制造」閱讀體驗】+內(nèi)容概述,適讀人群
學嵌入式好找工作嗎?
貝思科爾ReviewHub在線評審工具開放限時免費試用名額,快速領取!
![貝思科爾ReviewHub在線評審工具開放限時免費試用名額,快速領取!](https://file1.elecfans.com/web2/M00/C2/1B/wKgZomXgKimAKUIdAAA9lGgn6AA745.png)
貝思科爾DX-BST原理圖智能工具,限時免費試用開啟,不容錯過!
![貝思科爾DX-BST原理圖智能工具,限時免費試用開啟,不容錯過!](https://file.elecfans.com/web2/M00/02/C4/pYYBAGDSzfeAP86XAAAO5PbqJbI698.png)
名單公布!【書籍評測活動NO.50】親歷芯片產(chǎn)線,輕松圖解芯片制造,揭秘芯片工廠的秘密
特征工程實施步驟
![特征工程實施步驟](https://file.elecfans.com/web2/M00/4E/DC/poYBAGLCjeiALm_WAAAYmfR7Qec474.png)
評論