吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種用于從文本簡歷中挖掘相關信息的框架

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-17 09:07 ? 次閱讀

編者按:如果你曾負責過招聘,篩查簡歷一定讓你又愛又恨,能看到一份層次鮮明重點突出的簡歷簡直是一股清流。面對格式多樣的簡歷,如何能一眼看到重點呢?作者Yogesh H. Kulkarni就設計了一款能挖掘簡歷中重要信息文本的框架RegEx。以下是論智的編譯。

摘要

本文展示了一種用于從文本簡歷中挖掘相關信息的框架。雖然這里只有一份簡歷作為案例,但是今后,框架不僅可以進一步擴展到不同簡歷格式上,還可以用到例如決策、合同、藥物說明書等文本上。

介紹

世界上大多數非結構化的數據都在文本形式中。為了理解這一點,我們要么花費大量精力處理它,要么你運用一些自動手段提取出有用信息。面對大量、風格各異的文本數據,還是需要用文本挖掘技術提取相關信息,將結構混亂的數據轉化成結構清晰的形式,之后才能進一步進行處理、分析、可視化。

這篇文章的關注重點比較特殊,是候選人的個人檔案或簡歷。我們都知道,HR收到的簡歷通常有各種格式的(txt、doc、pdf等等),而且內容和版面設計也是五花八門,想從這些文件中篩選出自己認為有用的信息是一項非常有挑戰性的工作。即使如此,我們可能還不能完全提取出有用的信息,因為格式實在是多種多樣,所以我們可以先從簡單的步驟開始,至少從我們已知的形式中提取出有效信息。

簡單地說,這里有兩種方法:基于語言學的方法和基于機器學習的方法。在語言學的方法中,為了尋找關鍵信息用的是模式搜索的方法,而在機器學習中,提取信息時用到的是監督或非監督的方法。在這篇文章中用到的RegEx術語基于語言學的模式匹配方法。

框架

想從簡歷中提取目標對象的一種簡單方法就是在編碼程序中,為每個對象寫一個模式匹配的邏輯。如果模式有任何改變,或者如果有新的對象或模式出現,你需要改變編碼程序。這使得框架的維護變得非常麻煩,復雜程度不斷提高。為了解決這個問題,我們的框架提出了分離邏輯分析和目標種類的方法,下面會詳細進行講解。目標對象和它們的RegEx模式在配置文件中都有詳細的記錄,文件同時還記錄了為每種對象提取方法的類別。這種分離方法的優點是,它不僅可以重復使用,保持穩定,而且還可以用到其他領域,例如合同文件、法律文件或者醫療報告等等。

元素查找

配置文件指定了需要被提取的對象以及它們的模式和提取方法。它同樣指定了需要尋找目標所在的區域。具體代碼如下:

上述代碼表述了例如姓名、電話、電子郵件等要素的元數據,用來提取它們的方法是“univalue_extractor”。這些要素所在的區域用“”表示,這是一個未經標記的區域,可以指簡歷最開頭的那幾行。類似電子郵件或電話號碼的要素可能會有多種表達方式,如果第一種方法識別失敗,會自動啟動第二種方法。

姓名:通常簡歷的第一行會寫姓名,有可能會帶有“姓名”兩個字作為開頭。

電子郵件:通常是一個單詞(其中可能會夾雜一個點),然后出現“@”,之后又是英文字母、標點、字母。

電話:國際區號省略,之后是3-3-4的數字模式,前三個數字也有可能省略(固定電話)。

Python的’etree’ ElementTree庫用來在內部詞典中分析config xml。

分析器讀取技術參數的詞典,并用它來尋找文本簡歷中的元素。

一旦找到匹配的元素,它就會以節點標示的形式存儲起來,例如電子郵件、電話等等。

像上述元數據一樣,教育資質可以按以下步驟搜索:

利用分析器的“section_value_extractor”,在“EducationSection”區域中進行分析,通過匹配文字找到區域內的價值。

san如果分析器找到任何含有“10th”、“X”、“SSC”的文字,它就會提取出描述中學的相關信息。

如果分析器找到任何含有“12th”、“XII”、“HSC”字樣的文本,它會提取出代表高中學歷的關鍵信息。

分割

上面的代碼表示標有“總體部分”或“教育部分”的文本。這些通常都在配置文件的頂部。

“section_extractor”方法一行一行地分析文件,并尋找文本的小標題。

通過標題的關鍵詞可以了解每一段的主要內容。例如“總結部分”可能會含有“總結”、“目標”等詞語。

一旦匹配,“總結部分”就確定了下來,之后會進行下一部分的分析。

新的標題匹配后,系統會自動開始下一部分的匹配。

結果

分析出的一份簡歷如下:

具體的操作步驟可見GitHub:github.com/yogeshhk/MiningResume

結語

這篇文章展示了從非結構化數據(如簡歷)中挖掘結構化信息的過程,由于只有一個案例展示,因此它可能不適用于其他格式。今后我們會對此改進,使其適合其他簡歷類型,甚至其他領域的文檔。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    957

    瀏覽量

    54951
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133087

原文標題:文本挖掘教程:如何從一份簡歷中快速找到有用信息

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于Trie的一種關聯規則挖掘方法

    集。本文提出了一種基于Trie的在可信度構架下進行關聯規則挖掘的方法,用于解決支持度為零的類特殊問題,在不生成候選集的基礎上,直接計算出所有的子集,節省了生成頻繁項集的時空開銷。【關
    發表于 04-24 09:55

    靈玖軟件:NLPIR智能挖掘系統專注中文處理

    態生成,資源價格變化,隨著時間的推移,從不同的不同地理位置的移動數據,數據中心而供應充足的計算資源來處理它們,是實現成本效益的項重要任務。  文本挖掘或者文檔挖掘
    發表于 01-21 11:39

    文本信息抽取的分階段詳細介紹

    模型是上述文本信息抽取的具體實現。 NLPIR大數據語義智能分析平臺在文本信息提取介紹方面,能夠實現新詞提取和關鍵詞提取。 新詞發現能
    發表于 09-16 15:03

    NLPIR平臺實現文本挖掘站式應用

    的工具。語義智能分析的全鏈條指的是語料數據的采集預處理,經過自然語言處理 到文本挖掘信息檢索再到可視化呈現和導出以便適合于不同人員的使用需求的 全部處理過程。數據收集和預處理部分數
    發表于 11-07 16:43

    一種專門用于檢測小目標的框架Dilated Module

    1. 介紹本文提出一種專門用于檢測小目標的框架框架結構如下圖:我們探索了可以提高小目標檢測能力的3個方面:Dilated模塊,特征融合以及passthrough模塊。Dilated
    發表于 11-04 11:14

    基于文章標題信息的漢語自動文本分類

    文本分類是文本挖掘個重要組成部分,是信息搜索領域的項重要研究課題。該文提出
    發表于 04-13 08:31 ?10次下載

    針對主題挖掘的通用設計與性能評估框架的研究

    本文不是設計一種新的主題挖掘機,而是借助分層思想,為每層賦予特定的任務,采用容器管理機制,提出了一種針對主題挖掘的通用設計框架,該設計
    發表于 09-03 09:49 ?8次下載

    一種適應短文本相關測度及其應用

    一種適應短文本相關測度及其應用:針對博客社區和BBS 論壇充斥Web 垃圾信息的問題,提出相關度向量空間模型cVSM,并以此作為評論的特征
    發表于 10-17 23:07 ?18次下載

    一種用于相關檢測系統的波門產生電路

    一種用于相關檢測系統的波門產生電路
    發表于 02-07 16:14 ?2次下載

    一種基于Spark框架的并行FP-Growth挖掘算法

    一種基于事務項間聯通權重矩陣的負載平衡并行頻繁模式增長算法CWBPFP。算法在Spark框架上實現并行計算,數據分組時利用負載均衡策略,存入分組的數據是相應頻繁項的編碼。每個工作節點將分組數據
    發表于 11-17 17:50 ?0次下載

    電網缺陷文本挖掘技術及其應用

    電網企業擁有大量蘊含著重要可靠性信息的設備缺陷文本,依靠人工進行挖掘不僅效率低而且準確性因人而異。以變壓器缺陷文本為研究對象,通過分析文本
    發表于 01-12 13:55 ?5次下載
    電網缺陷<b class='flag-5'>文本</b><b class='flag-5'>挖掘</b>技術及其應用

    一種捕獲主題單詞信息的主題模型JEA-LDA

    信息融入到LDA框架,構建一種主題模型JA-LDA。該模型通過單詞與主題間的注意力機制將單詞信息和主題
    發表于 03-17 14:14 ?19次下載
    <b class='flag-5'>一種</b>捕獲主題單詞<b class='flag-5'>信息</b>的主題模型JEA-LDA

    基于數據挖掘的核醫學文本關聯規則挖掘方法

    信息。為準確提取SPECT核醫學骨顯像診斷文本疾病與其表征之間的關聯關系,硏究并提岀基于數據挖掘的核醫學文本關聯規則
    發表于 04-28 15:39 ?4次下載
    基于數據<b class='flag-5'>挖掘</b>的核醫學<b class='flag-5'>文本</b>關聯規則<b class='flag-5'>挖掘</b>方法

    基于協同訓練的電商領域文本短語挖掘方法

    電商領域的文本通常不遵循通用領域文本的表達方式,導致傳統短語挖掘方法在電商領域文本挖掘精度較
    發表于 05-13 15:01 ?0次下載

    基于新型文本塊分割法的簡歷解析器

    近些年,基于神經網絡的文本分類器和詞嵌入在自然語言處理中被廣泛應用。然而,傳統的簡歷解析器采用基于關鍵字的模糊匹配或正則表達式來進行文本塊分割。文中提岀了一種基于神經網絡
    發表于 06-16 11:47 ?17次下載
    网上百家乐赌博出| 17pk棋牌官方下载| 爱赢百家乐的玩法技巧和规则| 百家乐官网双面数字筹码怎么出千| 澳门博彩网| 百家乐反缆公式| 百家乐历史路单| 游戏百家乐官网庄闲| 德州扑克英语| 连环百家乐怎么玩| 网上玩百家乐有钱| 时时博百家乐官网的玩法技巧和规则| 百家乐赌博论坛| 乐天百家乐官网的玩法技巧和规则| 北宁市| 波克棋牌游戏大厅下载| 百家乐牡丹娱乐城| 网上百家乐是真是假天涯论坛| 赌场百家乐怎么破解| 百家乐波音平台有假吗| 百家乐平台注册送彩金| 百家乐屏风| 网上百家乐赌场娱乐网规则 | 十三张百家乐官网的玩法技巧和规则 | 真人百家乐现金游戏| 百家乐路纸发表区| 百家乐娱乐官方网| 博之道百家乐技巧| 大众百家乐娱乐城| 大发888娱乐城手机| 大发888娱乐城大发888达法8| 中宁县| 百家乐官网制胜方法| 网上赌百家乐官网可信吗| 太阳城百家乐官网赌场| 百家乐官网保单机作弊| JJ百家乐官网的玩法技巧和规则| 百家乐官网那个平好| 百家乐庄闲分布概率| 赌百家乐庄闲能赢| 大发888备用网址大全|