吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于無(wú)監(jiān)督學(xué)習(xí)和圖學(xué)習(xí)的大數(shù)據(jù)挖掘

1ujk_Tencent_TE ? 來(lái)源:騰訊技術(shù)工程官方號(hào) ? 2019-12-08 10:57 ? 次閱讀

在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中,來(lái)自TEG數(shù)據(jù)平臺(tái)的張長(zhǎng)旺向大家介紹了自己所在用戶畫(huà)像組的前沿科研結(jié)果:

1. 非監(jiān)督短文本層級(jí)分類(lèi);

2. 大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)。

其所在團(tuán)隊(duì)積極與學(xué)術(shù)界科研合作,并希望有夢(mèng)想、愛(ài)學(xué)習(xí)的實(shí)力派加入,共同研究和應(yīng)用半監(jiān)督/弱監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)等做大數(shù)據(jù)挖掘。

科研結(jié)果1:非監(jiān)督短文本層級(jí)分類(lèi)

首先以下用戶和AI算法的對(duì)話,顯示了現(xiàn)實(shí)業(yè)務(wù)中使用現(xiàn)有監(jiān)督文本分類(lèi)算法的遇到的一些困境和問(wèn)題:

算法需要海量訓(xùn)練數(shù)據(jù)

算法模型用戶不可控

算法不能很好的適應(yīng)類(lèi)目的變化

我們分析現(xiàn)有監(jiān)督算法的主要問(wèn)題在于沒(méi)有真正的知識(shí), 沒(méi)有對(duì)于文本和類(lèi)目的真正的理解。現(xiàn)有算法只是在學(xué)習(xí)大量人工標(biāo)注訓(xùn)練樣本里面的模式。為了解決這個(gè)問(wèn)題,我們啟動(dòng)了一個(gè)叫做: 基于關(guān)鍵詞知識(shí)與類(lèi)目知識(shí)的非監(jiān)督短文本層級(jí)分類(lèi)的探索項(xiàng)目。

項(xiàng)目的主要思想是引入關(guān)鍵詞和類(lèi)目?jī)煞N知識(shí)來(lái)幫助算法理解關(guān)鍵詞和類(lèi)目的含義。然后基于知識(shí)進(jìn)行文本的分類(lèi)和標(biāo)注。關(guān)鍵詞知識(shí)主要來(lái)自3個(gè)方面包括:關(guān)鍵詞的網(wǎng)絡(luò)搜索上下文、關(guān)鍵詞的百科上下文、關(guān)鍵詞到類(lèi)目詞的后驗(yàn)關(guān)聯(lián)概率。我們提出類(lèi)目語(yǔ)義表達(dá)式來(lái)支持用戶表達(dá)豐富的類(lèi)目本身和類(lèi)目之間的關(guān)系的語(yǔ)義。這兩樣知識(shí)的引入幫助算法擺脫了對(duì)于大量人工標(biāo)注訓(xùn)練樣本的依賴,同時(shí)算法分類(lèi)的過(guò)程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于關(guān)鍵詞和類(lèi)目知識(shí)的無(wú)監(jiān)督文本層級(jí)分類(lèi)算法流程如下:

對(duì)文本提取關(guān)鍵詞

根據(jù)關(guān)鍵詞知識(shí)計(jì)算關(guān)鍵詞到類(lèi)目詞的相關(guān)度詞向量

根據(jù)關(guān)鍵詞的相關(guān)度詞向量計(jì)算文本的相關(guān)度詞向量

根據(jù)文本的相關(guān)度詞向量和類(lèi)目語(yǔ)義表達(dá)式計(jì)算文本與每個(gè)類(lèi)目的匹配度

每個(gè)文本被分為與之匹配度最高的類(lèi)目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通過(guò)在兩個(gè)文本分類(lèi)數(shù)據(jù)集合上面的實(shí)驗(yàn),我們發(fā)現(xiàn),我們自研的算法能夠在沒(méi)有訓(xùn)練樣本的情況下提供質(zhì)量可用的結(jié)果,其一級(jí)類(lèi)目準(zhǔn)確率能夠達(dá)到80%,并且明顯高于現(xiàn)有其他非監(jiān)督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研結(jié)果2:大規(guī)模復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)

Network Representation Learning 或者說(shuō) Graph Embedding 是復(fù)雜網(wǎng)絡(luò)最新的研究課題,意在通過(guò)神經(jīng)網(wǎng)絡(luò)模型,把圖結(jié)構(gòu)向量化,為節(jié)點(diǎn)分類(lèi)、鏈路預(yù)測(cè)、社團(tuán)發(fā)現(xiàn)等挖掘任務(wù)提供方便有效的特征,以克服圖結(jié)構(gòu)難以應(yīng)用到機(jī)器學(xué)習(xí)算法中的難題。

本次我們?cè)贗JCAI發(fā)表的學(xué)術(shù)論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創(chuàng)新性提出結(jié)合邊屬性的圖卷積神經(jīng)網(wǎng)絡(luò)模型,彌補(bǔ)了現(xiàn)有算法無(wú)法利用邊屬性為節(jié)點(diǎn)分類(lèi)提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

現(xiàn)有的圖學(xué)習(xí)算法,絕大部分都忽視了邊上信息的價(jià)值。在這里我們提出了一種可以把邊的信息傳輸?shù)焦?jié)點(diǎn)表示結(jié)果的改進(jìn)的GCN算法。算法主要思路是在做GCN里面周邊鄰居節(jié)點(diǎn)向量的聚合計(jì)算之前,把每個(gè)節(jié)點(diǎn)連接邊的Embedding向量拼接在對(duì)應(yīng)鄰居節(jié)點(diǎn)的Embedding向量后面。實(shí)驗(yàn)顯示,我們的算法對(duì)于金融分類(lèi)問(wèn)題具有更優(yōu)的結(jié)果。我們團(tuán)隊(duì)正在進(jìn)一步優(yōu)化模型,正在研發(fā)利用時(shí)序的GCN模型,以可以利用邊的時(shí)序交互信息,從而更好的表示動(dòng)態(tài)網(wǎng)絡(luò)。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同時(shí),數(shù)平數(shù)據(jù)中心研發(fā)的Angel參數(shù)服務(wù)器平臺(tái),針對(duì)關(guān)系型數(shù)據(jù)結(jié)構(gòu),在計(jì)算性能上對(duì)圖算法做了優(yōu)化,極大加速了PageRank等算法的計(jì)算速度,比如計(jì)算用戶中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對(duì)于大型圖的計(jì)算,我們Angle框架的速度具有明顯的優(yōu)勢(shì)。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我們所在團(tuán)隊(duì)積極與學(xué)術(shù)界科研合作,并希望有夢(mèng)想、愛(ài)學(xué)習(xí)的實(shí)力派加入,共同研究和應(yīng)用半監(jiān)督/弱監(jiān)督/無(wú)監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)挖掘和圖表示學(xué)習(xí)做大數(shù)據(jù)挖掘。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4630

    瀏覽量

    93364
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8908

    瀏覽量

    137799

原文標(biāo)題:IJCAI2019報(bào)告:基于無(wú)監(jiān)督學(xué)習(xí)和圖學(xué)習(xí)的大數(shù)據(jù)挖掘

文章出處:【微信號(hào):Tencent_TEG,微信公眾號(hào):騰訊技術(shù)工程官方號(hào)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    時(shí)空引導(dǎo)下的時(shí)間序列自監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】最近,香港科技大學(xué)、上海AI Lab等多個(gè)組織聯(lián)合發(fā)布了一篇時(shí)間序列無(wú)監(jiān)督預(yù)訓(xùn)練的文章,相比原來(lái)的TS2Vec等時(shí)間序列表示學(xué)習(xí)工作,核心在于提出了將空間信息融入到預(yù)訓(xùn)練階段,即在預(yù)訓(xùn)練階段
    的頭像 發(fā)表于 11-15 11:41 ?333次閱讀
    時(shí)空引導(dǎo)下的時(shí)間序列自<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>框架

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。Hadoop廣泛應(yīng)用于各種場(chǎng)景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?194次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能

    基于大數(shù)據(jù)與深度學(xué)習(xí)的穿戴式運(yùn)動(dòng)心率算法

    性能的關(guān)鍵手段。然而,在復(fù)雜多變的運(yùn)動(dòng)環(huán)境中,準(zhǔn)確測(cè)量心率數(shù)據(jù)對(duì)于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運(yùn)用大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)來(lái)開(kāi)發(fā)創(chuàng)新的穿戴式運(yùn)動(dòng)心率算
    的頭像 發(fā)表于 09-10 08:03 ?320次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度<b class='flag-5'>學(xué)習(xí)</b>的穿戴式運(yùn)動(dòng)心率算法

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

    收集海量的文本數(shù)據(jù)作為訓(xùn)練材料。這些數(shù)據(jù)集不僅包括語(yǔ)法結(jié)構(gòu)的學(xué)習(xí),還包括對(duì)語(yǔ)言的深層次理解,如文化背景、語(yǔ)境含義和情感色彩等。 自監(jiān)督學(xué)習(xí):模型采用自
    發(fā)表于 08-02 11:03

    【《大語(yǔ)言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)篇

    章節(jié)最后總結(jié)了機(jī)器學(xué)習(xí)的分類(lèi):有監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)和強(qiáng)化
    發(fā)表于 07-25 14:33

    神經(jīng)網(wǎng)絡(luò)如何用無(wú)監(jiān)督算法訓(xùn)練

    神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成部分,其訓(xùn)練方式多樣,其中無(wú)監(jiān)督學(xué)習(xí)是一種重要的訓(xùn)練策略。無(wú)監(jiān)督學(xué)習(xí)旨在從未標(biāo)記的
    的頭像 發(fā)表于 07-09 18:06 ?896次閱讀

    深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法綜述

    應(yīng)用中往往難以實(shí)現(xiàn)。因此,無(wú)監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來(lái)越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無(wú)監(jiān)督學(xué)
    的頭像 發(fā)表于 07-09 10:50 ?953次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過(guò)訓(xùn)練模型從數(shù)據(jù)
    的頭像 發(fā)表于 07-02 11:22 ?813次閱讀

    基于FPGA的類(lèi)腦計(jì)算平臺(tái) —PYNQ 集群的無(wú)監(jiān)督圖像識(shí)別類(lèi)腦計(jì)算系統(tǒng)

    STDP 無(wú)監(jiān)督學(xué)習(xí)算法,可運(yùn)用于圖像的 無(wú)監(jiān)督分類(lèi)。 從平臺(tái)設(shè)計(jì)角度: (1)本設(shè)計(jì)搭建的基于 PYNQ 集群的通用低功耗的大規(guī)模類(lèi)腦計(jì)算平臺(tái),搭載 PYNN,NEST 等
    發(fā)表于 06-25 18:35

    深度學(xué)習(xí)編譯工具鏈中的核心——優(yōu)化

    深度神經(jīng)網(wǎng)絡(luò)模型可以看做由多個(gè)算子連接而成的有向無(wú)環(huán),圖中每個(gè)算子代表一類(lèi)操作(如乘法、卷積),連接各個(gè)算子的邊表示數(shù)據(jù)流動(dòng)。在部署深度神經(jīng)網(wǎng)絡(luò)的過(guò)程中,為了適應(yīng)硬件平臺(tái)的優(yōu)化、硬件本身支持的算子
    的頭像 發(fā)表于 05-16 14:24 ?1080次閱讀
    深度<b class='flag-5'>學(xué)習(xí)</b>編譯工具鏈中的核心——<b class='flag-5'>圖</b>優(yōu)化

    機(jī)器學(xué)習(xí)入門(mén):基本概念介紹

    機(jī)器學(xué)習(xí)(GraphMachineLearning,簡(jiǎn)稱GraphML)是機(jī)器學(xué)習(xí)的一個(gè)分支,專(zhuān)注于利用圖形結(jié)構(gòu)的數(shù)據(jù)。在圖形結(jié)構(gòu)中,數(shù)據(jù)
    的頭像 發(fā)表于 05-16 08:27 ?552次閱讀
    <b class='flag-5'>圖</b>機(jī)器<b class='flag-5'>學(xué)習(xí)</b>入門(mén):基本概念介紹

    無(wú)監(jiān)督深度學(xué)習(xí)實(shí)現(xiàn)單次非相干全息3D成像

    論文信息 背景引入 數(shù)字全息術(shù)因其能夠從單一視點(diǎn)對(duì)3D場(chǎng)景進(jìn)行成像而備受關(guān)注。與直接成像相比,數(shù)字全息是一種間接的多步驟成像過(guò)程,包括光學(xué)記錄全息和數(shù)值計(jì)算重建,為包括深度學(xué)習(xí)在內(nèi)的計(jì)算成像方法
    的頭像 發(fā)表于 05-13 17:38 ?498次閱讀
    <b class='flag-5'>無(wú)</b><b class='flag-5'>監(jiān)督</b>深度<b class='flag-5'>學(xué)習(xí)</b>實(shí)現(xiàn)單次非相干全息3D成像

    機(jī)器學(xué)習(xí)基礎(chǔ)知識(shí)全攻略

    監(jiān)督學(xué)習(xí)通常是利用帶有專(zhuān)家標(biāo)注的標(biāo)簽的訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個(gè)從輸入變量X到輸入變量Y的函數(shù)映射。Y = f (X),訓(xùn)練數(shù)據(jù)通常是(n×x,y)的形式,其中n代表訓(xùn)練樣本的大小,x和y分
    發(fā)表于 02-25 13:53 ?285次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>基礎(chǔ)知識(shí)全攻略

    OpenAI推出Sora:AI領(lǐng)域的革命性突破

    大模型的核心技術(shù)是自然語(yǔ)言處理(NLP)和深度學(xué)習(xí)。具體而言,它基于Transformer架構(gòu),使用了大規(guī)模無(wú)監(jiān)督學(xué)習(xí)方法,例如自回歸語(yǔ)言建模和掩碼語(yǔ)言建模,來(lái)訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)模型。
    發(fā)表于 02-21 16:36 ?1052次閱讀
    OpenAI推出Sora:AI領(lǐng)域的革命性突破

    Meta發(fā)布新型無(wú)監(jiān)督視頻預(yù)測(cè)模型“V-JEPA”

    Meta,這家社交媒體和科技巨頭,近日宣布推出一種新型的無(wú)監(jiān)督視頻預(yù)測(cè)模型,名為“V-JEPA”。這一模型在視頻處理領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗ㄟ^(guò)抽象性預(yù)測(cè)生成視頻中缺失或模糊的部分來(lái)進(jìn)行學(xué)習(xí),提供了一種全新的視頻處理方法。
    的頭像 發(fā)表于 02-19 11:19 ?1083次閱讀
    百家乐官网论坛百科| 娱乐城注册送58| 百家乐另类投注法| 金冠百家乐官网娱乐城| 嘉兴太阳城大酒店| 七乐百家乐现金网| 百家乐官网赌坊| 澳门顶级赌场317| 视频百家乐网站| 新锦江百家乐官网娱乐场| 真钱德州扑克| 百家乐代理合作| 赌百家乐的下场| 百家乐官网平注法攻略| 最好的网上真人赌博| 威尼斯人娱乐城安全吗| 顶尖百家乐学习| 网络百家乐官网玩法| 皇冠足球網| 全讯网vc8888| 澳门百家乐战法| 国美百家乐官网的玩法技巧和规则 | 百家乐号技巧| 属蛇和属猪做生意吗| 百家乐官网网站赌博| 星河国际娱乐场| 水果机游戏机遥控器| 澳门百家乐备用网址| 怎样玩百家乐官网的玩法技巧和规则 | 棋牌小游戏| 百家乐出千桌| 百家乐游戏玩法技巧| 百家乐官网纯技巧打| 百家乐官网牌机的破解法| 喜来登娱乐城| 大发888舍出同线牌| 唐人街百家乐的玩法技巧和规则| 百家乐注码方法| 皇冠足球网开户| 威尼斯人娱乐场wnsrdcylcbywz | 7位百家乐官网扑克桌|