吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大數據技術及應用介紹2

jf_78858299 ? 來源:CAICT大數據與數字經濟 ? 作者:王強、邱艷娟 ? 2023-03-29 14:17 ? 次閱讀

大數據技術內涵持續進行延伸,經過十三五的發展,已從面向海量數據的存儲、處理、分析等基礎技術,延展到面向海量數據的管理治理、流通交易等新興關鍵技術。大數據管理治理類技術實現數據整合、集成,實現數據資產的管理,助力提升數據質量與可用性。大數據流通交易類技術實現安全合規下的數據共享及交易,助力提升數據流通性。

大數據管理治理技術

數據管理相關的概念和方法論近年來備受關注,在大數據浪潮下越來越多的政府、企業等組織開始關注如何管理好、使用好數據,從而使數據能夠藉由應用和服務轉化為額外價值。大數據管理技術包括元數據管理、數據集成、數據建模等,通過匯聚盤點數據和提升數據質量,增強數據的可用性和易用性,進一步釋放數據資產的價值。

1 .元數據管理:****

** 幫助用戶理解數據關系和相關屬性**

元數據管理是對數據采集、存儲、加工和展現等數據全生命周期的描述信息,幫助用戶理解數據關系和相關屬性。 元數據管理工具可以了解數據資產分布及產生過程。實現元數據的模型定義并存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;提供元數據分類和建模、血緣關系和影響分析,方便數據的跟蹤和回溯。

元數據管理方面比較有代表性的開源軟件和數據管理平臺主要有Apache Atlas,Data Hub。 Apache Atlas是Hadoop社區為解決Hadoop生態系統的元數據治理問題而產生的開源項目,它為Hadoop集群提供了包括數據分類、集中策略引擎、數據血緣、安全和生命周期管理在內的元數據管理核心能力。Apache Atlas與Hadoop關系緊密,深度集成了Hadoop大數據組件。Data Hub是由LinkedIn的數據團隊開源的一款提供元數據搜索與發現的工具,2.0版本支持的數據源包括LDAP,Hive,Kafka,MySQL,DB2,Firebird,SQL Server,Oracle,Postgres,SQLite,ODBC等,實現的功能主要包括元數據、數據血緣、權限描述、生命周期等。

2.數據集成:

** 實現異構數據源的一致性**

數據集成是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。 集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,只需關心以何種方式訪問何種數據。

數據集成方面比較有代表性的開源軟件和數據管理平臺主要有的DATAX,Kettle。 DATAX是阿里開源的異構數據源離線同步工具,致力于實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能,實現了高效的標簽識別以及數據去冗余。Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。

3.數據建模:

** 基于數據構建科學模型解決實際問題**

數據建模指對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等直至轉化成現實的數據庫。 將經過系統分析后抽象出來的概念模型轉化為物理模型后,在數據建模工具中建立數據庫實體以及各實體之間關系的過程(實體一般是表)。

數據建模方面比較有代表性的開源軟件和數據管理平臺主要有Erwin、PowerDesigner。 ERwin全程ERwin Data Modeler,是CA公司(Computer Associates) 的一款優秀建模工具,歷經數年的開發和維護,享有很高的市場占有率。用戶使用ERwin可以可視化的設計維護數據庫、數據倉庫,并對企業內部各種數據源模型進行統一規劃管理。PowerDesigner是Sybase公司的CASE工具集,使用它可以方便地對管理信息系統進行分析設計,幾乎包括了數據庫模型設計的全過程。利用Power Designer可以制作數據流程圖、概念數據模型、物理數據模型,還可以為數據倉庫制作結構模型,也能對團隊設計模型進行控制。

4.數據管理平臺

目前以上三類技術多集成于數據管理平臺,作為開展數據管理的統一工具。 但是數據管理平臺仍存在自動化、智能化程度低的問題,實際使用中需要人工進行數據建模、數據標準應用、數據剖析等操作,帶來居高不下的人力成本。 更加自動化智能化的數據管理平臺需求迫切,可助力數據管理工作高效進行。 在基于機器學習人工智能技術不斷進步的情況下,將有關技術應用于數據管理平臺的各項職能,以減少人力成本提高治理效率成為當下數據管理平臺研發者關注的重點。

數據建模、數據標簽、主數據發現、數據標準應用成為幾個主要的數據管理+AI應用方向。 數據建模方面,機器學習技術通過識別數據特征,推薦數據主題分類,進一步實現自動化建立概念數據模型,同時,對表間關系的識別將大大降低逆向數據建模的人力成本,便于對數據模型的持續更新。數據標準應用方面,基于業務含義、數據特征、數據關系等維度的相似度判別,在數據建模時匹配數據標準,不僅提升了數據標準的應用覆蓋面,也減少了數據標準體系的維護成本。數據剖析方面,基于機器學習的人工智能技術可通過分析問題數據和學習數據質量知識庫,提取數據質量評估維度和數據質量稽核規則,并識別關聯數據標準,實現自動化的數據質量事前、事中、事后管理。華為、浪潮、數夢工場、數瀾科技、Datablau等數據管理平臺供應商也在各自的產品中不斷更新自動化智能化的數據管理功能。

大數據流通交易技術

數據確權、數據定價和數據安全是數據流通交易領域的三大核心內容。其中數據確權需要明確數據資產的產權劃分,數據定價在數據確權的基礎上評估數據價值及收益分配,兩者更側重于法律和經濟層面,目前依然處于持續探索階段。從技術角度看,最主要的是要保障流通交易過程中的數據安全,保證共享數據不被第三方獲取、隱私數據不被共享方獲取、原始數據不被共享方獲取。

1.身份認證

** 保證共享數據不被第三方獲取**

數據流通過程中涉及到的網絡數據傳輸安全需求與其他場景類似, 目前網絡身份認證技術發展比較成熟,可以確保網絡用戶身份的真實、合法和唯一性,防止非法人員進入系統, 通過各種違法操作獲取不正當利益、非法訪問受控信息、惡意破壞系統數據的完整性等情況的發生。常用網絡身份認證方式如下:

a)靜態密碼認證。 靜態密碼方式是指以用戶名及密碼認證的方式,用戶名/密碼方式是最簡單、最常用的身份認證方法。

b)動態口令認證。 動態口令是應用最廣的一種身份識別方式,基于動態口令認證的方式主要有動態短信密碼和動態口令牌(卡)兩種方式,口令一次一密。

c)USBKey認證。 采用軟硬件相結合、一次一密的強雙因子認證模式。每一個USBKey都具有硬件PIN碼保護,用戶只有同時取得了USBKey和用戶PIN碼,才可以登錄系統。

d)生物識別認證。 通過可測量的身體或行為等生物特征信息進行身份認證,包括指紋識別、視網膜識別、聲音識別等。

e)CA認證。 證書頒發機構(CA,CertificateAuthority)負責發放和管理數字證書的權威機構,并作為電子商務交易中受信任的第三方,承擔公鑰體系中公鑰的合法性檢驗的責任。CA機構的數字簽名使得攻擊者不能偽造和篡改證書。

2.數據脫敏、差分隱私:

** 保證隱私數據不被共享方獲取**

全球隱私保護合規監管日趨嚴格,一方面促進了數據權利主體和數據處理行為組織者的隱私保護意識的覺醒,但同時也加重了企業對數據流通與協作合法合規的擔憂。目前在數據流通中保護隱私數據方面應用較多的技術主要有數據脫敏和差分隱私。

數據脫敏(Data Masking)是利用脫敏規則將一些敏感的信息(比如身份證號碼、客戶的賬號、密碼、地址、電話等信息)進行數據的變形,通過對這些敏感信息的變形,最終對這些敏感信息實現有效、可靠的保護。 利用數據脫敏技術,可有針對性地保護與當前分析無關的信息,并保證分析挖掘的有效進行。通常的脫敏手段包括泛化、抑制和擾亂三種。泛化是指使用一般值來替代生產數據,使生產數據的局部特征得到保留,因此泛化后的數據是具有不可逆性的,具體方法包括數據截斷、偏移取整、規整等。抑制是指對生產數據的部分信息進行隱藏,從而實現對生產數據值的轉換,既隱藏技術,具體方法包括掩碼等。擾亂是指對生產數據加入噪聲來進行干擾,使生產數據發生扭曲及改變,生產數據被擾亂后,其分布特征仍保留不變,具體方法包括加密、重排等。

差分隱私(Differential Privacy,DP)是針對統計數據庫的隱私泄露問題提出的一種新的隱私定義,旨在提供一種當從統計數據庫查詢時,最大化數據查詢的準確性,同時最大限度減少識別其記錄的機會。

傳統的差分隱私方案大多為中心化的差分隱私方案,即數據通常都是由可信第三方添加噪聲。但在實際應用中為了減少對可信第三方的需求,近年來也提出了一些去中心化的隱私保護方案,如本地差分隱私等。本地差分隱私(Local Differential Privacy,LDP)是在基于不可信第三方的前提下,客戶端在數據被收集和聚合前,在本地對數據進行差分隱私保護。本地差分隱私已經被谷歌、蘋果和微軟等公司用于保護用戶隱私。但是相較于傳統中心化差分隱私,本地差分隱私方案對數據添加的噪聲更大,在面向數據統計時數據的可用性更低。

3.多方安全計算、聯邦學習、可信執行環境:

** 保證原始數據不被共享方獲取**

與土地、設備、資金等其他資產不同,數據作為一種新型資產要素具有很強的可復制性。為了保障自身的商業利益,在數據流通交易過程中,數據方往往不希望原始數據流出到他人手中而失去對數據的唯一控制權。針對多方數據協同計算的場景,保障數據不流出或少流出的技術主要包括多方安全計算、聯邦學習、可信計算環境。

多方安全計算(Secure Multi-Party Computation,MPC)由姚期智在1982年提出,指參與者在不泄露各自隱私數據情況下,利用隱私數據參與保密計算,共同完成某項計算任務。 當前,多方安全計算技術已成為現代密碼學的重要分支。該技術可以使多個非互信主體在數據相互保密的前提下進行高效數據融合計算,最終實現數據的所有權和數據使用權相互分離,使數據“可用而不可見”,并控制數據的用途和用量。多方安全計算涉及的隱私保護技術和算法非常多,可分為秘密分享、混淆電路、不經意傳輸、同態加密等四大類及其他技術,其中每類又可細分出很多不同的算法。

聯邦學習(Federated Learning)由谷歌于2016年提出,旨在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。

根據聯合建模的數據提供者提供的樣本和特征的重疊情況,可將聯邦學習分為橫向聯邦學習、縱向聯邦學習和遷移聯邦學習三大類。橫向聯邦學習也稱“特征對齊的聯邦學習”,適用于數據提供方的數據特征重疊很多但樣本重疊較少的場景。

縱向聯邦學習也稱“樣本對齊的聯邦學習”,適用于數據提供方的樣本重疊很多,但數據特征重疊較少的場景。遷移聯邦學習適用于數據提供方的樣本和特征重疊都較少的場景。與多方安全計算相似,聯邦學習能夠保障計算過程中多個數據方的隱私數據不泄露。區別在于,聯邦學習僅適應于機器學習建模場景,此外,聯邦學習可能使用多方安全計算的中數據保護算法,也可能使用了其他算法。

可信執行環境(Trusted Execution Environment,TEE)通過硬件技術來對數據進行隔離保護,將數據分類處理。 支持TEE的CPU中,會有一個特定的區域,該區域的作用是給數據和代碼的執行提供一個更安全的空間,并保證他們的機密性和完整性。因為TEE提供了一個與外部環境隔離的特征環境(有時也稱為“安全飛地”)保存用戶的敏感數據,TEE可以直接獲取外部環境的信息,而外部環境獲取TEE的信息。目前引入可信執行環境較為成熟的技術有ARM的TrustZone和Intel的SGX等。

本文部分原載于《中國金融科技運行報告》

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲
    +關注

    關注

    13

    文章

    4355

    瀏覽量

    86177
  • MySQL
    +關注

    關注

    1

    文章

    829

    瀏覽量

    26743
  • 大數據
    +關注

    關注

    64

    文章

    8908

    瀏覽量

    137799
收藏 人收藏

    評論

    相關推薦

    大數據技術經驗交流 場景化數據算法

    可視化數據指導,讓每一個人看懂大數據;多場景數據算法,讓所有數據都有跡可循;大數據技術經驗交流群
    發表于 06-01 17:12

    常用大數據處理技術歸類

    “21世紀最缺的是什么?人才!”。在大數據發展如此之快的今天,大數據工程師已經成為一個新興職業。大數據是信息技術,是人和人、人和機器、機器和機器交互的內容特征,是最底層的信息
    發表于 02-28 17:02

    常見大數據應用有哪些?

    大數據技術為決策提供依據,在***、企業、科研項目等決策中扮演著重要的角色,在社會治理和企業管理中起到了不容忽視的作用,很多國家,如中國、美國以及歐盟等都已將大數據列入國家發展戰略,微軟、谷歌、百度
    發表于 03-13 16:50

    大數據運用的技術

    大數據是對海量數據進行存儲、計算、統計、分析處理的一系列處理手段,處理的數據量通常是TB級,甚至是PB或EB級的數據,這是傳統數據處理手段所
    發表于 04-08 16:50

    大數據開發核心技術詳解

    數據的核心是云技術和BI。關于大數據和云計算的關系人們通常會有誤解,而且也會把它們混起來說,分別做一句話直白解釋就是:云計算就是硬件資源的虛擬化;大數據就是海量
    發表于 07-26 16:26

    DKHadoop大數據平臺架構詳解

    hadoop可以說都是二次包裝,dkhadoop做的好的就是敢在原生態的基礎上進行開發。2、大快DKhadoop中間件技術大數據集群配置簡化成三種節點,這樣不僅簡化了集群的管理運維,還增強了集群
    發表于 10-17 15:12

    大數據技術專家的學習歷程分享

    從小白到大數據技術專家的學習歷程,你準備好了嗎
    發表于 04-22 14:37

    怎么才能編程大數據技術專家

    從小白到大數據技術專家的學習歷程
    發表于 04-24 09:06

    大數據的定義及其應用

    目錄1、大數據概述1.1. 概述1.2. 大數據定義1.3. 大數據技術發展2大數據應用2.1
    發表于 07-12 06:12

    什么是大數據大數據的特點有哪些

    大數據(big data)目錄1什么是大數據2大數據的定義3大數據的特點[1]4大數據的作用[
    發表于 07-12 06:52

    大數據技術與應用是學什么的?

    大數據技術與應用是學什么的?大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。大數據
    發表于 07-27 07:47

    大數據技術原理與應用

    本文介紹了關于大數據的相關概念、大數據的結構、大數據的特點以及大數據技術的十大原理及詳細的說明了
    發表于 12-19 14:29 ?11w次閱讀
    <b class='flag-5'>大數據</b><b class='flag-5'>技術</b>原理與應用

    大數據是什么_大數據技術和應用的現狀與前景

    本文首先介紹大數據大數據技術與應用的概念然后說明了大數據的優勢和部分應用前景最后分析了大數據
    發表于 07-30 15:04 ?2.4w次閱讀

    大數據技術及應用介紹1

    大數據技術體系發展至今,不斷充實完善,與互聯網、物聯網、人工智能等其他信息通信技術融合交匯,現已較為成熟。圍繞數據資源的全生命周期過程** ,大數據
    的頭像 發表于 03-29 14:14 ?1740次閱讀

    大數據技術是干嘛的 大數據核心技術有哪些

    大數據技術是指用來處理和存儲海量、多類型、高速的數據的一系列技術和工具。現如今,大數據已經滲透到各個行業和領域,對企業決策和業務發展起到了重
    的頭像 發表于 01-31 11:07 ?3863次閱讀
    百家乐怎么样投注| 在线百家乐有些一| 百家乐官网那个平台信誉高| 南通热线棋牌中心| 罗浮宫百家乐的玩法技巧和规则 | 大发888.comwf| 实战百家乐十大取胜原因百分百战胜百家乐不买币不吹牛只你能做到按我说的.百家乐基本规则 | 百家乐官网开户送十元| 大发888游戏秘籍| 在线百家乐作| 澳门百家乐大家乐眼| 三元玄空24山坐向| 试玩百家乐官网1000| 百家乐官网开户代理| 澳博| 斗地主棋牌游戏| 大发888娱乐场怎么才能赢到钱| 太原百家乐的玩法技巧和规则| 澳门百家乐有没有假| 百家乐玩法的技巧| 百家乐官网长t恤| 东丰县| 稳赢至尊| 大发888总结经验| 威尼斯人娱乐网可信吗| 淘宝博百家乐的玩法技巧和规则| 网络百家乐棋牌| 百家乐视频打麻将| 大赢家百家乐官网娱乐| 夜总会百家乐官网的玩法技巧和规则| 百家乐官网赌场大赢家| 百家乐官网美女荷官| 阳泉市| 真人百家乐官网宣传| 信丰县| bet365直播| 顶级赌场下载| 太阳城ktv| 太阳城| 大发888娱乐城优惠码lm0| 太阳城娱乐总站|