大數據技術內涵持續進行延伸,經過十三五的發展,已從面向海量數據的存儲、處理、分析等基礎技術,延展到面向海量數據的管理治理、流通交易等新興關鍵技術。大數據管理治理類技術實現數據整合、集成,實現數據資產的管理,助力提升數據質量與可用性。大數據流通交易類技術實現安全合規下的數據共享及交易,助力提升數據流通性。
一
大數據管理治理技術
數據管理相關的概念和方法論近年來備受關注,在大數據浪潮下越來越多的政府、企業等組織開始關注如何管理好、使用好數據,從而使數據能夠藉由應用和服務轉化為額外價值。大數據管理技術包括元數據管理、數據集成、數據建模等,通過匯聚盤點數據和提升數據質量,增強數據的可用性和易用性,進一步釋放數據資產的價值。
1 .元數據管理:****
** 幫助用戶理解數據關系和相關屬性**
元數據管理是對數據采集、存儲、加工和展現等數據全生命周期的描述信息,幫助用戶理解數據關系和相關屬性。 元數據管理工具可以了解數據資產分布及產生過程。實現元數據的模型定義并存儲,在功能層包裝成各類元數據功能,最終對外提供應用及展現;提供元數據分類和建模、血緣關系和影響分析,方便數據的跟蹤和回溯。
元數據管理方面比較有代表性的開源軟件和數據管理平臺主要有Apache Atlas,Data Hub。 Apache Atlas是Hadoop社區為解決Hadoop生態系統的元數據治理問題而產生的開源項目,它為Hadoop集群提供了包括數據分類、集中策略引擎、數據血緣、安全和生命周期管理在內的元數據管理核心能力。Apache Atlas與Hadoop關系緊密,深度集成了Hadoop大數據組件。Data Hub是由LinkedIn的數據團隊開源的一款提供元數據搜索與發現的工具,2.0版本支持的數據源包括LDAP,Hive,Kafka,MySQL,DB2,Firebird,SQL Server,Oracle,Postgres,SQLite,ODBC等,實現的功能主要包括元數據、數據血緣、權限描述、生命周期等。
2.數據集成:
** 實現異構數據源的一致性**
數據集成是要將互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。 集成是指維護數據源整體上的數據一致性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,只需關心以何種方式訪問何種數據。
數據集成方面比較有代表性的開源軟件和數據管理平臺主要有的DATAX,Kettle。 DATAX是阿里開源的異構數據源離線同步工具,致力于實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能,實現了高效的標簽識別以及數據去冗余。Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。
3.數據建模:
** 基于數據構建科學模型解決實際問題**
數據建模指對現實世界各類數據的抽象組織,確定數據庫需管轄的范圍、數據的組織形式等直至轉化成現實的數據庫。 將經過系統分析后抽象出來的概念模型轉化為物理模型后,在數據建模工具中建立數據庫實體以及各實體之間關系的過程(實體一般是表)。
數據建模方面比較有代表性的開源軟件和數據管理平臺主要有Erwin、PowerDesigner。 ERwin全程ERwin Data Modeler,是CA公司(Computer Associates) 的一款優秀建模工具,歷經數年的開發和維護,享有很高的市場占有率。用戶使用ERwin可以可視化的設計維護數據庫、數據倉庫,并對企業內部各種數據源模型進行統一規劃管理。PowerDesigner是Sybase公司的CASE工具集,使用它可以方便地對管理信息系統進行分析設計,幾乎包括了數據庫模型設計的全過程。利用Power Designer可以制作數據流程圖、概念數據模型、物理數據模型,還可以為數據倉庫制作結構模型,也能對團隊設計模型進行控制。
4.數據管理平臺
目前以上三類技術多集成于數據管理平臺,作為開展數據管理的統一工具。 但是數據管理平臺仍存在自動化、智能化程度低的問題,實際使用中需要人工進行數據建模、數據標準應用、數據剖析等操作,帶來居高不下的人力成本。 更加自動化智能化的數據管理平臺需求迫切,可助力數據管理工作高效進行。 在基于機器學習的人工智能技術不斷進步的情況下,將有關技術應用于數據管理平臺的各項職能,以減少人力成本提高治理效率成為當下數據管理平臺研發者關注的重點。
數據建模、數據標簽、主數據發現、數據標準應用成為幾個主要的數據管理+AI應用方向。 數據建模方面,機器學習技術通過識別數據特征,推薦數據主題分類,進一步實現自動化建立概念數據模型,同時,對表間關系的識別將大大降低逆向數據建模的人力成本,便于對數據模型的持續更新。數據標準應用方面,基于業務含義、數據特征、數據關系等維度的相似度判別,在數據建模時匹配數據標準,不僅提升了數據標準的應用覆蓋面,也減少了數據標準體系的維護成本。數據剖析方面,基于機器學習的人工智能技術可通過分析問題數據和學習數據質量知識庫,提取數據質量評估維度和數據質量稽核規則,并識別關聯數據標準,實現自動化的數據質量事前、事中、事后管理。華為、浪潮、數夢工場、數瀾科技、Datablau等數據管理平臺供應商也在各自的產品中不斷更新自動化智能化的數據管理功能。
二
大數據流通交易技術
數據確權、數據定價和數據安全是數據流通交易領域的三大核心內容。其中數據確權需要明確數據資產的產權劃分,數據定價在數據確權的基礎上評估數據價值及收益分配,兩者更側重于法律和經濟層面,目前依然處于持續探索階段。從技術角度看,最主要的是要保障流通交易過程中的數據安全,保證共享數據不被第三方獲取、隱私數據不被共享方獲取、原始數據不被共享方獲取。
1.身份認證:
** 保證共享數據不被第三方獲取**
數據流通過程中涉及到的網絡數據傳輸安全需求與其他場景類似, 目前網絡身份認證技術發展比較成熟,可以確保網絡用戶身份的真實、合法和唯一性,防止非法人員進入系統, 通過各種違法操作獲取不正當利益、非法訪問受控信息、惡意破壞系統數據的完整性等情況的發生。常用網絡身份認證方式如下:
a)靜態密碼認證。 靜態密碼方式是指以用戶名及密碼認證的方式,用戶名/密碼方式是最簡單、最常用的身份認證方法。
b)動態口令認證。 動態口令是應用最廣的一種身份識別方式,基于動態口令認證的方式主要有動態短信密碼和動態口令牌(卡)兩種方式,口令一次一密。
c)USBKey認證。 采用軟硬件相結合、一次一密的強雙因子認證模式。每一個USBKey都具有硬件PIN碼保護,用戶只有同時取得了USBKey和用戶PIN碼,才可以登錄系統。
d)生物識別認證。 通過可測量的身體或行為等生物特征信息進行身份認證,包括指紋識別、視網膜識別、聲音識別等。
e)CA認證。 證書頒發機構(CA,CertificateAuthority)負責發放和管理數字證書的權威機構,并作為電子商務交易中受信任的第三方,承擔公鑰體系中公鑰的合法性檢驗的責任。CA機構的數字簽名使得攻擊者不能偽造和篡改證書。
2.數據脫敏、差分隱私:
** 保證隱私數據不被共享方獲取**
全球隱私保護合規監管日趨嚴格,一方面促進了數據權利主體和數據處理行為組織者的隱私保護意識的覺醒,但同時也加重了企業對數據流通與協作合法合規的擔憂。目前在數據流通中保護隱私數據方面應用較多的技術主要有數據脫敏和差分隱私。
數據脫敏(Data Masking)是利用脫敏規則將一些敏感的信息(比如身份證號碼、客戶的賬號、密碼、地址、電話等信息)進行數據的變形,通過對這些敏感信息的變形,最終對這些敏感信息實現有效、可靠的保護。 利用數據脫敏技術,可有針對性地保護與當前分析無關的信息,并保證分析挖掘的有效進行。通常的脫敏手段包括泛化、抑制和擾亂三種。泛化是指使用一般值來替代生產數據,使生產數據的局部特征得到保留,因此泛化后的數據是具有不可逆性的,具體方法包括數據截斷、偏移取整、規整等。抑制是指對生產數據的部分信息進行隱藏,從而實現對生產數據值的轉換,既隱藏技術,具體方法包括掩碼等。擾亂是指對生產數據加入噪聲來進行干擾,使生產數據發生扭曲及改變,生產數據被擾亂后,其分布特征仍保留不變,具體方法包括加密、重排等。
差分隱私(Differential Privacy,DP)是針對統計數據庫的隱私泄露問題提出的一種新的隱私定義,旨在提供一種當從統計數據庫查詢時,最大化數據查詢的準確性,同時最大限度減少識別其記錄的機會。
傳統的差分隱私方案大多為中心化的差分隱私方案,即數據通常都是由可信第三方添加噪聲。但在實際應用中為了減少對可信第三方的需求,近年來也提出了一些去中心化的隱私保護方案,如本地差分隱私等。本地差分隱私(Local Differential Privacy,LDP)是在基于不可信第三方的前提下,客戶端在數據被收集和聚合前,在本地對數據進行差分隱私保護。本地差分隱私已經被谷歌、蘋果和微軟等公司用于保護用戶隱私。但是相較于傳統中心化差分隱私,本地差分隱私方案對數據添加的噪聲更大,在面向數據統計時數據的可用性更低。
3.多方安全計算、聯邦學習、可信執行環境:
** 保證原始數據不被共享方獲取**
與土地、設備、資金等其他資產不同,數據作為一種新型資產要素具有很強的可復制性。為了保障自身的商業利益,在數據流通交易過程中,數據方往往不希望原始數據流出到他人手中而失去對數據的唯一控制權。針對多方數據協同計算的場景,保障數據不流出或少流出的技術主要包括多方安全計算、聯邦學習、可信計算環境。
多方安全計算(Secure Multi-Party Computation,MPC)由姚期智在1982年提出,指參與者在不泄露各自隱私數據情況下,利用隱私數據參與保密計算,共同完成某項計算任務。 當前,多方安全計算技術已成為現代密碼學的重要分支。該技術可以使多個非互信主體在數據相互保密的前提下進行高效數據融合計算,最終實現數據的所有權和數據使用權相互分離,使數據“可用而不可見”,并控制數據的用途和用量。多方安全計算涉及的隱私保護技術和算法非常多,可分為秘密分享、混淆電路、不經意傳輸、同態加密等四大類及其他技術,其中每類又可細分出很多不同的算法。
聯邦學習(Federated Learning)由谷歌于2016年提出,旨在保障大數據交換時的信息安全、保護終端數據和個人數據隱私、保證合法合規的前提下,在多參與方或多計算結點之間開展高效率的機器學習。
根據聯合建模的數據提供者提供的樣本和特征的重疊情況,可將聯邦學習分為橫向聯邦學習、縱向聯邦學習和遷移聯邦學習三大類。橫向聯邦學習也稱“特征對齊的聯邦學習”,適用于數據提供方的數據特征重疊很多但樣本重疊較少的場景。
縱向聯邦學習也稱“樣本對齊的聯邦學習”,適用于數據提供方的樣本重疊很多,但數據特征重疊較少的場景。遷移聯邦學習適用于數據提供方的樣本和特征重疊都較少的場景。與多方安全計算相似,聯邦學習能夠保障計算過程中多個數據方的隱私數據不泄露。區別在于,聯邦學習僅適應于機器學習建模場景,此外,聯邦學習可能使用多方安全計算的中數據保護算法,也可能使用了其他算法。
可信執行環境(Trusted Execution Environment,TEE)通過硬件技術來對數據進行隔離保護,將數據分類處理。 支持TEE的CPU中,會有一個特定的區域,該區域的作用是給數據和代碼的執行提供一個更安全的空間,并保證他們的機密性和完整性。因為TEE提供了一個與外部環境隔離的特征環境(有時也稱為“安全飛地”)保存用戶的敏感數據,TEE可以直接獲取外部環境的信息,而外部環境獲取TEE的信息。目前引入可信執行環境較為成熟的技術有ARM的TrustZone和Intel的SGX等。
本文部分原載于《中國金融科技運行報告》
-
存儲
+關注
關注
13文章
4355瀏覽量
86177 -
MySQL
+關注
關注
1文章
829瀏覽量
26743 -
大數據
+關注
關注
64文章
8908瀏覽量
137799
發布評論請先 登錄
相關推薦
評論