欧冠足球全攻全守,六合彩喜洋洋,哇哇棋牌java版(中国)·官方网站

大數(shù)據(jù)導(dǎo)論

理順大數(shù)據(jù)的演進(jìn)路線

數(shù)據(jù)湖是個啥？

一般情況下，大數(shù)據(jù)處理的流程為：數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化。

數(shù)據(jù)采集與預(yù)處理便是大數(shù)據(jù)流程的第一步。

首先來看， 數(shù)據(jù)是如何產(chǎn)生的 ？

（1）為滿足企業(yè)業(yè)務(wù)目標(biāo)的達(dá)成，企業(yè)通常會建設(shè)IT系統(tǒng)，IT系統(tǒng)承載企業(yè)業(yè)務(wù)處理的同時，必然會產(chǎn)生交易記錄、付款記錄等等，這些都會保存在數(shù)據(jù)庫中；

（2）為了更好地預(yù)測消費者的需求，購物網(wǎng)站通常也會記錄消費者的網(wǎng)頁瀏覽時長、點贊、收藏、購買喜好等，這些都會記錄在日志文件中；

（3）為了滿足消費者獲取信息的便捷性，各大門戶網(wǎng)站、短視頻網(wǎng)站等都提供了大量的Web網(wǎng)頁供用戶瀏覽，Web網(wǎng)頁中呈現(xiàn)大量的文本、音視頻等；

那么，這些數(shù)據(jù)產(chǎn)生后，都 以什么形式存在 ？

（1）以文件的形式存在，如csv文件、圖像文件、視頻文件、日志文件；

（2）以數(shù)據(jù)庫的形式存在，如關(guān)系型數(shù)據(jù)庫MySql\\or acle、非關(guān)系型數(shù)據(jù)庫MongoDB；

（3）以Web網(wǎng)頁的形式存在，如新浪、搜狐、知乎等；

（4）以實時數(shù)據(jù)的形式存在，如物聯(lián)網(wǎng)絡(luò)中各種傳感器監(jiān)測到的數(shù)據(jù)；

這樣，具象化的數(shù)據(jù)采集就變成從數(shù)據(jù)庫、Web網(wǎng)頁、文件、物聯(lián)傳感器等地方獲取。因數(shù)據(jù)存在形式的差異，采用的獲取方法也不盡相同：

（1）文件、Web網(wǎng)頁的抓取，通常采用直接編程的方式獲取，如網(wǎng)頁爬蟲；

（2）實時消息的獲取，則采用相應(yīng)的協(xié)議，如MQTT、Coap、HTTPS;

（3）對數(shù)據(jù)庫數(shù)據(jù)的獲取，則更多采用SQL的形式提取出來；

獲取的數(shù)據(jù)，還存在什么問題 ？

獲取的原生數(shù)據(jù)，可能會存在數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)類型和值都不對等問題，需要對數(shù)據(jù)進(jìn)行加工處理，這一過程被稱為“數(shù)據(jù)清洗”；

如果數(shù)據(jù)源是多個，并且要裝入到同一數(shù)據(jù)倉庫時，則需要進(jìn)行“數(shù)據(jù)集成”；

數(shù)據(jù)集成后，往往需要更高粒度的抽象，擦除一些細(xì)節(jié)數(shù)據(jù)，如原有按交易時間記錄的數(shù)據(jù)，現(xiàn)在需要按天進(jìn)行統(tǒng)計，此時需要進(jìn)行聚類處理，稱之為“數(shù)據(jù)轉(zhuǎn)換”；

同時，注意到大數(shù)據(jù)可能涉及到隱私問題，也需要去除隱私數(shù)據(jù)，這一過程稱為“數(shù)據(jù)脫敏”；

而數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)脫敏這一系列的過程，稱為 數(shù)據(jù)預(yù)處理 。

經(jīng)過預(yù)處理后的數(shù)據(jù)放在哪？

可以將其放入數(shù)據(jù)倉庫中，如Hive\\HDFS；

也可以將其放入數(shù)據(jù)湖中，不但可以存儲原始數(shù)據(jù)，也可以存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu) 化的數(shù)據(jù)，并且還能支撐數(shù)據(jù)的分析。具體可參考《數(shù)據(jù)湖是個啥？》

數(shù)據(jù)的采集與處理是繁瑣的，也是有跡可循的，聰明的研究人員實現(xiàn)了一系列 工具或框架 ：

（1）網(wǎng)頁爬蟲系統(tǒng)：Apache Nutch、Crawler4j、Scrapy；

（2）日志收集工具：Flume、Logstash、Filebeat、Fluentd；

（3）多源異構(gòu)數(shù)據(jù)采集工具：Sqoop、Datax。

同時，也形成大數(shù)據(jù)采集的方法論，如ETL。

ETL也就是Extract-Transform-Load，對應(yīng)為提取-轉(zhuǎn)換-加載，充當(dāng)了數(shù)據(jù)源與數(shù)據(jù)倉庫之間的數(shù)據(jù)流轉(zhuǎn)管道。其基本思想是：從日志、數(shù)據(jù)庫、Web頁面中提取數(shù)據(jù)，并數(shù)據(jù)進(jìn)行轉(zhuǎn)換，按照預(yù)先規(guī)劃的Schema，將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

Kettle（水壺）、Sqoop（SQL-to-Hadoop）、DataX是ETL工具的代表。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)采集

數(shù)據(jù)采集

+關(guān)注

關(guān)注
39

文章
6251

瀏覽量
114039
數(shù)據(jù)存儲

數(shù)據(jù)存儲

+關(guān)注

關(guān)注
5

文章
983

瀏覽量
51056
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8908

瀏覽量
137787

一文匯總大數(shù)據(jù)四大方面十五大關(guān)鍵技術(shù)

本文針對大數(shù)據(jù)的關(guān)鍵技術(shù)：大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析挖掘四大方面的15大關(guān)

發(fā)表于 11-11 15:46 ?1.1w次閱讀

如何使實時數(shù)據(jù)采集處理系統(tǒng)保持數(shù)據(jù)的高速傳輸

當(dāng)前，越來越多的設(shè)計應(yīng)用領(lǐng)域要求具有高精度的A／D轉(zhuǎn)換和實時處理功能。在實時數(shù)據(jù)采集處理系統(tǒng)設(shè)計中，一般需要考慮數(shù)據(jù)采集以及對采集數(shù)據(jù)的

發(fā)表于 12-17 09:10 ?6805次閱讀

如何使實時<b class='flag-5'>數(shù)據(jù)采集</b><b class='flag-5'>處理</b>系統(tǒng)保持<b class='flag-5'>數(shù)據(jù)</b>的高速傳輸

基于串行通信的虛擬儀器數(shù)據(jù)采集器

A/D轉(zhuǎn)換和預(yù)處理,通過RS-232串行口與主機(jī)進(jìn)行信息傳送,插拔方便。主機(jī)通過數(shù)據(jù)處理軟件對數(shù)據(jù)進(jìn)行處理和分析。用戶可以通過主機(jī)的軟件界面對單片機(jī)(從機(jī))進(jìn)行控制,使之能按照不同的要

發(fā)表于 03-09 15:52

高速數(shù)據(jù)觸發(fā)采集預(yù)處理

各位大俠，本人在做數(shù)據(jù)采集與處理時碰到了如下問題：使用NI的采集卡，每次觸發(fā)采集500個數(shù)據(jù)點，外觸發(fā)信號頻率為200KHz，并對100次觸

發(fā)表于 08-11 23:42

一種基于FPGA和DSP的高速數(shù)據(jù)采集設(shè)計方案介紹

的信號處理任務(wù)越來越繁重，對數(shù)據(jù)采集處理系統(tǒng)的要求也越來越高。特別是在移動通信領(lǐng)域，基站和手機(jī)的物理信道處理都是實時信號處理。實時信號

發(fā)表于 07-05 06:41

微機(jī)檢測與轉(zhuǎn)換—數(shù)據(jù)采集處理

實驗微機(jī)檢測與轉(zhuǎn)換——數(shù)據(jù)采集處理實驗?zāi)康模簜鞲衅鲗嶒炚n程中，數(shù)據(jù)采集和分析處理是最為主要的部分，隨著現(xiàn)代科技的發(fā)展，

發(fā)表于 03-06 16:12 ?989次閱讀

基于SOPC的數(shù)據(jù)采集與處理系統(tǒng)設(shè)計

基于礦井地震勘探中對數(shù)據(jù)采集與處理的高性能要求，本文采用SOPC （可編程片上系統(tǒng)）技術(shù)設(shè)計了多通道數(shù)據(jù)采集與處理系統(tǒng)。系統(tǒng)采用24位模數(shù)轉(zhuǎn)換芯片實現(xiàn)高精度

發(fā)表于 05-23 10:50 ?1486次閱讀

基于SOPC的<b class='flag-5'>數(shù)據(jù)采集</b>與<b class='flag-5'>處理</b>系統(tǒng)設(shè)計

大數(shù)據(jù)的核心有哪些？

大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜，基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、

發(fā)表于 05-22 14:22 ?7907次閱讀

交通軌跡大數(shù)據(jù)預(yù)處理方法及其實驗分析

交通軌跡大數(shù)據(jù)預(yù)處理方法及其實驗分析

發(fā)表于 06-27 15:00 ?6次下載

大數(shù)據(jù)技術(shù)及應(yīng)用介紹1

大數(shù)據(jù)技術(shù)體系發(fā)展至今，不斷充實完善，與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術(shù)融合交匯，現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程** ，大數(shù)據(jù)基礎(chǔ)技術(shù)包含大數(shù)據(jù)采集技術(shù)、

發(fā)表于 03-29 14:14 ?1740次閱讀

大數(shù)據(jù)技術(shù)有哪些大數(shù)據(jù)前景

大數(shù)據(jù)從字面意思來理解，就是海量數(shù)據(jù)的結(jié)合，從數(shù)據(jù)分析全流程的角度，大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集與預(yù)處理

發(fā)表于 04-14 17:45 ?4273次閱讀

每日一課 | 智慧燈桿之大數(shù)據(jù)預(yù)處理技術(shù)介紹

2．大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。（1）抽取：因獲取的數(shù)

發(fā)表于 04-07 14:38 ?742次閱讀

每日一課 | 智慧燈桿之大數(shù)據(jù)采集技術(shù)簡介

大數(shù)據(jù)是一種從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù)，它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。

發(fā)表于 03-14 14:52 ?869次閱讀

大數(shù)據(jù)采集系統(tǒng)分為幾類

和應(yīng)用場景. 1. 概述 大數(shù)據(jù)采集系統(tǒng)是實現(xiàn)數(shù)據(jù)收集、處理和存儲的關(guān)鍵環(huán)節(jié)。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展，大數(shù)據(jù)采集系統(tǒng)也在不斷演進(jìn)和創(chuàng)新。本

發(fā)表于 07-01 15:44 ?1718次閱讀

數(shù)控機(jī)床數(shù)據(jù)采集如何實現(xiàn)？

數(shù)控機(jī)床數(shù)據(jù)采集過程是一個從物理連接到數(shù)據(jù)處理的完整鏈條，涉及設(shè)備連接、數(shù)據(jù)采集、預(yù)處理和傳輸?shù)膹?fù)雜過程，包含通信協(xié)議匹配、設(shè)備配置、數(shù)據(jù)采集

發(fā)表于 11-18 17:52 ?430次閱讀

吴忠躺衫网络科技有限公司

搜索歷史

什么是大數(shù)據(jù)采集和預(yù)處理

評論