吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

什么是大數(shù)據(jù)采集和預(yù)處理

汽車電子技術(shù) ? 來源:碼農(nóng)與軟件時代 ? 作者: 碼農(nóng)與軟件時代 ? 2023-02-15 14:22 ? 次閱讀

大數(shù)據(jù)導(dǎo)論

理順大數(shù)據(jù)的演進(jìn)路線

數(shù)據(jù)湖是個啥?

一般情況下,大數(shù)據(jù)處理的流程為:數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)可視化。

數(shù)據(jù)采集與預(yù)處理便是大數(shù)據(jù)流程的第一步。

首先來看, 數(shù)據(jù)是如何產(chǎn)生的 ?

(1)為滿足企業(yè)業(yè)務(wù)目標(biāo)的達(dá)成,企業(yè)通常會建設(shè)IT系統(tǒng),IT系統(tǒng)承載企業(yè)業(yè)務(wù)處理的同時,必然會產(chǎn)生交易記錄、付款記錄等等,這些都會保存在數(shù)據(jù)庫中;

(2)為了更好地預(yù)測消費者的需求,購物網(wǎng)站通常也會記錄消費者的網(wǎng)頁瀏覽時長、點贊、收藏、購買喜好等,這些都會記錄在日志文件中;

(3)為了滿足消費者獲取信息的便捷性,各大門戶網(wǎng)站、短視頻網(wǎng)站等都提供了大量的Web網(wǎng)頁供用戶瀏覽,Web網(wǎng)頁中呈現(xiàn)大量的文本、音視頻等;

那么,這些數(shù)據(jù)產(chǎn)生后,都 以什么形式存在 ?

(1)以文件的形式存在,如csv文件、圖像文件、視頻文件、日志文件;

(2)以數(shù)據(jù)庫的形式存在,如關(guān)系型數(shù)據(jù)庫MySql\\oracle、非關(guān)系型數(shù)據(jù)庫MongoDB;

(3)以Web網(wǎng)頁的形式存在,如新浪、搜狐、知乎等;

(4)以實時數(shù)據(jù)的形式存在,如物聯(lián)網(wǎng)絡(luò)中各種傳感器監(jiān)測到的數(shù)據(jù);

這樣,具象化的數(shù)據(jù)采集就變成從數(shù)據(jù)庫、Web網(wǎng)頁、文件、物聯(lián)傳感器等地方獲取。因數(shù)據(jù)存在形式的差異,采用的獲取方法也不盡相同:

(1)文件、Web網(wǎng)頁的抓取,通常采用直接編程的方式獲取,如網(wǎng)頁爬蟲;

(2)實時消息的獲取,則采用相應(yīng)的協(xié)議,如MQTT、Coap、HTTPS;

(3)對數(shù)據(jù)庫數(shù)據(jù)的獲取,則更多采用SQL的形式提取出來;

獲取的數(shù)據(jù),還存在什么問題 ?

獲取的原生數(shù)據(jù),可能會存在數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)類型和值都不對等問題,需要對數(shù)據(jù)進(jìn)行加工處理,這一過程被稱為“數(shù)據(jù)清洗”;

如果數(shù)據(jù)源是多個,并且要裝入到同一數(shù)據(jù)倉庫時,則需要進(jìn)行“數(shù)據(jù)集成”;

數(shù)據(jù)集成后,往往需要更高粒度的抽象,擦除一些細(xì)節(jié)數(shù)據(jù),如原有按交易時間記錄的數(shù)據(jù),現(xiàn)在需要按天進(jìn)行統(tǒng)計,此時需要進(jìn)行聚類處理,稱之為“數(shù)據(jù)轉(zhuǎn)換”;

同時,注意到大數(shù)據(jù)可能涉及到隱私問題,也需要去除隱私數(shù)據(jù),這一過程稱為“數(shù)據(jù)脫敏”;

而數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)脫敏這一系列的過程,稱為 數(shù)據(jù)預(yù)處理

經(jīng)過預(yù)處理后的數(shù)據(jù)放在哪?

可以將其放入數(shù)據(jù)倉庫中,如Hive\\HDFS;

也可以將其放入數(shù)據(jù)湖中,不但可以存儲原始數(shù)據(jù),也可以存儲結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu) 化的數(shù)據(jù),并且還能支撐數(shù)據(jù)的分析。具體可參考《數(shù)據(jù)湖是個啥?》

數(shù)據(jù)的采集與處理是繁瑣的,也是有跡可循的,聰明的研究人員實現(xiàn)了一系列 工具或框架

(1)網(wǎng)頁爬蟲系統(tǒng):Apache Nutch、Crawler4j、Scrapy;

(2)日志收集工具:Flume、Logstash、Filebeat、Fluentd;

(3)多源異構(gòu)數(shù)據(jù)采集工具:Sqoop、Datax。

同時,也形成大數(shù)據(jù)采集的方法論,如ETL。

ETL也就是Extract-Transform-Load,對應(yīng)為提取-轉(zhuǎn)換-加載,充當(dāng)了數(shù)據(jù)源與數(shù)據(jù)倉庫之間的數(shù)據(jù)流轉(zhuǎn)管道。其基本思想是:從日志、數(shù)據(jù)庫、Web頁面中提取數(shù)據(jù),并數(shù)據(jù)進(jìn)行轉(zhuǎn)換,按照預(yù)先規(guī)劃的Schema,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。

Kettle(水壺)、Sqoop(SQL-to-Hadoop)、DataX是ETL工具的代表。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    一文匯總大數(shù)據(jù)四大方面十五大關(guān)鍵技術(shù)

    本文針對大數(shù)據(jù)的關(guān)鍵技術(shù):大數(shù)據(jù)采集大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析挖掘四大方面的15大關(guān)
    發(fā)表于 11-11 15:46 ?1.1w次閱讀

    如何使實時數(shù)據(jù)采集處理系統(tǒng)保持數(shù)據(jù)的高速傳輸

    當(dāng)前,越來越多的設(shè)計應(yīng)用領(lǐng)域要求具有高精度的A/D轉(zhuǎn)換和實時處理功能。在實時數(shù)據(jù)采集處理系統(tǒng)設(shè)計中,一般需要考慮數(shù)據(jù)采集以及對采集數(shù)據(jù)
    的頭像 發(fā)表于 12-17 09:10 ?6805次閱讀
    如何使實時<b class='flag-5'>數(shù)據(jù)采集</b><b class='flag-5'>處理</b>系統(tǒng)保持<b class='flag-5'>數(shù)據(jù)</b>的高速傳輸

    基于串行通信的虛擬儀器數(shù)據(jù)采集

    A/D轉(zhuǎn)換和預(yù)處理,通過RS-232串行口與主機(jī)進(jìn)行信息傳送,插拔方便。主機(jī)通過數(shù)據(jù)處理軟件對數(shù)據(jù)進(jìn)行處理和分析。用戶可以通過主機(jī)的軟件界面對單片機(jī)(從機(jī))進(jìn)行控制,使之能按照不同的要
    發(fā)表于 03-09 15:52

    高速數(shù)據(jù)觸發(fā)采集預(yù)處理

    各位大俠,本人在做數(shù)據(jù)采集處理時碰到了如下問題:使用NI的采集卡,每次觸發(fā)采集500個數(shù)據(jù)點,外觸發(fā)信號頻率為200KHz,并對100次觸
    發(fā)表于 08-11 23:42

    一種基于FPGA和DSP的高速數(shù)據(jù)采集設(shè)計方案介紹

    的信號處理任務(wù)越來越繁重,對數(shù)據(jù)采集處理系統(tǒng)的要求也越來越高。特別是在移動通信領(lǐng)域,基站和手機(jī)的物理信道處理都是實時信號處理。實時信號
    發(fā)表于 07-05 06:41

    微機(jī)檢測與轉(zhuǎn)換—數(shù)據(jù)采集處理

    實驗 微機(jī)檢測與轉(zhuǎn)換——數(shù)據(jù)采集處理實驗?zāi)康模簜鞲衅鲗嶒炚n程中,數(shù)據(jù)采集和分析處理是最為主要的部分,隨著現(xiàn)代科技的發(fā)展,
    發(fā)表于 03-06 16:12 ?989次閱讀

    基于SOPC的數(shù)據(jù)采集處理系統(tǒng)設(shè)計

    基于礦井地震勘探中對數(shù)據(jù)采集處理的高性能要求,本文采用SOPC (可編程片上系統(tǒng))技術(shù)設(shè)計了多通道數(shù)據(jù)采集處理系統(tǒng)。系統(tǒng)采用24位模數(shù)轉(zhuǎn)換芯片實現(xiàn)高精度
    發(fā)表于 05-23 10:50 ?1486次閱讀
    基于SOPC的<b class='flag-5'>數(shù)據(jù)采集</b>與<b class='flag-5'>處理</b>系統(tǒng)設(shè)計

    大數(shù)據(jù)的核心有哪些?

    大數(shù)據(jù)技術(shù)的體系龐大且復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、
    發(fā)表于 05-22 14:22 ?7907次閱讀

    交通軌跡大數(shù)據(jù)預(yù)處理方法及其實驗分析

    交通軌跡大數(shù)據(jù)預(yù)處理方法及其實驗分析
    發(fā)表于 06-27 15:00 ?6次下載

    大數(shù)據(jù)技術(shù)及應(yīng)用介紹1

    大數(shù)據(jù)技術(shù)體系發(fā)展至今,不斷充實完善,與互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等其他信息通信技術(shù)融合交匯,現(xiàn)已較為成熟。圍繞數(shù)據(jù)資源的全生命周期過程** ,大數(shù)據(jù)基礎(chǔ)技術(shù)包含大數(shù)據(jù)采集技術(shù)、
    的頭像 發(fā)表于 03-29 14:14 ?1740次閱讀

    大數(shù)據(jù)技術(shù)有哪些 大數(shù)據(jù)前景

    大數(shù)據(jù)從字面意思來理解,就是海量數(shù)據(jù)的結(jié)合,從數(shù)據(jù)分析全流程的角度,大數(shù)據(jù)技術(shù)主要包括數(shù)據(jù)采集預(yù)處理
    的頭像 發(fā)表于 04-14 17:45 ?4273次閱讀

    每日一課 | 智慧燈桿之大數(shù)據(jù)預(yù)處理技術(shù)介紹

    2.大數(shù)據(jù)預(yù)處理技術(shù)大數(shù)據(jù)預(yù)處理技術(shù)主要完成對已接收數(shù)據(jù)的辨析、抽取、清洗等操作。(1)抽取:因獲取的數(shù)
    的頭像 發(fā)表于 04-07 14:38 ?742次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>預(yù)處理</b>技術(shù)介紹

    每日一課 | 智慧燈桿之大數(shù)據(jù)采集技術(shù)簡介

    大數(shù)據(jù)是一種從各種類型的數(shù)據(jù)中快速獲得有價值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲、處理和呈現(xiàn)的有力武器。
    的頭像 發(fā)表于 03-14 14:52 ?869次閱讀
    每日一課 | 智慧燈桿之<b class='flag-5'>大數(shù)據(jù)采集</b>技術(shù)簡介

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    和應(yīng)用場景. 1. 概述 大數(shù)據(jù)采集系統(tǒng)是實現(xiàn)數(shù)據(jù)收集、處理和存儲的關(guān)鍵環(huán)節(jié)。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,大數(shù)據(jù)采集系統(tǒng)也在不斷演進(jìn)和創(chuàng)新。本
    的頭像 發(fā)表于 07-01 15:44 ?1718次閱讀

    數(shù)控機(jī)床數(shù)據(jù)采集如何實現(xiàn)?

    數(shù)控機(jī)床數(shù)據(jù)采集過程是一個從物理連接到數(shù)據(jù)處理的完整鏈條,涉及設(shè)備連接、數(shù)據(jù)采集預(yù)處理和傳輸?shù)膹?fù)雜過程,包含通信協(xié)議匹配、設(shè)備配置、數(shù)據(jù)采集
    的頭像 發(fā)表于 11-18 17:52 ?430次閱讀
    數(shù)控機(jī)床<b class='flag-5'>數(shù)據(jù)采集</b>如何實現(xiàn)?
    百家乐官网龙虎台布价格| 大中华百家乐的玩法技巧和规则| 足球赌球网| 皇室百家乐官网的玩法技巧和规则| 百家乐网站哪个好| 德州扑克荷官培训| 乐中百家乐官网的玩法技巧和规则 | 百家乐扫描技术| 大同市| 百家乐路单显示程序| 百家乐官网资金注码| 百家乐包赢| 时时博在线娱乐城| 模拟百家乐游戏软件| 永利博线上娱乐城| 博彩百家乐在线| 红桥区| 百家乐论坛官网| 百家乐官网的方法和公式| 梦幻城百家乐的玩法技巧和规则| 网络百家乐官网| 大发888真人游戏平台| 现场百家乐官网的玩法技巧和规则 | 在线百家乐博彩| 百家乐官网有几种玩法| 新锦江百家乐赌场娱乐网规则| 百家乐官网和抽水官网| 大发888官网网址| 真人百家乐官网怎么玩| 盛世国际投注| 赌博百家乐秘笈| 百家乐官网游戏平台有哪些哪家的口碑最好 | 皇冠现金网提款问题| 百家乐缆的打法| 澳门百家乐官网打缆| 乐宝百家乐的玩法技巧和规则| 百家乐官网菲律宾| 百利宫娱乐城官方网| 百家乐筹码防伪定制| 百家乐官网游戏规则玩法| 大发888m磨卡游戏|