吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)工程師的工作內(nèi)容有哪些

工程師人生 ? 來源:工程師吳畏 ? 2019-05-07 16:54 ? 次閱讀

大數(shù)據(jù)工程師工作內(nèi)容取決于你工作在數(shù)據(jù)流的哪一個環(huán)節(jié)。

從數(shù)據(jù)上游到數(shù)據(jù)下游,大致可以分為:

數(shù)據(jù)采集 -》 數(shù)據(jù)清洗 -》 數(shù)據(jù)存儲 -》 數(shù)據(jù)分析統(tǒng)計 -》 數(shù)據(jù)可視化 等幾個方面

工作內(nèi)容當然就是使用工具組件(Spark、Flume、Kafka等)或者代碼(Java、Scala等)來實現(xiàn)上面幾個方面的功能。

很多初學(xué)者,對大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學(xué)的時候,該按照什么線路去學(xué)習,學(xué)完往哪方面發(fā)展,想深入了解,想學(xué)習的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習qq群:522189307,有大量干貨(零基礎(chǔ)以及進階的經(jīng)典實戰(zhàn))分享給大家,并且有清華大學(xué)畢業(yè)的資深大數(shù)據(jù)講師給大家免費授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學(xué)習流程體系

具體說說吧,

數(shù)據(jù)采集:

業(yè)務(wù)系統(tǒng)的埋點代碼時刻會產(chǎn)生一些分散的原始日志,可以用Flume監(jiān)控接收這些分散的日志,實現(xiàn)分散日志的聚合,即采集。

數(shù)據(jù)清洗:

原始的日志,數(shù)據(jù)是千奇百怪的

一些字段可能會有異常取值,即臟數(shù)據(jù)。為了保證數(shù)據(jù)下游的“數(shù)據(jù)分析統(tǒng)計”能拿到比較高質(zhì)量的數(shù)據(jù),需要對這些記錄進行過濾或者字段數(shù)據(jù)回填。

一些日志的字段信息可能是多余的,下游不需要使用到這些字段做分析,同時也為了節(jié)省存儲開銷,需要刪除這些多余的字段信息。

一些日志的字段信息可能包含用戶敏感信息,需要做脫敏處理。如用戶姓名只保留姓,名字用‘*’字符替換。

數(shù)據(jù)存儲:

清洗后的數(shù)據(jù)可以落地入到數(shù)據(jù)倉庫(Hive),供下游做離線分析。如果下游的“數(shù)據(jù)分析統(tǒng)計”對實時性要求比較高,則可以把日志記錄入到kafka。

數(shù)據(jù)分析統(tǒng)計:

數(shù)據(jù)分析是數(shù)據(jù)流的下游,消費來自上游的數(shù)據(jù)。其實就是從日志記錄里頭統(tǒng)計出各種各樣的報表數(shù)據(jù),簡單的報表統(tǒng)計可以用sql在kylin或者hive統(tǒng)計,復(fù)雜的報表就需要在代碼層面用Spark、Storm做統(tǒng)計分析。一些公司好像會有個叫BI的崗位是專門做這一塊的。

數(shù)據(jù)可視化:

用數(shù)據(jù)表格、數(shù)據(jù)圖等直觀的形式展示上游“數(shù)據(jù)分析統(tǒng)計”的數(shù)據(jù)。一般公司的某些決策會參考這些圖表里頭的數(shù)據(jù)~

當然,大數(shù)據(jù)平臺(如CDH、FusionInsight等)搭建與維護,也可能是大數(shù)據(jù)工程師工作內(nèi)容的一部分喔~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 工程師
    +關(guān)注

    關(guān)注

    59

    文章

    1572

    瀏覽量

    68652
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8908

    瀏覽量

    137799
收藏 人收藏

    評論

    相關(guān)推薦

    硬件工程師工作前VS工作后!抱歉!是我想的太簡單了!# #電工 #電子愛好者

    硬件工程師
    MDD辰達半導(dǎo)體
    發(fā)布于 :2025年01月08日 18:15:18

    為什么嵌入式驅(qū)動開發(fā)工程師可以拿高薪?

    為什么嵌入式驅(qū)動開發(fā)工程師可以拿高薪? 嵌入式驅(qū)動開發(fā),屬于需求量大、薪資斷崖式升高的熱門崗位,在市場的發(fā)展驅(qū)動下成為“風口”。從市場的整體需求來看,嵌入式系統(tǒng)的應(yīng)用隨著5G、物聯(lián)網(wǎng)、大數(shù)據(jù)、云
    發(fā)表于 01-07 16:56

    硬件工程師工作必備書籍推薦

    硬件工程師工作必備書籍推薦
    的頭像 發(fā)表于 09-24 16:07 ?1053次閱讀
    硬件<b class='flag-5'>工程師</b>找<b class='flag-5'>工作</b>必備書籍推薦

    FPGA算法工程師、邏輯工程師、原型驗證工程師什么區(qū)別?

    ,共同進步。 歡迎加入FPGA技術(shù)微信交流群14群! 交流問題(一) Q:FPGA中的FPGA算法工程師、FPGA邏輯工程師、FPGA原型驗證工程師三者什么區(qū)別? A:FPGA 算法
    發(fā)表于 09-23 18:26

    正是拼的年紀|65歲電子工程師上班VLOG #65歲退休 #電子工程師 #搞笑 #上班vlog

    電子工程師
    安泰小課堂
    發(fā)布于 :2024年07月25日 11:31:02

    嵌入式軟件工程師和硬件工程師的區(qū)別?

    、機器人等。 定義和工作職責 嵌入式軟件工程師的主要職責包括但不限于:設(shè)計、開發(fā)、測試和調(diào)試嵌入式軟件應(yīng)用程序,以滿足特定硬件和軟件要求。他們需要理解并掌握嵌入式系統(tǒng)的基本原理,熟悉相關(guān)硬件接口
    發(fā)表于 05-16 11:00

    大廠電子工程師常見面試題#電子工程師 #硬件工程師 #電路知識 #面試題

    電子工程師電路
    安泰小課堂
    發(fā)布于 :2024年04月30日 17:33:15

    fpga工程師前景如何

    FPGA工程師的前景看起來相當積極和廣闊。隨著5G通信、物聯(lián)網(wǎng)、邊緣計算和人工智能等技術(shù)的快速發(fā)展,F(xiàn)PGA工程師的需求將進一步增加。FPGA芯片具有可編程性強、并行處理能力強、功耗低等特點,因此在
    的頭像 發(fā)表于 03-14 16:32 ?3296次閱讀

    企業(yè)老工程師和高校老師啥區(qū)別

    電子工程師硬件
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年02月28日 17:50:00
    新葡京官网| 晓游棋牌官方下载| 利都百家乐官网国际娱乐场| 晓游棋牌官方下载| 免佣百家乐规则| 保德县| 大发888体育场| 香港百家乐六合彩| 太原百家乐官网的玩法技巧和规则| 泷泽罗拉种子| 水果老虎机游戏| 澳门百家乐赢钱公式不倒翁| 皇室百家乐官网的玩法技巧和规则| 澳门百家乐官网心德| 星期八百家乐的玩法技巧和规则 | 百家乐官网网上真钱麻将| 赌博堕天录漫画| 大发888有手机版本吗| 百家乐哪条路准| 金道百家乐游戏| 百家乐官网线上游戏| 财神娱乐城打不开| 大发888娱乐城高手| 狮威百家乐娱乐| 百家乐连跳趋势| 百家乐智能分析| 合肥百家乐赌博游戏机| 百家乐官网平一直压庄| 时时博百家乐官网的玩法技巧和规则 | 博发百家乐官网游戏| 裕民县| BET365备用网址| 365赌球| 金都娱乐城| 必胜娱乐场| 富平县| 宝马会百家乐官网现金网| 百家乐官网走势图研究| 尊龙国际网址| 米泉市| 新葡京百家乐官网现金网|