2013博彩开户送体验金,金皇冠百家乐 ,大白菜全迅网lm0(中国)·官方网站

我們知道，大部分Spark計算都是在內存中完成的，所以Spark的瓶頸一般來自于集群（standalone， yarn， mesos， k8s）的資源緊張，CPU，網絡帶寬，內存。Spark的性能，想要它快，就得充分利用好系統資源，尤其是內存和CPU。有時候我們也需要做一些優化調整來減少內存占用，例如將小文件進行合并的操作。

一、問題現象

我們有一個15萬條總數據量133MB的表，使用SELECT * FROM bi.dwd_tbl_conf_info全表查詢耗時3min，另外一個500萬條總數據量6.3G的表ods_tbl_conf_detail，查詢耗時23秒。兩張表均為列式存儲的表。

大表查詢快，而小表反而查詢慢了，為什么會產生如此奇怪的現象呢？

二、問題探詢

數據量6.3G的表查詢耗時23秒，反而數據量133MB的小表查詢耗時3min，這非常奇怪。我們收集了對應的建表語句，發現兩者沒有太大的差異，大部分為String，兩表的列數也相差不大。

CREATE TABLE IF NOT EXISTS `bi`。`dwd_tbl_conf_info` （ `corp_id` STRING COMMENT ‘’， `dept_uuid` STRING COMMENT ‘’， `user_id` STRING COMMENT ‘’， `user_name` STRING COMMENT ‘’， `uuid` STRING COMMENT ‘’， `dtime` DATE COMMENT ‘’， `slice_number` INT COMMENT ‘’， `attendee_count` INT COMMENT ‘’， `mr_id` STRING COMMENT ‘’， `mr_pkg_id` STRING COMMENT ‘’， `mr_parties` INT COMMENT ‘’， `is_mr` TINYINT COMMENT ‘R’， `is_live_conf` TINYINT COMMENT ‘’ ） CREATE TABLE IF NOT EXISTS `bi`。`ods_tbl_conf_detail` （ `id` string， `conf_uuid` string， `conf_id` string， `name` string， `number` string， `device_type` string， `j_time` bigint， `l_time` bigint， `media_type` string， `dept_name` string， `UPDATETIME` bigint， `CREATETIME` bigint， `user_id` string， `USERAGENT` string， `corp_id` string， `account` string ）

因為兩張表均為很簡單的SELECT查詢操作，無任何復雜的聚合join操作，也無UDF相關的操作，所以基本確認查詢慢的應該發生的讀表的時候，我們將懷疑的點放到了讀表操作上。通過查詢兩個查詢語句的DAG和任務分布，我們發現了不一樣的地方。

查詢快的表，查詢時總共有68個任務，任務分配比如均勻，平均7~9s左右，而查詢慢的表，查詢時總共1160個任務，平均也是9s左右。如下圖所示：

Spark優化：小文件合并的步驟

至此，我們基本發現了貓膩所在。大表6.3G但文件個數小，只有68個，所以很快跑完了。而小表雖然只有133MB，但文件個數特別多，導致產生的任務特別多，而由于單個任務本身比較快，大部分時間花費在任務調度上，導致任務耗時較長。

那如何才能解決小表查詢慢的問題呢？

三、業務調優

那現在擺在我們面前就存在現在問題：

為什么小表會產生這么小文件已經產生的這么小文件如何合并

帶著這兩個問題，我們和業務的開發人員聊了一個發現小表是業務開發人員從原始數據表中，按照不同的時間切片查詢并做數據清洗后插入到小表中的，而由于時間切片切的比較小，導致這樣的插入次數特別多，從而產生了大量的小文件。

那么我們需要解決的問題就是2個，如何才能把這些歷史的小文件進行合并以及如何才能保證后續的業務流程中不再產生小文件，我們指導業務開發人員做了以下優化：

使用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下歷史的數據。由于DLI做了數據一致性保護，OVERWRITE期間不影響原有數據的讀取和查詢，OVERWRITE之后就會使用新的合并后的數據。合并后全表查詢由原來的3min縮短到9s內完成。原有表修改為分區表，插入時不同時間放入到不同分區，查詢時只查詢需要的時間段內的分區數據，進一步減小讀取數據量。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
10905

瀏覽量
213030
數據庫

數據庫

+關注

關注
7

文章
3848

瀏覽量
64687
SPARK

SPARK

+關注

關注
1

文章
105

瀏覽量
19977

GoTo否認與Grab合并傳聞

印尼網約車巨頭GoTo于當地時間2月4日正式提交文件，明確否認同競爭對手Grab的合并傳聞。該公司強調，在未來12個月內，除實施股票回購計劃外，并無任何重大行動計劃。此前，市場上有消息稱Grab

發表于 02-06 10:08 ?142次閱讀

帶通濾波器的設計步驟與優化方法

帶通濾波器作為信號處理領域的重要組件，其設計步驟與優化方法對于確保濾波器性能滿足特定應用需求至關重要。本文將詳細闡述帶通濾波器的設計步驟，并深入探討優化方法，以期為相關領域的研究者和工

發表于 02-05 16:48 ?59次閱讀

hyper-v文件，hyper-v文件查找的正確步驟和操作方法是什么？

在使用Hyper-V進行虛擬化操作時，準確找到相關文件至關重要。無論是需要對虛擬機進行備份、遷移，還是對其配置進行修改，都離不開對Hyper-V文件的查找。那么，查找Hyper-V文件的正確步

發表于 01-24 14:40 ?99次閱讀

如何優化EPS文件以提高加載速度

用于存儲矢量圖形和位圖圖像的文件格式，它包含了PostScript語言描述的圖形。由于EPS文件可以包含復雜的圖形和圖像數據，因此文件大小通常較大。二、優化前的準備在開始

發表于 10-30 14:32 ?430次閱讀

spark為什么比mapreduce快？

spark為什么比mapreduce快？首先澄清幾個誤區： 1：兩者都是基于內存計算的，任何計算框架都肯定是基于內存的，所以網上說的spark是基于內存計算所以快，顯然是錯誤的 2;DAG計算模型

發表于 09-06 09:45 ?320次閱讀

labview工程文件如何生成exe

生成可執行文件（EXE）是LabVIEW程序開發過程中的一個重要步驟，它允許用戶在沒有安裝LabVIEW的計算機上運行程序。以下是步驟和注意事項： 1. 準備工作在開始生成EXE文件

發表于 09-04 17:09 ?1977次閱讀

ModusToolbox 3.2在c代碼中包含c++代碼的正確步驟是什么？

文件，但要在 main.c 中 #include 它們時會導致構建失敗。將 main.c 重命名為 main.cpp 會導致標準 XMC 庫函數（如 XMC_GPIO_SetMode）中出現許多錯誤。在 c 代碼中包含 c++ 代碼的正確步驟是什么？

發表于 07-23 08:21

spark運行的基本流程

前言：由于最近對spark的運行流程非常感興趣，所以閱讀了《Spark大數據處理：技術、應用與性能優化》一書。通過這本書的學習，了解了spark的核心技術、實際應用場景以及性能

發表于 07-02 10:31 ?477次閱讀

Spark基于DPU的Native引擎算子卸載方案

1.背景介紹 Apache Spark（以下簡稱Spark）是一個開源的分布式計算框架，由UC Berkeley AMP Lab開發，可用于批處理、交互式查詢（Spark SQL）、實時流處理

發表于 06-28 17:12 ?766次閱讀

關于Spark的從0實現30s內實時監控指標計算

前言說起Spark，大家就會自然而然地想到Flink，而且會不自覺地將這兩種主流的大數據實時處理技術進行比較。然后最終得出結論：Flink實時性大于Spark。的確，Flink中的數據計算

發表于 06-14 15:52 ?513次閱讀

電路仿真設計步驟

電路仿真設計是一個涉及多個步驟的過程，其主要目標是通過計算機模擬來預測和優化電路的性能。

發表于 03-29 14:31 ?1540次閱讀

Spark基于DPU Snappy壓縮算法的異構加速方案

Spark 在某些工作負載方面表現得更加優越。換句話說，Spark 啟用了內存分布數據集，除了能夠提供交互式查詢外，它還可以優化迭代工作負載。Spark SQL是

發表于 03-26 17:06 ?865次閱讀

RDMA技術在Apache Spark中的應用

背景介紹在當今數據驅動的時代，Apache?Spark已經成為了處理大規模數據集的首選框架。作為一個開源的分布式計算系統，Spark因其高效的大數據處理能力而在各行各業中廣受歡迎。無論是金融服務

發表于 03-25 18:13 ?1601次閱讀

基于DPU和HADOS-RACE加速Spark 3.x

背景簡介 Apache Spark（下文簡稱Spark）是一種開源集群計算引擎，支持批/流計算、SQL分析、機器學習、圖計算等計算范式，以其強大的容錯能力、可擴展性、函數式API、多語言支持（SQL

發表于 03-25 18:12 ?1425次閱讀

音視頻解碼器優化技巧：提升播放體驗的關鍵步驟

隨著數字多媒體內容的爆炸式增長，音視頻解碼器在現代技術生活中扮演著至關重要的角色。從流暢的在線視頻流播放到高質量的本地文件解碼，解碼器的性能直接影響了我們的觀看體驗。那么，如何優化音視頻解碼器以提升

發表于 02-21 14:45 ?945次閱讀