吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DPDK內存的基本概念

Linux閱碼場 ? 來源:DPDK與SPDK開源社區 ? 作者:Anatoly Burakov ? 2020-10-26 10:03 ? 次閱讀

作者簡介:Anatoly Burakov,英特爾軟件工程師

目前在維護DPDK中的VFIO和內存子系統

引言

內存管理是數據面開發套件(DPDK)的一個核心部分,以此為基礎,DPDK的其他部分和用戶應用得以發揮其最佳性能。本系列文章將詳細介紹DPDK提供的各種內存管理的功能。

但在此之前,有必要先談一談為何DPDK中內存管理要以現有的方式運作,它背后又有怎樣的原理,再進一步探討DPDK具體能夠提供哪些與內存相關的功能。本文將先介紹DPDK內存的基本原理,并解釋它們是如何幫助DPDK實現高性能的。

請注意,雖然DPDK支持FreeBSD,而且也會有正在運行的Windows端口,但目前大多數與內存相關的功能僅適用于Linux*。

標準大頁

現代CPU架構中,內存管理并不以單個字節進行,而是以頁為單位,即虛擬和物理連續的內存塊。這些內存塊通常(但不是必須) 存儲在RAM中。在英特爾64和IA-32架構上,標準系統的頁面大小為4KB。

基于安全性和通用性的考慮,軟件的應用程序訪問的內存位置使用的是操作系統分配的虛擬地址。運行代碼時,該虛擬地址需要被轉換為硬件使用的物理地址。這種轉換是操作系統通過頁表轉換來完成的,頁表在分頁粒度級別上(即4KB一個粒度)將虛擬地址映射到物理地址。為了提高性能,最近一次使用的若干頁面地址被保存在一個稱為轉換檢測緩沖區(TLB)的高速緩存中。每一分頁都占有TLB的一個條目。如果用戶的代碼訪問(或最近訪問過)16 KB的內存,即4頁,這些頁面很有可能會在TLB緩存中。

如果其中一個頁面不在TLB緩存中,嘗試訪問該頁面中包含的地址將導致TLB查詢失敗;也就是說,操作系統寫入TLB的頁地址必須是在它的全局頁表中進行查詢操作獲取的。因此,TLB查詢失敗的代價也相對較高(某些情況下代價會非常高),所以最好將當前活動的所有頁面都置于TLB中以盡可能減少TLB查詢失敗。

然而,TLB的大小有限,而且實際上非常小,和DPDK通常處理的數據量(有時高達幾十GB)比起來,在任一給定的時刻,4KB 標準頁面大小的TLB所覆蓋的內存量(幾MB)微不足道。這意味著,如果DPDK采用常規內存,使用DPDK的應用會因為TLB頻繁的查詢失敗在性能上大打折扣。

為解決這個問題,DPDK依賴于標準大頁。從名字中很容易猜到,標準大頁類似于普通的頁面,只是會更大。有多大呢?在英特爾64和1A-32架構上,目前可用的兩種大頁大小為2MB和1GB。也就是說,單個頁面可以覆蓋2 MB或1 GB大小的整個物理和虛擬連續的存儲區域。

圖1. TLB內存覆蓋量比較

這兩種頁面大小DPDK都可以支持。有了這樣的頁面大小,就可以更容易覆蓋大內存區域,也同時避免(同樣多的)TLB查詢失敗。反過來,在處理大內存區域時,更少的TLB查詢失敗也會使性能得到提升,DPDK的用例通常如此。

將內存固定到NUMA節點

當分配常規內存時,理論上,它可以被分配到RAM中的任何位置。這在單CPU系統上沒有什么問題,但是許多DPDK用戶是在支持非統一內存訪問 (NUMA) 的多CPU系統上運行應用的。對于NUMA來說,所有內存都是不同的:某一個CPU對一些內存的訪問(如不在該CPU所屬NUMA NODE上的內存)將比其他內存訪問花費更長的時間,這是由于它們相對于執行所述內存訪問的CPU所在的物理位置不同。進行常規內存分配時,通常無法控制該內存分配到哪里,因此如果DPDK在這樣的系統上使用常規內存,就可能會導致以下的情況:在一個CPU上執行的線程卻在無意中訪問屬于非本地NUMA節點的內存。

圖2. 理想的NUMA節點分配

雖然這種跨NUMA節點訪問在所有現代操作系統上都比較少有,因為這樣的訪問都是都是NUMA感知的,而且即使沒有DPDK還是有方法能對內存實施NUMA定位。但是DPDK帶來的不僅僅是NUMA感知,事實上,整個DPDK API的構建都旨在為每個操作提供明確的NUMA感知。如果不明確請求NUMA節點訪問(其中所述結構必須位于內存中),通常無法分配給定的DPDK數據結構。

DPDK API提供的這種明確的NUMA感知有助于確保用戶應用在每個操作中都能考慮到NUMA感知;換句話說,DPDK API可以減少寫出編寫性能差的代碼的可能性。

硬件、物理地址和直接內存存取(DMA

DPDK被認為是一組用戶態的網絡包輸入/輸出庫,到目前為止,它基本上保持了最初的任務聲明。但是,電腦上的硬件不能處理用戶空間的虛擬地址,因為它不能感知任何用戶態的進程和其所分配到的用戶空間虛擬地址。相反,它只能訪問真實的物理地址上的內存,也就是CPU、RAM和系統所有其他的部分用來相互通信的地址。

出于對效率的考量,現代硬件幾乎總是使用直接內存存取(DMA)事務。通常,為了執行一個DMA事務,內核需要參與創建一個支持DMA的存儲區域,將進程內虛擬地址轉換成硬件能夠理解的真實物理地址,并啟動DMA事務。這是大多數現代操作系統中輸入輸出的工作方式;然而,這是一個耗時的過程,需要上下文切換、轉換和查找操作,這不利于高性能輸入/輸出。

DPDK的內存管理以一種簡單的方式解決了這個問題。每當一個內存區域可供DPDK使用時,DPDK就通過詢問內核來計算它的物理地址。由于DPDK使用鎖定內存,通常以大頁的形式,底層內存區域的物理地址預計不會改變,因此硬件可以依賴這些物理地址始終有效,即使內存本身有一段時間沒有使用。然后,DPDK會在準備由硬件完成的輸入/輸出事務時使用這些物理地址,并以允許硬件自己啟動DMA事務的方式配置硬件。這使DPDK避免不必要的開銷,并且完全從用戶空間執行輸入/輸出。

IOMMU和IOVA

默認情況下,任何硬件都可以訪問整個系統,因此它可以在任何地方執行DMA 事務。這有許多安全隱患。例如,流氓和/或不可信進程(包括在VM (虛擬機)內運行的進程)可能使用硬件設備來讀寫內核空間,和幾乎其他任何存儲位置。為了解決這個問題,現代系統配備了輸入輸出內存管理單元(IOMMU)。這是一種硬件設備,提供DMA地址轉換和設備隔離功能,因此只允許特定設備執行進出特定內存區域(由IOMMU指定)的DMA 事務,而不能訪問系統內存地址空間的其余部分。

由于IOMMU的參與,硬件使用的物理地址可能不是真實的物理地址,而是IOMMU分配給硬件的(完全任意的)輸入輸出虛擬地址(IOVA)。一般來說,DPDK社區可以互換使用物理地址和IOVA這兩個術語,但是根據上下文,這兩者之間的區別可能很重要。例如,DPDK 17.11和更新的DPDK長期支持(LTS)版本在某些情況下可能根本不使用實際的物理地址,而是使用用戶空間虛擬地址(甚至完全任意的地址)來實現DMA。IOMMU負責地址轉換,因此硬件永遠不會注意到兩者之間的差異。

圖3 .IOMMU將物理地址重新映射到IOVA地址的示例

根據DPDK的初始化方式,IOVA地址可能代表也可能不代表實際的物理地址,但有一點始終是正確的:DPDK知道底層內存布局,因此可以利用這一點。例如,它可以以創建IOVA連續虛擬區域的方式映射頁面,或者甚至利用IOMMU來重新排列內存映射,以使內存看起來IOVA連續,即使底層物理內存可能不連續。

因此,這種對底層物理內存區域的感知是DPDK工具包中的又一個利器。大多數數據結構不關心IOVA地址,但當它們關心時,DPDK為軟件和硬件提供了利用物理內存布局的工具,并針對不同的用例進行優化。

請注意,IOMMU不會自行設置任何映射。相反,平臺、硬件和操作系統必須進行配置,來使用IOMMU。這種配置說明超出了本系列文章的范圍,但是在DPDK文檔和其他地方有相關說明。一旦系統和硬件設置為使用IOMMU,DPDK就可以使用IOMMU為DPDK分配的任何內存區域設置DMA映射。使用IOMMU是運行DPDK的推薦方法,因為這樣做更安全,并且它提供了可用性優勢。

內存分配和管理

DPDK不使用常規內存分配函數,如malloc()。相反,DPDK管理自己的內存。更具體地說,DPDK分配大頁并在此內存中創建一個堆(heap)并將其提供給用戶應用程序并用于存取應用程序內部的數據結構。

使用自定義內存分配器有許多優點。最明顯的一個是終端應用程序的性能優勢:DPDK創建應用程序要使用的內存區域,并且應用程序可以原生支持大頁、NUMA節點親和性、對DMA地址的訪問、IOVA連續性等等性能優勢,而無需任何額外的開發。

DPDK內存分配總是在CPU高速緩存行(cache line)的邊界上對齊,每個分配的起始地址將是系統高速緩存行大小的倍數。這種方法防止了許多常見的性能問題,例如未對齊的訪問和錯誤的數據共享,其中單個高速緩存行無意中包含(可能不相關的)多個內核同時訪問的數據。對于需要這種對齊的用例(例如,分配硬件環結構),也支持任何其他二次冪值 (當然> =高速緩存行大小)。

DPDK中的任何內存分配也是線程安全的。這意味著在任何CPU核心上發生的任何分配都是原子的,不會干擾任何其他分配。這可能看起來很無足輕重 (畢竟,常規glibc內存分配例程通常也是線程安全的),但是一旦在多處理環境中考慮,它的重要性就會變得更加清晰。

DPDK支持特定風格的協同多處理,其中主進程管理所有DPDK資源,多個輔助進程可以連接到主進程,并共享由主進程管理的資源的訪問。

DPDK的共享內存實現不僅通過映射不同進程中的相同資源 (類似于shmget () 機制) 來實現,還通過復制另一個進程中主進程的地址空間來實現。因此,由于兩個進程中的所有內容都位于相同的地址,指向DPDK內存對象的任何指針都將跨進程工作,無需任何地址轉換。這對于跨進程傳遞數據時的性能非常重要。

表1. 操作系統和DPDK分配器的比較

內存池

DPDK也有一個內存池管理器,在整個DPDK中廣泛用于管理大型對象池,對象大小固定。它的用途很多——包輸入/輸出、加密操作、事件調度和許多其他需要快速分配或解除分配固定大小緩沖區的用例。DPDK內存池針對性能進行了高度優化,并支持可選的線程安全(如果用戶不需要線程安全,則無需為之付費)和批量操作,所有這些都會導致每個緩沖區的分配或空閑操作周期計數達到兩位數以下。

也就是說,即使DPDK內存池的主題出現在幾乎所有關于DPDK內存管理的討論中,從技術上講,內存池管理器是一個建立在常規DPDK內存分配器之上的庫。它不是標準DPDK內存分配工具的一部分,它的內部工作與DPDK內存管理例程完全分離 (并且非常不同) 。因此,這超出了本系列文章的范圍。但是,有關DPDK內存池管理器庫的更多信息可以在DPDK文檔中找到。

結論

本文介紹了構成DPDK內存管理子系統基礎的許多核心原理,并證明了DPDK的高性能并不是偶然,而是其體系架構的必然結果。

本系列接下來的文章將深入探討IOVA尋址及其在DPDK中的使用;以歷史的視角,回顧DPDK長期支持(LTS)版本17.11及更早版本中提供的內存管理功能;同時也會介紹18.11及更高版本DPDK版本中做出的更改和提供的新功能。

文章轉載自DPDK與SPDK開源社區

原文標題:DPDK內存篇(一): 基本概念

文章出處:【微信公眾號:Linuxer】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10904

    瀏覽量

    213023
  • 內存
    +關注

    關注

    8

    文章

    3055

    瀏覽量

    74331
  • DPDK
    +關注

    關注

    0

    文章

    13

    瀏覽量

    1745

原文標題:DPDK內存篇(一): 基本概念

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    了解虛擬電廠的基本概念

    虛擬電廠的基本概念: 虛擬電廠是一種基于現代信息技術和能源互聯網的能源管理模式,它將分散的、可再生能源和儲能設備通過虛擬化技術進行集成和管理,形成一個具有集中調度、統一運營和優化控制的虛擬化電力系統
    的頭像 發表于 12-24 17:12 ?218次閱讀
    了解虛擬電廠的<b class='flag-5'>基本概念</b>

    Linux應用編程的基本概念

    Linux應用編程涉及到在Linux環境下開發和運行應用程序的一系列概念。以下是一些涵蓋Linux應用編程的基本概念。
    的頭像 發表于 10-24 17:19 ?291次閱讀

    X電容和Y電容的基本概念

    在電子電路中,電容器是一種至關重要的元件,它用于儲存電荷并在電路中釋放能量。而在眾多的電容器中,X電容和Y電容作為安規電容,因其特定的應用場景和安全性能而受到廣泛關注。本文將對X電容和Y電容的基本概念、工作原理、應用場景以及選擇和維護等方面進行詳細介紹。
    的頭像 發表于 10-21 16:43 ?3043次閱讀

    前端總線與內存頻率怎么配

    前端總線(FSB)與內存頻率的配合是確保計算機系統穩定運行并發揮最佳性能的關鍵因素之一。以下是對前端總線與內存頻率配合關系的介紹: 一、前端總線與內存頻率的基本概念 前端總線 :前端總
    的頭像 發表于 10-12 09:10 ?386次閱讀

    集電極開路的基本概念與原理

    在集成電路的廣闊領域中,集電極開路作為一種獨特的輸出形式,扮演著舉足輕重的角色。它如同一個精密控制的開關,既能實現電路的通斷,又能靈活應對不同的電流需求。 集電極開路的基本概念與原理 集電極開路
    的頭像 發表于 09-19 10:19 ?717次閱讀
    集電極開路的<b class='flag-5'>基本概念</b>與原理

    DDR4的基本概念和特性

    里程碑。自2011年面世以來,DDR4憑借其顯著的性能提升和能效優化,迅速成為市場主流。以下將從DDR4的基本概念、技術特性、性能優勢以及市場應用等方面進行詳細闡述。
    的頭像 發表于 09-04 11:43 ?2839次閱讀

    伺服系統基本概念和與變頻的關系

    伺服系統的基本概念是準確、精確、快速定位。這一概念貫穿于伺服系統的設計理念和運行機制中。為了實現這一目標,伺服系統采用了多種先進的控制策略和技術手段。其中,變頻技術是伺服控制的一個必不可少的內部環節
    的頭像 發表于 08-27 15:59 ?508次閱讀

    socket的基本概念和原理

    的通信。它是一個抽象的概念,用于表示網絡中的一個通信實體。在計算機網絡中,Socket允許應用程序通過網絡發送和接收數據。Socket的概念最早由UNIX操作系統引入,后來被廣泛應用于各種操作系統和編程語言中。 2. Socket的基本
    的頭像 發表于 08-16 10:51 ?1416次閱讀

    BP網絡的基本概念和訓練原理

    )的多層前饋神經網絡。BP網絡自1985年提出以來,因其強大的學習和適應能力,在機器學習、數據挖掘、模式識別等領域得到了廣泛應用。以下將對BP網絡的基本概念、訓練原理及其優缺點進行詳細闡述。
    的頭像 發表于 07-19 17:24 ?1854次閱讀

    卷積神經網絡的基本概念、原理及特點

    基本概念、原理、特點以及在不同領域的應用情況。 一、卷積神經網絡的基本概念 卷積神經網絡是一種深度學習算法,它由多層卷積層和池化層堆疊而成。卷積層負責提取圖像中的局部特征,而池化層則負責降低特征的空間維度,同時增加對圖像位移的不變性。通過這種方式,CNN能夠自
    的頭像 發表于 07-11 14:38 ?1343次閱讀

    循環神經網絡的基本概念

    循環神經網絡的基本概念、循環機制、長短時記憶網絡(LSTM)、門控循環單元(GRU)等方面進行介紹。 循環神經網絡的基本概念 循環神經網絡是一種時間序列模型,其基本思想是將序列數據中的每個元素(例如,單詞、時間點等)作為輸入,通過循環結構將前一個時間步的
    的頭像 發表于 07-04 14:31 ?817次閱讀

    組合邏輯控制器的基本概念、實現原理及設計方法

    廣泛應用于計算機、通信、控制等領域。 本文將詳細介紹組合邏輯控制器的基本概念、實現原理、設計方法、應用場景等方面的內容,以幫助讀者全面了解組合邏輯控制器。 基本概念 1.1 組合邏輯 組合邏輯(Combinatorial Logic)是一種數字邏輯,它根據輸入信號的當前狀
    的頭像 發表于 06-30 10:26 ?2427次閱讀

    串口通信的基本概念

    串口通信(Serial Communications)的基本概念可以歸納為以下幾個方面:
    的頭像 發表于 06-12 09:28 ?858次閱讀
    串口通信的<b class='flag-5'>基本概念</b>

    斬波器的基本概念和工作原理

    各種電子設備對電源的需求。本文將詳細介紹斬波器的基本概念、工作原理及其應用,以期為讀者提供全面的了解和認識。
    的頭像 發表于 05-24 16:08 ?3492次閱讀

    萬用表的基本概念及結構組成

    在電子測試領域,萬用表被譽為“全能戰士”。其強大的功能和廣泛的應用使其成為電子工程師、維修人員和技術人員不可或缺的測量工具。本文將詳細介紹萬用表的基本概念、結構組成以及應用,帶您領略萬用表的獨特魅力。
    的頭像 發表于 05-10 15:05 ?1770次閱讀
    永利高百家乐官网网址| 百家乐玩法和技巧| 波音百家乐现金网投注平台排名导航| 青岛棋牌英雄| 澳门百家乐官网现场游戏| 百家乐贴| 星期八娱乐城官网| 澳门百家乐游戏皇冠网| 金宝博备用网址| 澳门百家乐官网文章| 曼哈顿百家乐的玩法技巧和规则 | 赤壁百家乐官网娱乐城| 威尼斯人娱乐下载平台| 澳门百家乐官网才能| 太阳百家乐路单生| 百家乐官网真人游戏投注网| 澳门玩百家乐的玩法技巧和规则| 温州百家乐官网真人网| 立即博百家乐的玩法技巧和规则| 百家乐官网最好的平台是哪个| 百家乐网站| 怎么看百家乐官网路单| 大发888娱乐场是真是假| 路虎百家乐官网的玩法技巧和规则 | 威尼斯人娱乐信誉| 百家乐官网英皇娱乐网| 大发888手机版亚洲城| 百家乐官网技巧平注常赢法| 新运博娱乐| 百家乐玄机| 百家乐官网的方法和公式| 威尼斯人娱乐城会员注册| 百家乐游戏机压法| 百家乐官网真钱娱乐| JJ百家乐的玩法技巧和规则| 娱百家乐官网下载| 365足球| 百家乐保证赢| 南宁百家乐官网赌机| k7娱乐城官网| 最好的百家乐好评平台都有哪些|