前不久組內(nèi)又有一次我比較期待的分享:”Linux 的虛擬內(nèi)存”。是某天晚上加班時(shí),我們討論虛擬內(nèi)存的概念時(shí),leader 發(fā)現(xiàn)幾位同事對(duì)虛擬內(nèi)存認(rèn)識(shí)不清后,特意給這位同學(xué)挑選的主題(笑)。
之前了解一些操作系統(tǒng)的概念,主要是畢業(yè)后對(duì)自己大學(xué)四年的荒廢比較懊惱,覺(jué)得自己有些對(duì)不起計(jì)算機(jī)專(zhuān)業(yè)出身,于是在工作之余抽出時(shí)間看了哈工大在網(wǎng)易云課堂的操作系統(tǒng)公開(kāi)課,自己也讀了一本講操作系統(tǒng)比較淺的書(shū) 《Linux內(nèi)核設(shè)計(jì)與實(shí)現(xiàn)》,而且去年自己用 C 寫(xiě)簡(jiǎn)單的服務(wù)器時(shí),也追根究底了解了更多的系統(tǒng)底層知識(shí)。多虧了這些知識(shí),讓我對(duì)應(yīng)用層的知識(shí)更有掌控感,也在上次排查問(wèn)題時(shí)助了我一臂之力。
前幾天另一位同事來(lái)問(wèn)另一個(gè)虛擬內(nèi)存相關(guān)的問(wèn)題,我才發(fā)現(xiàn)對(duì)于虛擬內(nèi)存,我的理解還不夠深刻,一些概念還有些矛盾。于是翻一下資料重新整理一下這些知識(shí),希望下次在用到它們時(shí)能更順暢。
由來(lái)
虛擬內(nèi)存
毋庸置疑,虛擬內(nèi)存絕對(duì)是操作系統(tǒng)中最重要的概念之一。我想主要是由于內(nèi)存的重要”戰(zhàn)略地位”。CPU太快,但容量小且功能單一,其他 I/O 硬件支持各種花式功能,可是相對(duì)于 CPU,它們又太慢。于是它們之間就需要一種潤(rùn)滑劑來(lái)作為緩沖,這就是內(nèi)存大顯身手的地方。
而在現(xiàn)代操作系統(tǒng)中,多任務(wù)已是標(biāo)配。多任務(wù)并行,大大提升了 CPU 利用率,但卻引出了多個(gè)進(jìn)程對(duì)內(nèi)存操作的沖突問(wèn)題,虛擬內(nèi)存概念的提出就是為了解決這個(gè)問(wèn)題。
上圖是虛擬內(nèi)存最簡(jiǎn)單也是最直觀的解釋。
操作系統(tǒng)有一塊物理內(nèi)存(中間的部分),有兩個(gè)進(jìn)程(實(shí)際會(huì)更多)P1 和 P2,操作系統(tǒng)偷偷地分別告訴 P1 和 P2,我的整個(gè)內(nèi)存都是你的,隨便用,管夠。可事實(shí)上呢,操作系統(tǒng)只是給它們畫(huà)了個(gè)大餅,這些內(nèi)存說(shuō)是都給了 P1 和 P2,實(shí)際上只給了它們一個(gè)序號(hào)而已。只有當(dāng) P1 和 P2 真正開(kāi)始使用這些內(nèi)存時(shí),系統(tǒng)才開(kāi)始使用輾轉(zhuǎn)挪移,拼湊出各個(gè)塊給進(jìn)程用,P2 以為自己在用 A 內(nèi)存,實(shí)際上已經(jīng)被系統(tǒng)悄悄重定向到真正的 B 去了,甚至,當(dāng) P1 和 P2 共用了 C 內(nèi)存,他們也不知道。
操作系統(tǒng)的這種欺騙進(jìn)程的手段,就是虛擬內(nèi)存。對(duì) P1 和 P2 等進(jìn)程來(lái)說(shuō),它們都以為自己占用了整個(gè)內(nèi)存,而自己使用的物理內(nèi)存的哪段地址,它們并不知道也無(wú)需關(guān)心。
分頁(yè)和頁(yè)表
虛擬內(nèi)存是操作系統(tǒng)里的概念,對(duì)操作系統(tǒng)來(lái)說(shuō),虛擬內(nèi)存就是一張張的對(duì)照表,P1 獲取 A 內(nèi)存里的數(shù)據(jù)時(shí)應(yīng)該去物理內(nèi)存的 A 地址找,而找 B 內(nèi)存里的數(shù)據(jù)應(yīng)該去物理內(nèi)存的 C 地址。
我們知道系統(tǒng)里的基本單位都是 Byte 字節(jié),如果將每一個(gè)虛擬內(nèi)存的 Byte 都對(duì)應(yīng)到物理內(nèi)存的地址,每個(gè)條目最少需要 8字節(jié)(32位虛擬地址->32位物理地址),在 4G 內(nèi)存的情況下,就需要 32GB 的空間來(lái)存放對(duì)照表,那么這張表就大得真正的物理地址也放不下了,于是操作系統(tǒng)引入了頁(yè)(Page)的概念。
在系統(tǒng)啟動(dòng)時(shí),操作系統(tǒng)將整個(gè)物理內(nèi)存以 4K 為單位,劃分為各個(gè)頁(yè)。之后進(jìn)行內(nèi)存分配時(shí),都以頁(yè)為單位,那么虛擬內(nèi)存頁(yè)對(duì)應(yīng)物理內(nèi)存頁(yè)的映射表就大大減小了,4G 內(nèi)存,只需要 8M 的映射表即可,一些進(jìn)程沒(méi)有使用到的虛擬內(nèi)存,也并不需要保存映射關(guān)系,而且Linux 還為大內(nèi)存設(shè)計(jì)了多級(jí)頁(yè)表,可以進(jìn)一頁(yè)減少了內(nèi)存消耗。操作系統(tǒng)虛擬內(nèi)存到物理內(nèi)存的映射表,就被稱(chēng)為頁(yè)表。
內(nèi)存尋址和分配
我們知道通過(guò)虛擬內(nèi)存機(jī)制,每個(gè)進(jìn)程都以為自己占用了全部?jī)?nèi)存,進(jìn)程訪問(wèn)內(nèi)存時(shí),操作系統(tǒng)都會(huì)把進(jìn)程提供的虛擬內(nèi)存地址轉(zhuǎn)換為物理地址,再去對(duì)應(yīng)的物理地址上獲取數(shù)據(jù)。CPU 中有一種硬件,內(nèi)存管理單元 MMU(Memory Management Unit)專(zhuān)門(mén)用來(lái)將翻譯虛擬內(nèi)存地址。CPU 還為頁(yè)表尋址設(shè)置了緩存策略,由于程序的局部性,其緩存命中率能達(dá)到 98%。
以上情況是頁(yè)表內(nèi)存在虛擬地址到物理地址的映射,而如果進(jìn)程訪問(wèn)的物理地址還沒(méi)有被分配,系統(tǒng)則會(huì)產(chǎn)生一個(gè)缺頁(yè)中斷,在中斷處理時(shí),系統(tǒng)切到內(nèi)核態(tài)為進(jìn)程虛擬地址分配物理地址。
功能
虛擬內(nèi)存不僅通過(guò)內(nèi)存地址轉(zhuǎn)換解決了多個(gè)進(jìn)程訪問(wèn)內(nèi)存沖突的問(wèn)題,還帶來(lái)更多的益處。
進(jìn)程內(nèi)存管理
它有助于進(jìn)程進(jìn)行內(nèi)存管理,主要體現(xiàn)在:
內(nèi)存完整性:由于虛擬內(nèi)存對(duì)進(jìn)程的”欺騙”,每個(gè)進(jìn)程都認(rèn)為自己獲取的內(nèi)存是一塊連續(xù)的地址。我們?cè)诰帉?xiě)應(yīng)用程序時(shí),就不用考慮大塊地址的分配,總是認(rèn)為系統(tǒng)有足夠的大塊內(nèi)存即可。
安全:由于進(jìn)程訪問(wèn)內(nèi)存時(shí),都要通過(guò)頁(yè)表來(lái)尋址,操作系統(tǒng)在頁(yè)表的各個(gè)項(xiàng)目上添加各種訪問(wèn)權(quán)限標(biāo)識(shí)位,就可以實(shí)現(xiàn)內(nèi)存的權(quán)限控制。
數(shù)據(jù)共享
通過(guò)虛擬內(nèi)存更容易實(shí)現(xiàn)內(nèi)存和數(shù)據(jù)的共享。
在進(jìn)程加載系統(tǒng)庫(kù)時(shí),總是先分配一塊內(nèi)存,將磁盤(pán)中的庫(kù)文件加載到這塊內(nèi)存中,在直接使用物理內(nèi)存時(shí),由于物理內(nèi)存地址唯一,即使系統(tǒng)發(fā)現(xiàn)同一個(gè)庫(kù)在系統(tǒng)內(nèi)加載了兩次,但每個(gè)進(jìn)程指定的加載內(nèi)存不一樣,系統(tǒng)也無(wú)能為力。
而在使用虛擬內(nèi)存時(shí),系統(tǒng)只需要將進(jìn)程的虛擬內(nèi)存地址指向庫(kù)文件所在的物理內(nèi)存地址即可。如上文圖中所示,進(jìn)程 P1 和 P2 的 B 地址都指向了物理地址 C。
而通過(guò)使用虛擬內(nèi)存使用共享內(nèi)存也很簡(jiǎn)單,系統(tǒng)只需要將各個(gè)進(jìn)程的虛擬內(nèi)存地址指向系統(tǒng)分配的共享內(nèi)存地址即可。
SWAP
虛擬內(nèi)存可以讓幫進(jìn)程”擴(kuò)充”內(nèi)存。
我們前文提到了虛擬內(nèi)存通過(guò)缺頁(yè)中斷為進(jìn)程分配物理內(nèi)存,內(nèi)存總是有限的,如果所有的物理內(nèi)存都被占用了怎么辦呢?
Linux 提出 SWAP 的概念,Linux 中可以使用 SWAP 分區(qū),在分配物理內(nèi)存,但可用內(nèi)存不足時(shí),將暫時(shí)不用的內(nèi)存數(shù)據(jù)先放到磁盤(pán)上,讓有需要的進(jìn)程先使用,等進(jìn)程再需要使用這些數(shù)據(jù)時(shí),再將這些數(shù)據(jù)加載到內(nèi)存中,通過(guò)這種”交換”技術(shù),Linux 可以讓進(jìn)程使用更多的內(nèi)存。
常見(jiàn)問(wèn)題
在了解虛擬內(nèi)存時(shí),我也有過(guò)很多的問(wèn)題。
32位和64位
最常見(jiàn)的就是 32位和64位的問(wèn)題了。
CPU 通過(guò)物理總線訪問(wèn)內(nèi)存,那么訪問(wèn)地址的范圍就受限于機(jī)器總線的數(shù)量,在32位機(jī)器上,有32條總線,每條總線有高低兩種電位分別代表 bit 的 1 和 0,那么可訪問(wèn)的最大地址就是 2^32bit = 4GB,所以說(shuō) 32 位機(jī)器上插入大于 4G 的內(nèi)存是無(wú)效的,CPU 訪問(wèn)不到多于 4G 的內(nèi)存。
但 64位機(jī)器并沒(méi)有 64位總線,而且其最大內(nèi)存還要受限于操作系統(tǒng),Linux 目前支持最大 256G 內(nèi)存。
根據(jù)虛擬內(nèi)存的概念,在 32 位系統(tǒng)上運(yùn)行 64 位軟件也并無(wú)不可,但由于系統(tǒng)對(duì)虛擬內(nèi)存地址的結(jié)構(gòu)設(shè)計(jì),64位的虛擬地址在32位系統(tǒng)內(nèi)并不能使用。
直接操作物理內(nèi)存
操作系統(tǒng)使用了虛擬內(nèi)存,我們想要直接操作內(nèi)存該怎么辦呢?
Linux 會(huì)將各個(gè)設(shè)備都映射到/dev/目錄下的文件,我們可以通過(guò)這些設(shè)備文件直接操作硬件,內(nèi)存也不例外。在 Linux 中,內(nèi)存設(shè)置被映射為/dev/mem,root 用戶通過(guò)對(duì)這個(gè)文件讀寫(xiě),可以直接操作內(nèi)存。
JVM 進(jìn)程占用虛擬內(nèi)存過(guò)多
使用 TOP 查看系統(tǒng)性能時(shí),我們會(huì)發(fā)現(xiàn)在 VIRT 這一列,Java 進(jìn)程會(huì)占用大量的虛擬內(nèi)存。
導(dǎo)致這種問(wèn)題的原因是 Java 使用 Glibc 的 Arena 內(nèi)存池分配了大量的虛擬內(nèi)存并沒(méi)有使用。此外,Java 讀取的文件也會(huì)被映射為虛擬內(nèi)存,在虛擬機(jī)默認(rèn)配置下 Java 每個(gè)線程棧會(huì)占用 1M 的虛擬內(nèi)存。具體可以查看為什么linux下多線程程序如此消耗虛擬內(nèi)存。
而真實(shí)占用的物理內(nèi)存要看RES(resident) 列,這一列的值才是真正被映射到物理內(nèi)存的大小。
常用管理命令
我們也可以自己來(lái)管理 Linux 的虛擬內(nèi)存。
查看系統(tǒng)內(nèi)存狀態(tài)
查看系統(tǒng)內(nèi)存情況的方式有很多,free、vmstat等命令都可輸出當(dāng)前系統(tǒng)的內(nèi)存狀態(tài),需要注意的是可用內(nèi)存并不只是 free 這一列,由于操作系統(tǒng)的 lazy 特性,大量的 buffer/cache 在進(jìn)程不再使用后,不會(huì)被立即清理,如果之前使用它們的進(jìn)程再次運(yùn)行還可以繼續(xù)使用,它們?cè)诒匾獣r(shí)也是可以被利用的。
此外,通過(guò)cat /proc/meminfo可以查看系統(tǒng)內(nèi)存被使用的詳細(xì)情況,包括臟頁(yè)狀態(tài)等。詳情可參見(jiàn):/PROC/MEMINFO之謎。
pmap
如果想單獨(dú)查看某一進(jìn)程的虛擬內(nèi)存分布情況,可以使用pmap pid命令,它會(huì)把虛擬內(nèi)存各段的占用情況從低地址到高地址都列出來(lái)。
可以添加-XX參數(shù)來(lái)輸出更詳細(xì)的信息。
修改內(nèi)存配置
我們也可以修改 Linux 的系統(tǒng)配置,使用sysctl vm [-options] CONFIG或 直接讀寫(xiě)/proc/sys/vm/目錄下的文件來(lái)查看和修改配置。
SWAP 操作
虛擬內(nèi)存的 SWAP 特性并不總是有益,放任進(jìn)程不停地將數(shù)據(jù)在內(nèi)存與磁盤(pán)之間大量交換會(huì)極大地占用 CPU,降低系統(tǒng)運(yùn)行效率,所以有時(shí)候我們并不希望使用 swap。
我們可以修改vm.swappiness=0來(lái)設(shè)置內(nèi)存盡量少使用 swap,或者干脆使用swapoff命令禁用掉 SWAP。
小結(jié)
虛擬內(nèi)存的概念非常容易理解,但是它會(huì)衍生出來(lái)的一系列非常復(fù)雜的知識(shí)。本文只講了些基本原理,略過(guò)了很多細(xì)節(jié),比如虛擬內(nèi)存尋址中段寄存器的使用,操作系統(tǒng)使用虛擬內(nèi)存增強(qiáng)緩存、緩沖區(qū)的應(yīng)用等,有機(jī)會(huì)單獨(dú)拿出來(lái)說(shuō)。
責(zé)任編輯:lq6
-
Linux
+關(guān)注
關(guān)注
87文章
11345瀏覽量
210378 -
虛擬內(nèi)存
+關(guān)注
關(guān)注
0文章
77瀏覽量
8084
原文標(biāo)題:Linux虛擬內(nèi)存,你理解到位了嗎?
文章出處:【微信號(hào):gh_c472c2199c88,微信公眾號(hào):嵌入式微處理器】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論