virtio基礎篇
1. virtio的提出
系統虛擬化技術是云計算最重要的核心技術之一。云計算平臺的資源池化,資源統一管理以及后續的動態分配都是基于系統虛擬化技術才得以實現的。在計算機系統中,主要有計算資源,存儲資源和網絡資源。所以,系統虛擬化技術又可以細分為計算虛擬化,存儲虛擬化和網絡虛擬化。其中存儲設備和網絡設備一般都是以外設的形式和CPU通過I/O總線連接起來的,所以存儲虛擬化和網絡虛擬化又可以統一歸類為I/O虛擬化技術。我們這里介紹的virtio就是當前最流行的I/O虛擬化技術。I/O虛擬化技術可以分成兩種,一種是全虛擬化,另外一種是半虛擬化。
全虛擬化:Guest OS不知道自己是虛擬機,所以也就不需要修改Guest OS的驅動程序。這樣Guest OS移植性好,但是虛擬機的I/O性能不高。
半虛擬化:Guest OS知道自己是虛擬機,通過前端驅動和后端模擬設備互相配合實現IO虛擬化。和全虛擬化相比,半虛擬化技術可以幫助大幅度提高虛擬機I/O的性能。目前在云計算場景中廣泛使用的就是virtio在Linux上的具體實現,而且virtio已經成為虛擬化I/O技術的抽象接口規范和事實標準,即使非Linux系統也可以適用。
2. virtio總體設計思想
virtio的總體設計思想可以概括為以下四點:直觀,高效,標準化,可擴展。1) 直觀:virtio設備被設計的和之前的硬件設備一樣,支持常用的總線機制,比如中斷和DMA。這樣的設計使得驅動開發人員能夠快速上手,完成virtio設備驅動的開發。2) 高效:virtio設備能支持單獨的輸入和輸出通道,在大量數據傳送的時候也能保持高效。3) 標準化:對硬件架構和操作系統環境沒有依賴,支持多種不同總線的傳輸機制(在virtio規范1.1中支持PCI, MMIO和Channel I/O總線。比如在那些不支持PCI的嵌入式設備還可以通過使用MMIO的方式使用virtio)。4) 可擴展:在virtio設備發現和設備初始化的時候通過引入特性位(Feature Bits)標識符實現動態適配的協商機制,能夠保證virtio前端驅動和后端模擬設備之間的兼容性。
3. virtio基本原理
接下來,我們以目前使用最廣泛的QEMU/KVM場景為例子進一步解釋virtio的基本原理。虛擬機在物理主機上是一個QEMU的進程,運行在用戶態。虛擬機內部的virtio前端驅動所申請的緩存被映射到設備空間中,也在QEMU的地址空間里,這樣QEMU就可以通過共享內存的方式對這些緩存進行讀寫操作。通過這樣的方式,實現了virtio前端驅動程序(虛擬機Linux內核的驅動)和后端模擬設備(QEMU后端設備模擬程序)之間數據傳輸的零復制,進而大幅度提高了虛擬機的I/O性能。
virtio前后端在QEMU/KVM中的實現
virtio在虛QEMU擬機內核中實現了前端驅動,在QEMU中實現了后端模擬設備,前后端之間通過虛擬隊列(Virtqueue)通信交換數據。針對不同的總線機制,virtio設備有不同的實現方式,因為PCI設備是最廣泛使用的設備,所以我們以virtio的PCI網卡為例子進行講解。virtio-net前后端的實現如圖2所表示。
圖[1]。 virtio-net前后端在QEMU/KVM中的實現
virtio設備發現和初始化
在虛擬機啟動之后,virtio前端驅動會把自己標識成一個PCI設備,其中包括PCI廠家標識符,PCI設備標識符。這樣虛擬機的內核可以基于這個標識符判斷使用哪種驅動程序。因為虛擬機中的Linux內核已經包括了virtio驅動程序,所以virtio驅動會被調用去初始化這個virtio設備。除了完成PCI設備通常的初始化操作之外,virtio前端驅動還在初始化的過程中和后端設備模擬程序協商特性位(Feature Bits),并把最終的結果記錄在設備狀態(Device Status)中。具體的實現代碼可以參考內核代碼在linux-3.10.0-957.1.3.el7/drivers/virtio/virtio.c中的virtio_dev_probe()函數,如圖2所示。
圖2. virtio設備初始化,協商特性并最終設置設備狀態位這里有兩個比較重要的數據結構需要介紹一下。
特性位(Feature Bits),用來表示設備所能支持的特性。在virtio設備初始化的時候,驅動會去讀取特性位,并且告訴設備哪些是它能接受特性。如果后端模擬設備升級了,使能了某個新特性,但是虛擬機里面的驅動還不能識別的話,那么兩者就是通過特性進行協商。
設備狀態位(Device Status),用來表示設備的當前狀態。在virtio設備發現,初始化和特性協商的過程中,都可以查看設備狀態位的方式查看virtio設備的狀態。比如,virtio_CONFIG_S_FEATURES_OK表示特性協商成功,virtio_CONFIG_S_DRIVER_OK表示驅動已經配置成功。
virtio網卡發送數據處理過程
虛擬隊列(Virtqueue)是被用來在virtio前端驅動和virtio后端模擬設備之間雙向數據傳輸的數據結構。每個virtio設備都維護著一個或者多個虛擬隊列。以virtio網絡設備為例,它至少維護兩個虛擬隊列,一個用來存儲要發送的數據,一個用來存儲接收的收據。每個虛擬隊列數據結構都由三部分組成,分別是descriptor table,available ring和used ring。
descriptor table用來描述一組緩存,是virtio前端驅動創建的。和緩存相關的信息主要是物理地址和長度;緩存數組的數量是有隊列大小(Queue Size)決定的;
available ring是給virtio前端驅動給virtio后端模擬設備傳輸數據時使用的,比如虛擬機用virtio-net設備發送數據的時候,所發送的數據就會先緩存在這里,再通知virtio后端模擬設備來讀??;也就是說available ring的緩存,只能讓前端寫,后端讀;
used ring是給virtio后端模擬設備給virtio前端驅動傳輸數據時使用的,比如virtio后端模擬設備從tap網絡接口收到數據之后,會把收到的數據緩存到這里,再通知virtio前端驅動程序;也就是說used ring的緩存,只能讓后端寫,前端讀;
圖3. Virtio規范中虛擬隊列的定義
圖4. used ring和available ring在virtio規范中的定義
下面我們以虛擬機發送數據為例,結合Linux 3.10和QEMU1.5的代碼實現,詳細說明一下在QEMU/KVM場景下具體的實現過程。
virtio前端驅動填充數據包,并發出通知
QEMU虛擬機內的virtio網卡驅動在初始化的時候,會和其他的網絡驅動一樣注冊發送函數xmit_skb()。具體的實現如圖5,6所示,所以虛擬機內的virtio網卡發送數據的時候,會調用預先注冊的函數xmit_skb()。要發送的數據會調用virtqueue_add_outbuf()放置在available ring中。最終在virtqueue_add_outbuf()函數中,會調用virtqueue_kick()函數,并進一步調用virtqueue_notify()函數。在virtqueue_notify()函數中,如圖7所表示的virtio前端通過I/O寫寄存器的方式通知virtio后端模擬設備。這部分前端驅動的代碼在drivers/virtio/virtio_ring.c中。
圖5. virtio設備發送數據報文
圖6. virtio前端驅動通知QEMU
圖7. virtio通知函數最終會寫寄存器
KVM截獲I/O后通知后端
虛擬機virtio前端驅動程序發送通知的函數最終是執行I/O寫指令。在QEMU/KVM環境中,虛擬機執行I/O指令,會觸發VMExit。在KVM的VMExit代碼中會判斷退出的原因,I/O操作對應的處理函數是handle_io(),具體的代碼在linux-3.10.0-957.1.3.el7/arch/x86/kvm/vmx.c,如圖8所示。最終再經由KVM通知到QEMU中的virtio-net后端模擬設備,其中還涉及到KVM和eventfd等通信機制,因限于篇幅在這里不詳細描述了。
圖8. KVM中處理I/O操作導致的VMExit代碼
virtio后端模擬設備處理通知
如圖8所表示的,在接收到來自KVM的通知之后,QEMU后端設備模擬程序會調用virtio_queue_host_notifier_read()函數,進而調用預先注冊的函數virtio_ioprt_write()處理來自前端驅動的I/O寫操作。在接收到前端發來的通知之后,會調用virtio_queue_notify()函數進行處理。在接收網絡數據包的時候,virtio_queue_notify()會再進一步調用virtio-net網絡設備注冊的數據包接收函數virtio_net_handle_rx()。如圖9所表示的,在qemu_flush_queued_packets()中,QEMU會把數據復制到對應的隊列中(QEMU中對應后端的不同tap都維護著不同的隊列),之后再調用qemu_notify_event()通知virtio前端,最終會調用kvm_set_irq()觸發vCPU的中斷的方式通知virtio前端。
圖9. virtio后端設備接收通知后的處理
圖10. virtio-net預先注冊的數據報接收函數
圖
原文標題:孫雷: 虛擬化之——virtio-net基礎篇
文章出處:【微信公眾號:Linuxer】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
云計算
+關注
關注
39文章
7860瀏覽量
137871 -
虛擬化
+關注
關注
1文章
381瀏覽量
29856
原文標題:孫雷: 虛擬化之——virtio-net基礎篇
文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論