EVPN已成為現代數據中心架構的標準解決方案。對于終端用戶來說,受益于基于BGP的控制平面所具有的穩定性,EVPN提供了擴展其廣播域的靈活性。但這些增加的益處是以提高配置的復雜性為代價的。
當前所面對的不再是相對固定、簡單,可以通過維護人員直觀分析來發現錯誤的網絡配置。真正的生產性EVPN配置可能包括多個深度嵌套結構,而且隨網絡中的租戶數量成比例增長。
EVPN配置復雜性可以且必須通過適當的自動化解決方案予以解決,這可以減少人為出錯的可能性,而NVIDIA Cumulus Linux正是解決該問題的合適解決方案。但僅有自動化還不夠,錯誤仍然可以通過數據源引入系統,例如配置管理數據庫(CMDB)的人為錯誤。
可觀察性的重要性
這就是為什么對于任何具有合理復雜程度的基礎設施,用戶應該有辦法來采集各類日志、指標,并且調試、輸出、匯總、關聯和處理這些信息,從而嘗試推斷系統的內部狀態。實現這一點的能力通常被稱為系統的“可觀察性”,而且隨著底層基礎設施復雜性的增加,它正變得日益重要。在CNCF云原生環境 中,“可觀察性和分析”部分不斷增長的項目數量已證明了這一全行業趨勢。對此,NVIDIA也持同樣的觀點。
圖 1 數據中心演進
通過NetQ實現的全網可觀察性
長期以來,整個網絡的可觀察性僅限于拓撲視圖——有些圖包括從物理鏈接到L2,L3接口再到控制平面協議等不同層次的細節。但這些代表高層次意圖的圖只有在有人維護時才能保證準確。它們永遠無法反映每個設備中所包含的網絡的實際狀態。NetQ在設計上解決了這些問題并為整個網絡的運行狀態提供了一個統一的觀察窗口。
一方面,NetQ從其遠程代理處收集和匯總多項指標,這些代理可能運行在網絡交換機、通用計算服務器等任何位置。這些指標包括但不限于:接口統計和利用率、LLDP、MAC、ARP/ND和IP路由表、BGP、MLAG和OSPF的控制面狀態,以及用于幫助診斷任一數據平面丟包的故障快照(What Just Happened)事件。
另一方面,NetQ使用這些指標來推斷網絡的內部狀態并作出針對協議的診斷。這些檢查包括從簡單的MTU和鏈路狀態一致性到BGP和EVPN狀態驗證再到端到端連接性測試。
故障排除演示
在這篇文章中,將演示如何使用NetQ來排除一些使用以下拓撲結構的常見配置錯誤。葉節點被配置為MLAG對,并且該結構內部正在運行帶有對稱IRB的EVPN和基于PIM的BUM復制 。
圖 2 NVIDIA 空氣中的拓撲
環境設置
該測試拓撲結構可以在名為NVIDIA Air的云基礎設施模擬平臺上啟動。如要了解更多信息,請參閱《NVIDIA Air用戶指南》。
1、選擇創建模擬、演示市場和使用NetQ的網絡故障排除選項卡。
在接下來的部分中,將討論各種故障排除情景,并展示NetQ如何幫助確定問題的來源。
情景1:服務器01無法與服務器02通信
第一個問題很簡單:兩臺服務器都連接到同一對葉節點交換機上,因此需要檢查的地方僅限于以下幾個方面:
所有服務器鏈接的L1和Bond接口配置
peerlink的MLAG狀態和配置
通過NetQ,只需點擊幾下就可以完成所有這些檢查。
1、在模擬頁面,選擇啟動NetQ,輸入用戶名和密碼
2、在工作臺標題中,選擇驗證并創建一個新的MLAG驗證。
圖 3 情景 1 結果
當驗證完成后,NetQ發現雙宿設備有四個錯誤。對于每一個出現錯誤的檢查,用戶都可以查看更詳細的信息并了解NetQ認為的錯誤是什么。
圖 4 場景# 1 詳細信息
在本情景中,NetQ清楚地指向接口bond1的VLAN配置,現在可以通過登錄和比較兩臺葉節點交換機上的配置來進行快速驗證和糾正。
用戶可按照實驗指導來依次解決問題。
第二個情景涉及VXLAN EVPN結構上的VLAN內通信。這種故障的常用故障排除流程可能涉及以下步驟:
1、確認所有BGP會話都已建立,并且所有對等層的EVPN地址族都已啟用。
2、確認所有四個葉節點交換機上的VLAN至VNI映射是一致的。
3、確保導出和導入所需的Type-2路由使用同一組路由目標。
4、檢查BGP是否被配置為發布所有已配置的VNI。
必須在所有葉節點交換機上比較這些數值。下面將展示用NetQ檢查上述信息有多么簡單。
1、在主工作臺標題選擇選項卡并打開EVPN會話選項卡。
2、在全屏視圖中打開此選項卡,查看所有會話屏幕(圖5)。
情景2:服務器01無法與服務器04通信
圖 5 場景# 2 詳細信息
現在可以在屏幕上看到所有的相關值,這些值以表格的形式呈現并且可以進行排序及過濾以縮小搜索范圍。在該情景中,很容易發現葉節點01/02和葉節點03/04之間Vlan10的VNI映射差異。
用戶可按照實驗指導依次解決問題。
情景3:服務器01無法與服務器05通信
最后一個情景涉及VXLAN EVPN的VLAN間對稱路由。這次,需要驗證的內容有所增加,包括以下額外步驟:
每個VRF的BGP配置和會話狀態
EVPN 5型路由在葉節點交換機之間的傳播
檢查L3 VNI的配置是否一致以及每個MLAG對是否有唯一的Router MAC
L3 VNI到VRF在所有交換機上的映射
通過NetQ EVPN驗證功能,所有這些假設都可以在幾秒鐘內得到驗證。
1、在主工作臺標題中選擇驗證并創建一個新的按需EVPN驗證。幾秒鐘后,用戶即可看到結果(圖6)
圖 6 情景# 3 結果
通過點擊VRF一致性警告,用戶可以清楚地看到錯誤位置。解決問題的時間縮短到幾秒鐘,管理員現在可以繼續糾正葉節點03/04上的VNI至VRF映射。
圖 7 場景# 3 詳細信息
請查看實驗室指南,了解解決這個問題所需的具體指令。
總結
在這篇文章中,展示了NetQ根據管理設備采集的各種指標來分析和推斷網絡狀態的能力。以上三個情景展示了如何利用NetQ的驗證和協議專用選項卡將根本原因分析的時長從幾分鐘或幾小時縮短到幾秒鐘。這些驗證可以按需求運行,也可以定期運行,甚至可以在過去的數據上運行,這是因為所有日志都存儲在一個時間序列數據庫中。
NetQ的能力遠遠超出了這篇文章中所展示和討論的內容,并且其功能還包含設備庫存、軟件生命周期管理、基于閾值的警報以及與第三方平臺(如Slack、PagerDuty和Grafana)的集成。NetQ將繼續擴展并增加更多的功能和第三方集成,在未來為用戶創造更多價值。
關于作者
Michael Kashin 是 NVIDIA 網絡組的解決方案架構師,專注于數據中心、自動化和可觀測性。他對軟件開發、網絡和云本地技術有著濃厚的興趣,并熱衷于利用自己的知識和專長幫助客戶解決業務問題。在 2021 年加入 NVIDIA 之前, Michael 曾為多家技術供應商工作,幫助他們的客戶構建云并開發基礎設施管理軟件。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5076瀏覽量
103722 -
服務器
+關注
關注
12文章
9304瀏覽量
86062 -
數據中心
+關注
關注
16文章
4858瀏覽量
72381
發布評論請先 登錄
相關推薦
評論