從事信息化產業研究多年,身邊不乏熟悉的IT技術廠商。在與他們的技術專家交流過程中經常會聊到產品可用性問題。這時他們會說自己的產品有多好,可用性高達“5個9”。那么,“5個9”到底有多牛?
按照年度可用性計算:365天x24小時x60分鐘x99.999%=5.256分鐘。換句話講,他們的產品允許一年非計劃停機時間約為5分鐘,厲害不厲害?當然厲害。可用性夠嗎?我看未必。隨著企業數字化轉型升級,更復雜的業務需求對服務器可用要求將越來越高,甚至根本不允許任何非計劃停機。因此,僅僅是高可用性,其實是滿足不了日趨智能化的工業時代需求。
按照高可用性的定義,本質是允許非計劃內停機出現的,只是盡可能通過技術手段來減少停工時間,保持服務的高度可用性。
目前高可用性對停機劃分分為兩種,一是不可修復系統,系統的平均壽命指系統發生失效前的平均工作(或存儲)時間或工作次數,也稱為系統在失效前的平均時間,記為MTTF(Mean Time To Failure)。二是可修復系統,系統的壽命是指兩次相鄰失效(故障)之間的工作時間,而不是指整個系統的報廢時間。平均壽命即是平均無故障時間,也稱為系統平均失效間隔,記為MTBF(Mean Time Between Failure)。可修復產品的平均修復時間,就是從出現故障到修復中間的這段時間記為MTTR(Mean Time To Repair)平均修復時間。MTTR越短表示易恢復性越好。
那么,容錯性和高可用性有什么區別?容錯性指的是故障容許度(Fault tolerance),是使系統在部分組件(一個或多個)發生故障時仍能正常運作的能力。容錯性能保障即使系統組件出現故障,也能快速的切換到備用系統,并保證系統的正常運營能力。對比高可用性強調恢復能力,容錯性是不允許這種情況發生,其目標是預防故障,做到即使出現故障也能快速切換,保證業務系統正常運行。
在傳統信息化時代,服務器主要承載的是對可用性和可靠性要求不高的業務應用,如ERP、OA、CRM或MES等。隨著智能制造的推進,傳統業務系統向工業現場延伸,服務器正在承擔起越來越多的場景功能,這些場景不僅智能化程度越來越高,計算需求越來越密集,而且對實時性要求也很高。
比如在工業智能化控制系統中根本不允許出現任何故障問題,因為這可能帶來一系列重大工業安全事故。在無人自動化駕駛系統中,時刻需要采集和分析周邊環境數據并進行實時分析,及時反饋到中控系統以保障自動駕駛過程的安全。因此,時代對硬件性能的要求不同了。作為服務器廠商,必須適應由故障恢復到故障預防的趨勢變化,打造容錯性能更好的服務器平臺。
在早期計算機系統不是特別可靠的情況下,為做到故障預防,企業通常采用的是雙機容錯機制,即購買兩臺配置完全一樣的服務器冗余級聯,一旦主機出現故障,就快速切換到從機上,從而保證業務的正常運營。但這種部署方式不僅成本高、效率低,而且實施過程十分復雜,一旦出現斷電等意外情況,就完全無抵抗力。
那么,怎么才能保證在部署成本更低、實施更簡單的前提下,讓系統具備更好的容錯性能?全球容錯技術領導廠商Stratus是這么做的!
上圖是Stratus公司打造的一種全面集成的持續可用性平臺——ftServer,為企業關鍵應用提供更穩定可靠的平臺。
為保障平臺的高可靠性和可用性,ftServer通過部署一對冗余節點,兩個相同的客戶可更換單元(CRU)——其中每一個客戶可更換單元均有自己的處理器、內存和存儲。所有冗余組件和子系統打包為單一系統,從而降低了許可成本并簡化了管理。
Stratus具有獨特的冗余現場可編程門陣列、數據路徑和同步固件,即使硬件組件出現故障,也能夠提供確保持續可用性所需的處理器同步、數據復制和邏輯,系統會在不同節點間自動復制數據。一個節點發生故障時,運行在上面的虛擬機會自動在另一個節點上重啟(高可用性模式)或恢復(容錯模式)。
同時,為增強平臺的兼容性并降低成本,ftServer不僅使用通用化的x86芯片組、DIMM和驅動器,還使用標準分發包裝的操作系統和虛擬化軟件,從而簡化了管理并縮短了價值實現時間。ftServer自動化的自監控、告警、自診斷和補救功能是通過主動服務架構實現的。通過簡化ftServer監控和管理,以及篩選需要釆取行動的問題,Stratus可節省公司時間以及減少工作量。
為盡可能減少停機維護時間,ftServer旨在實現服務性,它的可熱插拔CRU無需關閉系統即可拔下,并且無需使用特殊工具即可更換。這一點以及自動數據重新同步使ftServer適于在遠程制造位置或IT資源有限的位置部署。
對IT硬件系統而言,沒有絕對的可靠性,只有相對的可用性。容錯性的目標是預防故障,可用性的目標是恢復故障,目標雖然不一致,但是殊途同歸。隨著工業智能化時代的開啟,就當前企業需求看,“預防故障”顯然比“故障恢復”更有吸引力,因為在不確定、復雜性的時代,企業更希望能提前掌握不可預知的風險,讓一切可控。
原文標題:觀察|漫談高可用性與容錯性
文章出處:【微信公眾號:工業IoT】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
IT
+關注
關注
2文章
868瀏覽量
63632 -
容錯
+關注
關注
0文章
28瀏覽量
14955
原文標題:觀察|漫談高可用性與容錯性
文章出處:【微信號:IndustryIOT,微信公眾號:工業互聯網前線】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
24位或者說高分辨率的AD到底有什么用呢?
差分輸入和和單端輸入在本質上到底有什么區別?
高鐵站網約車數智出行到底有多智能?
lm2902做的二階低通濾波器,無論怎么調試C1的值,電路的波特圖都保持不變,請問一下C1的作用到底有多大?
無人機智能巡檢系統到底有哪些作用
![無人機智能巡檢系統<b class='flag-5'>到底有</b>哪些作用](https://file1.elecfans.com/web2/M00/FE/58/wKgaomaaKmyAdQRIAAH2eJn_H8M850.png)
評論