當下企業很多都熱衷于建設運維自動化、智能化,通過技術革新代替繁雜的手工運維,提高生產效率的同時最大程度的減少人為失誤。但是如何建設自動化運維,在不同的企業有著不同的建設方法和技術棧,雖然大多是以Python為主。一般說來,企業的運維發展由起步到成熟,大致要經過三個大階段:運維無序化、運維標準化和流程化、運維自動化。
運維無序化主要表現在運維工作無規范統一,更多是團隊成員依賴自身技術各自為戰,著重于眼前運維工作,過多處于被迫接受和疲憊應付工作的狀態。運維無序階段提升工作效率主要依賴加人和加班,而且此階段運維工作效率低下,人為失誤較多,故障排除難度較大。長時間的運維無序化,對內團隊成員極度疲憊和不自信,對外主要表現為不再被各業務部門和其他IT兄弟團隊所信任。一般創業初期的IT運維處于無序化較多,如何解決結束無序化的苦惱,解放生產力呢?答案更多被提及的是運維自動化。然而面對眾說紛紜的運維自動化平臺,如何結合自身條件進行落地實現呢?答案很多,有購買商業產品(價格真的不便宜),有自主研發,結合本人推行運維自動化的實際經驗提醒各位,不管哪種方式,運維標準化和流程化一定是首先要做的,否則運維自動化只能是空中樓閣,欲求不得。
什么是運維標準化和流程化呢?如果非要給出定義的話,那么我的定義是兩個字:文檔。
運維的標準化和流程化首先要以文檔的形式進行展示,并且能夠指導日常運維工作。國有國法,家有家規,冰箱洗衣機都有說明書,運維標準化流程化就是運維工作的國法家規,運維工作如何進行的說明書。相比開發、測試等其他崗位,運維工作直面生產環境,每一步運維操作與生產系統能否正常運行息息相關,稍有不慎就易產生生產事故。并且運維自動化的落地實施也是要基于運維的標準化和流程化,所以作為運維管理的第一步,不可忽略。
標準化和流程化的建設思路一般是包括三大部分:日常工作梳理、標準化和流程化制定、日常工作標準化和流程化執行。
一、運維工作梳理
運維工作相對比較繁雜,結合實際運維工作,不同的公司又不同的劃分方法,以某公司為例,大致分為數據中心(DC)運維、IT資源運維、服務運維、事件管理四個部分。
● 數據中心運維主要因為有自建IDC機房和部分托管在其他IDC機房的服務器,所以日常運維工作中有關于數據中心相關的工作,例如數據中心的設計和建設工作,數據中心日常巡檢,數據中心權限管理、備件梳理管理、設備上下架等管理。如果是部署在云端的企業,對于數據中心的運維工作會少一些。
● IT資源運維主要是指計算、存儲、網絡和安全四大基礎資源的運維工作。計算資源包括物理服務器的管理,如開關機、配置修改、資源增加等;存儲資源管理一般包括自建分部署存儲、商業存儲、NAS等相關存儲資源的賬戶權限管理、容量管理、監控等;網絡資源運維管理工作主要包括網絡權限管理、設備配置變更等等;安全資源運維管理主要日常與安全相關的規章制度和策略以及安全設備具體操作等。IT資源運維工作涉及日常運維工作基礎資源,是整個運維工作的重點,基礎資源的保障好壞,關系著上層應用服務的健康運行情況。
● 系統運維的日常大多是與服務運維相關。運維服務部署(如:Nginx部署、JDK、Tomcat的部署等)、服務的配置變更和服務發布、服務變更等。服務運維設計的標準和規范指導日常服務運維工作的進行,并且為自動化運維做鋪墊,這要求在日常運維工作中,對于重復的手工運維工作盡量通過腳本或是其他變成語言實現自動化。
● 事件管理針對日常運維工作中出現的運維事件進行處理指導和提出管理方案。主要包括對事件進行分類、事件處理流程、如何匯報事件以及事件的總結等。
通過對日常運維工作所涉及的內容進行分類整理,并且加工提煉最后形成運維的標準和規范,將一些流程化的工作進行固化,并且逐步實現運維自動化,提高運維效率。
二、運維標準化流程化文檔
通過上一節對運維工作進行梳理,接下來進行運維標準護額和流程化文檔的提煉。當然所做這一切都是基于公司自身的實際情況進行,切勿脫離實際,直接摘抄。另外一點,在制定運維標準流程之前,必須制定好文檔編寫得規范和標準,這樣整體的規范流程文檔的風格統一整齊。一般來講,文檔要盡量簡潔,設計流程相關要圖文并茂,著重對流程圖的流程說明和關鍵點備注。
● 數據中心運維標準化和流程化
首先是數據中心運維相關標準流程規范。數據中心的建立在國內網以及不同行業都有相對比較同意的規范標準可供參考設置。一般對于自建數據中心的企業,對于數據中心的標準建立參考遵循國際標準、國家標準和行業規定即可。如《GB50174-2017 數據中心設計規范》、《GB 50462-2015 數據中心基礎設施施工及驗收規范》、TIA-942 標準等。建立完成之后,還涉及到日常運維巡檢流程、對數據中心的備件管理中的備件申請流程、數據中心故障處理流程及其數據中心日常管理規范等。
● IT資源運維標準化和流程化
IT資源運維主要對涵蓋系統基礎設施的計算、存儲、網絡、安全四個基礎部分的運維其中著重偏向于硬件以及硬件配置相關運維工作。這其中涉及的規范和流程如下:
● 服務運維標準化和流程化
對于日常運維服務相關的標準化和流程化主要是標準化部署、配置以及流程化的處理如發布、變更等,這其中還包括數據庫的數據處理流程、生產賬號管理流程、以及備份和監控的標準規范等。
● 事件管理標準化和流程化
針對日常運維過程中出現的事件進行規范化和流程化管理與指導,使工程師在處理運維事件的時候有章可循,以達到事件通知上通下達、規范化處理、快速高效處理的目的。
三、標準流程化執行落地
通過運維工作梳理,進行運維標準化、流程化文檔的編寫之后,接下來就是最重要的落地執行。有了規范標準和流程,那么在日常運維工作中就不應該出現隨心所欲、按照自己習慣進行運維工作的現象。
其實在標準化和流程化落地的初始階段,往往會給工程師帶來各種不方便和諸多不適應。典型的例子如下:標準化、流程化給工程師帶來的感覺是事情變得復雜繁瑣,自己的手腳被束縛,本來很簡單的一個事情,幾條命令幾秒鐘就可以搞定,但在執行標準化和流程化之后,變得需要涉及多人或崗位,同時也需要幾十分鐘甚至幾個小時才能搞定,而最后實際操作的可能也就一開始的那幾條命令。這是標準化初期的普遍現象,對于出現這種問題要積極溝通解決,讓工程師們盡快度過這種看似繁瑣、效率低下的初期階段。解決方法有三:
●首先是對工程師以及流程干系人進行標準化和流程化意義的普及。讓大家了解知道進行標準化和流程化的意義,標準和流程得進行運維工作,可以大大減少人為失誤,同時讓大家在同一標準下工作,減少交流成本,相互之間的配合也會更加緊密。團隊協作流程化處理問題最大程度的減少相互之間的影響。最后,標準化和流程化是最運維自動化最基礎準備。
●加快運維自動化的建立。盡快將固化的標準和流程進行自動化的編碼開發,大大減少人為操作,提高運維效率,這樣運維工程師的日常工作因為大大減少人工操作,較以往會更加輕松。
●優化標準化和流程化。標準化和流程化的制定是基于實際的日常運維工作的,在實際執行過程中,應該根據實際情況,進行不斷的優化調整,以達到最優。
通過以上三步,減少工程師在執行運維標準化、流程化的煩惱,讓大家積極參與進來,推動標準和流程的實施,以快速實現運維的自動化。
標準化和流程化的落地,往往還會伴隨著對已存在的系統部署方式進行遷移至標準化的操作。這其實要求我們在執行標準化和流程化以后的所有運維操作完全按照運維的標準和流程進行,對于執行以前的運維工作要進行遷移,目的是要實現所有系統和運維的標準、流程化。對于遷移,一般比較好的方案是:首先保留已存在非標準化系統,同時搭建標準化環境,進行已存在系統的部署并進行測試,測試無誤后,與已存在非標準化系統并行運行,同時提供對外服務一段時間后,在評估,最后將已存在非標準化系統進行下線,以達到系統平滑得由非標準化遷移至標準化的目的。
四、總結
標準化和流程化作為運維管理體系的基石和運維自動化的第一步,在進行運維管理工作中必不可少,而且要實現徹底的標準統一。在進行落地的過程中,要適當的與運維自動化并行,加快自動化的腳步,只有這樣才能最大程度的減少人為失誤,減少人力成本,提高運維的效率和質量。
-
python
+關注
關注
56文章
4807瀏覽量
85037 -
運維
+關注
關注
1文章
263瀏覽量
7626
原文標題:運維標準化與流程化建設深度指南
文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論