隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,終端設(shè)備從 PC 端擴(kuò)展到移動(dòng)端,應(yīng)用的架構(gòu)從單體架構(gòu)演進(jìn)為分布式的微服務(wù)架構(gòu),軟件系統(tǒng)服務(wù)層之間的交互日益復(fù)雜,給系統(tǒng)的運(yùn)維管理帶來了巨大的挑戰(zhàn),應(yīng)運(yùn)而生的可觀測(cè)性技術(shù),帶來了問題的答案。
近日,上海道客網(wǎng)絡(luò)科技有限公司(簡(jiǎn)稱:「DaoCloud 道客」)攜手北京基調(diào)網(wǎng)絡(luò)股份有限公司(簡(jiǎn)稱:基調(diào)聽云)推出云原生智能可觀測(cè)性平臺(tái)聯(lián)合解決方案。雙方基于 DaoCloud Enterprise 云操作系統(tǒng)與基調(diào)聽云智能可觀測(cè)性平臺(tái)的產(chǎn)品兼容性互認(rèn)證,在異構(gòu)環(huán)境下,為企業(yè)提供覆蓋應(yīng)用計(jì)算、服務(wù)編排、多云納管等方面的端到端一體化監(jiān)控解決方案。
隨著 Kubernetes 得到越來越廣泛的采用,企業(yè)軟件系統(tǒng)正在向復(fù)雜的云原生架構(gòu)進(jìn)行革命性轉(zhuǎn)變。應(yīng)用的架構(gòu)從單體架構(gòu)演進(jìn)為微服務(wù)架構(gòu),應(yīng)用形式呈現(xiàn)有 Web、APP、小程序等多種形式,訪問的網(wǎng)絡(luò)有 4G、5G、Wi-Fi 等。企業(yè)用云也從單一云時(shí)代,逐漸來到混合多云時(shí)代。在這些龐大復(fù)雜的多云環(huán)境中,各種模塊、各種語言開發(fā)的應(yīng)用程序或服務(wù)的數(shù)量與日俱增,如何追蹤它們運(yùn)行在何處、性能如何、故障定位、請(qǐng)求的完整端到端流程等,并持續(xù)檢查海量高速數(shù)據(jù)流以識(shí)別系統(tǒng)中的已知和未知問題,顯得至關(guān)重要。
云原生智能可觀測(cè)性平臺(tái)聯(lián)合解決方案,以 DaoCloud Enterprise 云操作系統(tǒng)為底座,結(jié)合基調(diào)聽云智能可觀測(cè)性平臺(tái),提供云原生計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的能力,屏蔽底層基礎(chǔ)設(shè)施復(fù)雜性,支持多云、多集群全生命周期統(tǒng)一納管,同時(shí)為不同的角色提供不同的監(jiān)控視角,全面覆蓋了最終用戶體驗(yàn)、應(yīng)用性能、業(yè)務(wù)性能、基礎(chǔ)架構(gòu)、云平臺(tái)等客戶 IT 環(huán)境,具有全量的數(shù)據(jù)采集、全鏈路數(shù)據(jù)事務(wù)追蹤、代碼級(jí)根源分析、調(diào)用鏈日志溯源、健康度和智能告警能力,幫助企業(yè)了解用戶體驗(yàn)及應(yīng)用性能,構(gòu)建業(yè)務(wù)系統(tǒng)的云原生智能可觀測(cè)性平臺(tái)。
如上所說,龐大復(fù)雜的多云異構(gòu)環(huán)境,以及日益增長(zhǎng)的應(yīng)用程序和服務(wù)數(shù)量,使排查定位系統(tǒng)問題的難度呈指數(shù)級(jí)上升,面對(duì)這些挑戰(zhàn),該方案具備三個(gè)關(guān)鍵優(yōu)勢(shì):
統(tǒng)一、安全、成熟穩(wěn)定的高性能云原生應(yīng)用平臺(tái)
DaoCloud Enterprise支持 x86、 ARM 架構(gòu)的異構(gòu)服務(wù)器的接入,快速構(gòu)建高性能云原生應(yīng)用集群。依托于云原生容器封裝技術(shù),屏蔽操作系統(tǒng)之間的差異性,為業(yè)務(wù)應(yīng)用構(gòu)建統(tǒng)一的管理平臺(tái),并提供“一次構(gòu)建,隨處運(yùn)行”的能力。
降本增效的云原生彈性可觀測(cè)
方案以云原生技術(shù)為底座,支持業(yè)務(wù)和可觀測(cè)組件的彈性擴(kuò)展,減少動(dòng)態(tài) IT 環(huán)境中的人工維護(hù)工作,能夠動(dòng)態(tài)適應(yīng)業(yè)務(wù)需求,實(shí)現(xiàn)隨業(yè)務(wù)高峰而彈性擴(kuò)張計(jì)算,隨低谷而釋放資源,降低 IT 運(yùn)營(yíng)成本。
完善的指標(biāo)體系
在此基礎(chǔ)上,方案構(gòu)建了完善的指標(biāo)體系,橫跨基礎(chǔ)組件層、應(yīng)用層、業(yè)務(wù)層、用戶體驗(yàn)層,為故障感知提供質(zhì)量標(biāo)準(zhǔn):
基礎(chǔ)組件層:包含了企業(yè)常用的主機(jī)、數(shù)據(jù)庫(kù)、容器等常規(guī)指標(biāo);
應(yīng)用層:除了包含應(yīng)用健康度、響應(yīng)時(shí)間、吞吐率、錯(cuò)誤率等通用指標(biāo)外,還包含服務(wù)或數(shù)據(jù)庫(kù)組件的實(shí)例、執(zhí)行時(shí)間等指標(biāo),錯(cuò)誤分析的開始時(shí)間、最后發(fā)生時(shí)間、異常名稱、錯(cuò)誤次數(shù)等指標(biāo),以及事務(wù)追蹤的追蹤 ID、事務(wù)名稱、業(yè)務(wù)標(biāo)識(shí)等指標(biāo);
業(yè)務(wù)層:包含業(yè)務(wù)可用性、活躍用戶數(shù)、業(yè)務(wù)流、執(zhí)行周期等通用業(yè)務(wù)指標(biāo)外,還支持自定義監(jiān)控指標(biāo)。 如:交易金額、訂單總數(shù)、Top10 銷售排名等;
用戶體驗(yàn)層:包含 PC 端、小程序端的 PV、白屏?xí)r間、首屏?xí)r間、慢頁(yè)面占比等指標(biāo),以及移動(dòng)端的頁(yè)面完整度、頁(yè)面流暢度、冷啟動(dòng)時(shí)間、次數(shù)等指標(biāo)。
該方案有效結(jié)合了云原生與可觀測(cè)性的技術(shù)優(yōu)勢(shì),在通過分析系統(tǒng)生成的數(shù)據(jù),理解推演出系統(tǒng)內(nèi)部的狀態(tài),實(shí)現(xiàn)快速排障的同時(shí),也能利用云原生技術(shù)實(shí)現(xiàn)降本增效,在各種應(yīng)用場(chǎng)景中都得到了驗(yàn)證,如:
一體化監(jiān)控
復(fù)雜的多云異構(gòu)環(huán)境加海量客戶端設(shè)備的情況下,大量的服務(wù)端運(yùn)行情況、日志、應(yīng)用性能數(shù)據(jù)等監(jiān)控?cái)?shù)據(jù)通常由多個(gè)第三方監(jiān)控平臺(tái)提供支持,眾多采集 agent、異構(gòu)的數(shù)據(jù)存儲(chǔ)庫(kù)、定制化的數(shù)據(jù)模型和查詢語句、分散監(jiān)控大屏等導(dǎo)致企業(yè)需要大量人員對(duì)監(jiān)控進(jìn)行管理,例如研發(fā)適配、存儲(chǔ)策略、告警策略、大屏展示圖表以及各個(gè)平臺(tái)的權(quán)限控制等事務(wù)。海量監(jiān)測(cè)數(shù)據(jù)如何統(tǒng)一采集、上傳、存儲(chǔ)、分析和應(yīng)用成為企業(yè)降本增效的關(guān)鍵因素。
該方案構(gòu)建從基礎(chǔ)設(shè)施到應(yīng)用層全方位立體化監(jiān)控。以 APM 為核心,調(diào)用鏈追蹤技術(shù)為手段,將業(yè)務(wù)監(jiān)控、應(yīng)用監(jiān)控、日志監(jiān)控、Kubernetes平臺(tái)監(jiān)控、容器監(jiān)控等有機(jī)關(guān)聯(lián)在一起,實(shí)現(xiàn)端到端一體化監(jiān)控,提高根因定位效率。
DevOps 集成強(qiáng)化
DevOps 流程中,一次質(zhì)量測(cè)試需要多方協(xié)作共同完成:運(yùn)維協(xié)調(diào)測(cè)試資源和壓測(cè)環(huán)境、測(cè)試執(zhí)行測(cè)試用例、研發(fā)使用監(jiān)控平臺(tái)和測(cè)試平臺(tái)獲取測(cè)試結(jié)果和事務(wù)分析結(jié)果。但基于傳統(tǒng)的 CI/CD 流程,功能和性能測(cè)試往往是和 CI 流程分開進(jìn)行,先執(zhí)行 CI,然后到性能測(cè)試環(huán)境部署監(jiān)控探針,通過各種監(jiān)控平臺(tái)觀察信息,效率相對(duì)較低。
該方案實(shí)現(xiàn)在測(cè)試階段一鍵創(chuàng)建測(cè)試環(huán)境,CI 階段引入 APM 工具、集成探針,通過 API 即可獲取檢測(cè)數(shù)據(jù)和結(jié)果,自動(dòng)生成報(bào)告并發(fā)送,提高測(cè)試效率,結(jié)合事務(wù)分析和追蹤功能快速發(fā)現(xiàn)性能瓶頸,優(yōu)化應(yīng)用質(zhì)量。
微服務(wù)架構(gòu)下的故障定位、性能優(yōu)化
云原生已是業(yè)界公認(rèn)的數(shù)字化轉(zhuǎn)型最佳路徑。以云原生為核心的云操作系統(tǒng),對(duì)微服務(wù)架構(gòu)和容器化技術(shù)的應(yīng)用,提供天然的支持,新的技術(shù)架構(gòu)使得平臺(tái)上應(yīng)用的監(jiān)控從穩(wěn)態(tài)的方式向敏態(tài)的方向轉(zhuǎn)變,這種轉(zhuǎn)變帶來便利的同時(shí),也帶來了一些新的挑戰(zhàn):容器易于創(chuàng)建和銷毀的特性,以及應(yīng)用采用微服務(wù)架構(gòu)的方式,使得應(yīng)用的調(diào)用鏈變得繁雜,單個(gè)服務(wù)故障會(huì)引發(fā)多個(gè)服務(wù)告警,被動(dòng)采集監(jiān)控指標(biāo)數(shù)據(jù)的方式難以精準(zhǔn)定位故障。
該方案的 APM 能夠?qū)崿F(xiàn) 100% 真全量的性能追蹤和業(yè)務(wù)數(shù)據(jù)采集,保證了調(diào)用鏈數(shù)據(jù)的完整性,可以實(shí)現(xiàn)深度代碼級(jí)性能診斷和優(yōu)化,配合分層展示的拓?fù)鋱D,友好的展現(xiàn)微服務(wù)間的依賴和調(diào)用關(guān)系,幫助運(yùn)維團(tuán)隊(duì)快速定位問題根因,降低 MTTR。
移動(dòng)端 APP 真實(shí)用戶體驗(yàn)監(jiān)測(cè)
移動(dòng)端作為互聯(lián)網(wǎng)新時(shí)代的流量入口的重要性不言而喻,移動(dòng)端 APP 開發(fā)后難以在海量設(shè)備上進(jìn)行測(cè)試,在發(fā)布后可能遇到在某些設(shè)備上出現(xiàn)啟動(dòng)崩潰、首次啟動(dòng)加載時(shí)間過長(zhǎng)、頁(yè)面渲染異常等問題,企業(yè)往往難以及時(shí)獲取有效的反饋,對(duì)用戶體驗(yàn)產(chǎn)生了極大的影響。
方案通過 APP SDK 字節(jié)碼技術(shù)和運(yùn)行時(shí) hook 技術(shù),能夠?qū)崟r(shí)采集 APP性能數(shù)據(jù),并且不影響業(yè)務(wù)代碼邏輯,當(dāng) APP 切換到后臺(tái)或者退出時(shí),SDK 會(huì)自動(dòng)停止采集和上報(bào),減少不必要的流量消耗。服務(wù)端依托云操作系統(tǒng)的容器編排技術(shù),結(jié)合自動(dòng)彈性擴(kuò)縮功能,針對(duì)移動(dòng)端彈性的流量,自動(dòng)適配服務(wù)器資源,利用自動(dòng)化編排技術(shù)提供高性能高可靠的可觀測(cè)服務(wù),保障平臺(tái)高可用的同時(shí),為企業(yè)降低監(jiān)控運(yùn)營(yíng)成本。
云原生時(shí)代,以運(yùn)維的視角、被動(dòng)解決故障為目標(biāo)的監(jiān)控正在逐漸退出舞臺(tái),而適配 IT 架構(gòu)變革和云原生技術(shù)實(shí)踐、協(xié)同開發(fā)和業(yè)務(wù)視角、具備更廣泛和主動(dòng)能力的可觀測(cè)性,正在冉冉升起。未來,基調(diào)聽云將攜手DaoCoud道客結(jié)合雙方技術(shù)優(yōu)勢(shì),為企業(yè)數(shù)字化轉(zhuǎn)型提供與時(shí)俱進(jìn)的云原生可觀測(cè)性解決方案。
審核編輯黃宇
-
測(cè)試
+關(guān)注
關(guān)注
8文章
5375瀏覽量
127059 -
云原生
+關(guān)注
關(guān)注
0文章
252瀏覽量
7985
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論