阿里HBase高可用8年“抗戰(zhàn)”回憶錄

2017年開(kāi)始阿里HBase走向公有云，我們有計(jì)劃的在逐步將阿里內(nèi)部的高可用技術(shù)提供給外部客戶(hù)，目前已經(jīng)上線(xiàn)了同城主備，將作為我們后續(xù)高可用能力發(fā)展的一個(gè)基礎(chǔ)平臺(tái)。本文分四個(gè)部分回顧阿里HBase在高可用方面的發(fā)展：大集群、MTTF&MTTR、容災(zāi)、極致體驗(yàn)，希望能給大家?guī)?lái)一些共鳴和思考。

大集群

一個(gè)業(yè)務(wù)一個(gè)集群在初期很簡(jiǎn)便，但隨著業(yè)務(wù)增多會(huì)加重運(yùn)維負(fù)擔(dān)，更重要的是無(wú)法有效利用資源。首先每一個(gè)集群都要有Zookeeper、Master、NameNode這三種角色，固定的消耗3臺(tái)機(jī)器。其次有些業(yè)務(wù)重計(jì)算輕存儲(chǔ)，有些業(yè)務(wù)重存儲(chǔ)輕計(jì)算，分離模式無(wú)法削峰填谷。因此從2013年開(kāi)始阿里HBase就走向了大集群模式，單集群節(jié)點(diǎn)規(guī)模達(dá)到700+。

隔離性是大集群的關(guān)鍵難題。保障A業(yè)務(wù)異常流量不會(huì)沖擊到B業(yè)務(wù)，是非常重要的能力，否則用戶(hù)可能拒絕大集群模式。阿里HBase引入了分組概念“group”，其核心思想為：共享存儲(chǔ)、隔離計(jì)算

如上圖所示，一個(gè)集群內(nèi)部被劃分成多個(gè)分組，一個(gè)分組至少包含一臺(tái)服務(wù)器，一個(gè)服務(wù)器同一時(shí)間只能屬于一個(gè)分組，但是允許服務(wù)器在分組之間進(jìn)行轉(zhuǎn)移，也就是分組本身是可以擴(kuò)容和縮容的。一張表只能部署在一個(gè)分組上，可以轉(zhuǎn)移表到其它的分組。可以看到，表T1讀寫(xiě)經(jīng)過(guò)的RegionServer和表T2讀寫(xiě)經(jīng)過(guò)的RegionServer是完全隔離的，因此在CPU、內(nèi)存上都物理隔離，但是下層使用的HDFS文件系統(tǒng)是共享的，因此多個(gè)業(yè)務(wù)可以共享一個(gè)大的存儲(chǔ)池子，充分提升存儲(chǔ)利用率。開(kāi)源社區(qū)在HBase2.0版本上引入了RegionServerGroup。

壞盤(pán)對(duì)共享存儲(chǔ)的沖擊：由于HDFS機(jī)制上的特點(diǎn)，每一個(gè)Block的寫(xiě)入會(huì)隨機(jī)選擇3個(gè)節(jié)點(diǎn)作為Pipeline，如果某一臺(tái)機(jī)器出現(xiàn)了壞盤(pán)，那么這個(gè)壞盤(pán)可能出現(xiàn)在多個(gè)Pipeline中，造成單點(diǎn)故障全局抖動(dòng)。現(xiàn)實(shí)場(chǎng)景中就是一塊盤(pán)壞，同一時(shí)間影響到幾十個(gè)客戶(hù)給你發(fā)信息打電話(huà)！特別如果慢盤(pán)、壞盤(pán)不及時(shí)處理，最終可能導(dǎo)致寫(xiě)入阻塞。阿里HBase目前規(guī)模在1萬(wàn)+臺(tái)機(jī)器，每周大概有22次磁盤(pán)損壞問(wèn)題。我們?cè)诮鉀Q這個(gè)問(wèn)題上做了兩件事，第一是縮短影響時(shí)間，對(duì)慢盤(pán)、壞盤(pán)進(jìn)行監(jiān)控報(bào)警，提供自動(dòng)化處理平臺(tái)。第二是在軟件上規(guī)避單點(diǎn)壞盤(pán)對(duì)系統(tǒng)的影響，在寫(xiě)HDFS的時(shí)候并發(fā)的寫(xiě)三個(gè)副本，只要兩個(gè)副本成功就算成功，如果第三個(gè)副本超時(shí)則將其放棄。另外如果系統(tǒng)發(fā)現(xiàn)寫(xiě)WAL異常（副本數(shù)少于3）會(huì)自動(dòng)滾動(dòng)產(chǎn)生一個(gè)新的日志文件（重新選擇pipeline，大概率規(guī)避壞點(diǎn)）。最后HDFS自身在高版本也具備識(shí)別壞盤(pán)和自動(dòng)剔除的能力。

客戶(hù)端連接對(duì)Zookeeper的沖擊：客戶(hù)端訪(fǎng)問(wèn)hbase會(huì)和Zookeeper建立長(zhǎng)連接，HBase自身的RegionServer也會(huì)和Zookeeper建立長(zhǎng)連接。大集群意味著大量業(yè)務(wù)，大量客戶(hù)端的鏈接，在異常情況下客戶(hù)端的鏈接過(guò)多會(huì)影響RegionServer與Zookeeper的心跳，導(dǎo)致宕機(jī)。我們?cè)谶@里的應(yīng)對(duì)首先是對(duì)單個(gè)IP的鏈接數(shù)進(jìn)行了限制，其次提供了一種分離客戶(hù)端與服務(wù)端鏈接的方案 HBASE-20159

MTTF&MTTR

穩(wěn)定性是生命線(xiàn)，隨著阿里業(yè)務(wù)的發(fā)展，HBase逐步擴(kuò)大在線(xiàn)場(chǎng)景的支持，對(duì)穩(wěn)定性的要求是一年更比一年高。衡量系統(tǒng)可靠性的常用指標(biāo)是MTTF（平均失效時(shí)間）和MTTR（平均恢復(fù)時(shí)間）

MTTF（mean time to failure）

造成系統(tǒng)失效的來(lái)源有：硬件失效，比如壞盤(pán)、網(wǎng)卡損壞、機(jī)器宕機(jī)等自身缺陷，一般指程序自身的bug或者性能瓶頸運(yùn)維故障，由于不合理的操作導(dǎo)致的故障服務(wù)過(guò)載，突發(fā)熱點(diǎn)、超大的對(duì)象、過(guò)濾大量數(shù)據(jù)的請(qǐng)求依賴(lài)失效，依賴(lài)的HDFS、Zookeeper組件出現(xiàn)不可用導(dǎo)致HBase進(jìn)程退出

下面我介紹一下阿里云HBase在穩(wěn)定性上遇到的幾個(gè)代表性問(wèn)題：（注：慢盤(pán)、壞盤(pán)的問(wèn)題已經(jīng)在大集群一節(jié)中涉及，這里不再重復(fù)）

周期性的FGC導(dǎo)致進(jìn)程退出

在支持菜鳥(niǎo)物流詳情業(yè)務(wù)的時(shí)候，我們發(fā)現(xiàn)機(jī)器大概每隔兩個(gè)月就會(huì)abort一次，因?yàn)閮?nèi)存碎片化問(wèn)題導(dǎo)致Promotion Fail，進(jìn)而引發(fā)FGC。由于我們使用的內(nèi)存規(guī)格比較大，所以一次FGC的停頓時(shí)間超過(guò)了與Zookeeper的心跳，導(dǎo)致ZK session expired，HBase進(jìn)程自殺。我們定位問(wèn)題是由于BlockCache引起的，由于編碼壓縮的存在，內(nèi)存中的block大小是不一致的，緩存的換入換出行為會(huì)逐步的切割內(nèi)存為非常小的碎片。我們開(kāi)發(fā)了BucketCache，很好的解決了內(nèi)存碎片化的問(wèn)題，然后進(jìn)一步發(fā)展了SharedBucketCache，使得從BlockCache里面反序列化出來(lái)的對(duì)象可以被共享復(fù)用，減少運(yùn)行時(shí)對(duì)象的創(chuàng)建，從而徹底的解決了FGC的問(wèn)題。

寫(xiě)入HDFS失敗導(dǎo)致進(jìn)程退出

HBase依賴(lài)倆大外部組件，Zookeeper和HDFS。Zookeeper從架構(gòu)設(shè)計(jì)上就是高可用的，HDFS也支持HA的部署模式。當(dāng)我們假設(shè)一個(gè)組件是可靠的，然后基于這個(gè)假設(shè)去寫(xiě)代碼，就會(huì)產(chǎn)生隱患。因?yàn)檫@個(gè)“可靠的”組件會(huì)失效，HBase在處理這種異常時(shí)非常暴力，立即執(zhí)行自殺（因?yàn)榘l(fā)生了不可能的事情），寄希望于通過(guò)Failover來(lái)轉(zhuǎn)移恢復(fù)。有時(shí)HDFS可能只是暫時(shí)的不可用，比如部分Block沒(méi)有上報(bào)而進(jìn)入保護(hù)模式，短暫的網(wǎng)絡(luò)抖動(dòng)等，如果HBase因此大面積重啟，會(huì)把本來(lái)10分鐘的影響擴(kuò)大到小時(shí)級(jí)別。我們?cè)谶@個(gè)問(wèn)題上的方案是優(yōu)化異常處理，對(duì)于可以規(guī)避的問(wèn)題直接處理掉，對(duì)于無(wú)法規(guī)避的異常進(jìn)行重試&等待。

并發(fā)大查詢(xún)導(dǎo)致機(jī)器停擺

HBase的大查詢(xún)，通常指那些帶有Filter的Scan，在RegionServer端讀取和過(guò)濾大量的數(shù)據(jù)塊。如果讀取的數(shù)據(jù)經(jīng)常不在緩存，則很容易造成IO過(guò)載；如果讀取的數(shù)據(jù)大多在緩存中，則很容易因?yàn)榻鈮骸⑿蛄谢炔僮髟斐蒀PU過(guò)載；總之當(dāng)有幾十個(gè)這樣的大請(qǐng)求并發(fā)的在服務(wù)器端執(zhí)行時(shí)，服務(wù)器load會(huì)迅速飆升，系統(tǒng)響應(yīng)變慢甚至表現(xiàn)的像卡住了。這里我們研發(fā)了大請(qǐng)求的監(jiān)控和限制，當(dāng)一個(gè)請(qǐng)求消耗資源超過(guò)一定閾值就會(huì)被標(biāo)記為大請(qǐng)求，日志會(huì)記錄。一個(gè)服務(wù)器允許的并發(fā)大請(qǐng)求存在上限，如果超過(guò)這個(gè)上限，后來(lái)的大請(qǐng)求就會(huì)被限速。如果一個(gè)請(qǐng)求在服務(wù)器上運(yùn)行了很久都沒(méi)有結(jié)束，但客戶(hù)端已經(jīng)判斷超時(shí)，那么系統(tǒng)會(huì)主動(dòng)中斷掉這個(gè)大請(qǐng)求。該功能的上線(xiàn)解決了支付寶賬單系統(tǒng)因?yàn)闊狳c(diǎn)查詢(xún)而導(dǎo)致的性能抖動(dòng)問(wèn)題。

大分區(qū)Split緩慢

在線(xiàn)上我們偶爾會(huì)遇到某個(gè)分區(qū)的數(shù)量在幾十GB到幾個(gè)TB，一般都是由于分區(qū)不合理，然后又在短時(shí)間內(nèi)灌入了大量的數(shù)據(jù)。這種分區(qū)不但數(shù)據(jù)量大，還經(jīng)常文件數(shù)量超級(jí)多，當(dāng)有讀落在這個(gè)分區(qū)時(shí)，一定會(huì)是一個(gè)大請(qǐng)求，如果不及時(shí)分裂成更小的分區(qū)就會(huì)造成嚴(yán)重影響。這個(gè)分裂的過(guò)程非常慢，HBase只能從1個(gè)分區(qū)分裂為2個(gè)分區(qū)，并且要等待執(zhí)行一輪Compaction才能進(jìn)行下一輪分裂。假設(shè)分區(qū)大小1TB，那么分裂成小于10GB的128個(gè)分區(qū)需要分裂7輪，每一輪要執(zhí)行一次Compaction（讀取1TB數(shù)據(jù)，寫(xiě)出1TB數(shù)據(jù)），而且一個(gè)分區(qū)的Compaction只能由一臺(tái)機(jī)器執(zhí)行，所以第一輪最多只有2臺(tái)機(jī)器參與，第二輪4臺(tái)，第三輪8臺(tái)。。。，并且實(shí)際中需要人為干預(yù)balance。整個(gè)過(guò)程做下來(lái)超過(guò)10小時(shí)，這還是假設(shè)沒(méi)有新數(shù)據(jù)寫(xiě)入，系統(tǒng)負(fù)載正常。面對(duì)這個(gè)問(wèn)題我們?cè)O(shè)計(jì)了“級(jí)聯(lián)分裂”，可以不執(zhí)行Compaction就進(jìn)入下一次分裂，先快速的把分區(qū)拆分完成，然后一把執(zhí)行Compaction。

前面講的都是點(diǎn)，關(guān)于如何解決某個(gè)頑疾。導(dǎo)致系統(tǒng)失效的情況是多種多樣的，特別一次故障中可能交叉著多個(gè)問(wèn)題，排查起來(lái)異常困難。現(xiàn)代醫(yī)學(xué)指出醫(yī)院應(yīng)當(dāng)更多投入預(yù)防而不是治療，加強(qiáng)體檢，鼓勵(lì)早就醫(yī)。早一步也許就是個(gè)感冒，晚一步也許就變成了癌癥。這也適用于分布式系統(tǒng)，因?yàn)橄到y(tǒng)的復(fù)雜性和自愈能力，一些小的問(wèn)題不會(huì)立即造成不可用，比如內(nèi)存泄漏、Compaction積壓、隊(duì)列積壓等，但終將在某一刻引發(fā)雪崩。應(yīng)對(duì)這種問(wèn)題，我們提出了“健康診斷”系統(tǒng)，用來(lái)預(yù)警那些暫時(shí)還沒(méi)有使系統(tǒng)失效，但明顯超過(guò)正常閾值的指標(biāo)。“健康診斷”系統(tǒng)幫助我們攔截了大量的異常case，也在不停的演進(jìn)其診斷智能。

MTTR（mean time to repair）

百密終有一疏，系統(tǒng)總是會(huì)失效，特別的像宕機(jī)這種Case是低概率但一定會(huì)發(fā)生的事件。我們要做的是去容忍，降低影響面，加速恢復(fù)時(shí)間。HBase是一個(gè)可自愈的系統(tǒng)，單個(gè)節(jié)點(diǎn)宕機(jī)觸發(fā)Failover，由存活的其它節(jié)點(diǎn)來(lái)接管分區(qū)服務(wù)，在分區(qū)對(duì)外服務(wù)之前，必須首先通過(guò)回放日志來(lái)保證數(shù)據(jù)讀寫(xiě)一致性。整個(gè)過(guò)程主要包括Split Log、Assign Region、Replay Log三個(gè)步驟。hbase的計(jì)算節(jié)點(diǎn)是0冗余，所以一個(gè)節(jié)點(diǎn)宕機(jī)，其內(nèi)存中的狀態(tài)必須全部回放，這個(gè)內(nèi)存一般可以認(rèn)為在10GB~20GB左右。我們假設(shè)整個(gè)集群的數(shù)據(jù)回放能力是 R GB/s，單個(gè)節(jié)點(diǎn)宕機(jī)需要恢復(fù) M GB的數(shù)據(jù)，那么宕機(jī)N個(gè)節(jié)點(diǎn)就需要 M * N / R 秒，這里表達(dá)的一個(gè)信息是：如果R不足夠大，那么宕機(jī)越多，恢復(fù)時(shí)間越不可控，那么影響R的因素就至關(guān)重要，在Split Log、Assign Region、Replay Log三個(gè)過(guò)程中，通常Split Log、Assign Region的擴(kuò)展性存在問(wèn)題，核心在于其依賴(lài)單點(diǎn)。Split Log是把WAL文件按分區(qū)拆分成小的文件，這個(gè)過(guò)程中需要?jiǎng)?chuàng)建大量的新文件，這個(gè)工作只能由一臺(tái)NameNode來(lái)完成，并且其效率也并不高。Assign Region是由HBase Master來(lái)管理，同樣是一個(gè)單點(diǎn)。阿里HBase在Failover方面的核心優(yōu)化是采用了全新的MTTR2架構(gòu)，取消了Split Log這一步驟，在Assign Region上也做了優(yōu)先Meta分區(qū)、Bulk Assign、超時(shí)優(yōu)化等多項(xiàng)優(yōu)化措施，相比社區(qū)的Failover效率提升200%以上

從客戶(hù)角度看故障，是2分鐘的流量跌零可怕還是10分鐘的流量下降5%可怕？我想可能是前者。由于客戶(hù)端的線(xiàn)程池資源有限，HBase的單機(jī)宕機(jī)恢復(fù)過(guò)程可能造成業(yè)務(wù)側(cè)的流量大跌，因?yàn)榫€(xiàn)程都阻塞在訪(fǎng)問(wèn)異常機(jī)器上了，2%的機(jī)器不可用造成業(yè)務(wù)流量下跌90%是很難接受的。我們?cè)诳蛻?hù)端開(kāi)發(fā)了一種Fast Fail的機(jī)制，可以主動(dòng)發(fā)現(xiàn)異常服務(wù)器，并快速拒絕發(fā)往這個(gè)服務(wù)器的請(qǐng)求，從而釋放線(xiàn)程資源，不影響其它分區(qū)服務(wù)器的訪(fǎng)問(wèn)。項(xiàng)目名稱(chēng)叫做DeadServerDetective

容災(zāi)

容災(zāi)是重大事故下的求生機(jī)制，比如地震、海嘯等自然災(zāi)害造成毀滅性打擊，比如軟件變更等造成完全不可控的恢復(fù)時(shí)間，比如斷網(wǎng)造成服務(wù)癱瘓、恢復(fù)時(shí)間未知。從現(xiàn)實(shí)經(jīng)驗(yàn)來(lái)看，自然災(zāi)害在一個(gè)人的一生中都難遇到，斷網(wǎng)一般是一個(gè)年級(jí)別的事件，而軟件變更引發(fā)的問(wèn)題可能是月級(jí)別的。軟件變更是對(duì)運(yùn)維能力、內(nèi)核能力、測(cè)試能力等全方位的考驗(yàn)，變更過(guò)程的操作可能出錯(cuò)，變更的新版本可能存在未知Bug。另一個(gè)方面為了不斷滿(mǎn)足業(yè)務(wù)的需求又需要加速內(nèi)核迭代，產(chǎn)生更多的變更。

容災(zāi)的本質(zhì)是基于隔離的冗余，要求在資源層面物理隔離、軟件層面版本隔離、運(yùn)維層面操作隔離等，冗余的服務(wù)之間保持最小的關(guān)聯(lián)性，在災(zāi)難發(fā)生時(shí)至少有一個(gè)副本存活。阿里HBase在幾年前開(kāi)始推進(jìn)同城主備、異地多活，目前99%的集群至少有一個(gè)備集群，主備集群是HBase可以支持在線(xiàn)業(yè)務(wù)的一個(gè)強(qiáng)保障。主備模式下的兩個(gè)核心問(wèn)題是數(shù)據(jù)復(fù)制和流量切換

數(shù)據(jù)復(fù)制

選擇什么樣的復(fù)制方式，是同步復(fù)制還是異步復(fù)制，是否要保序？主要取決于業(yè)務(wù)對(duì)系統(tǒng)的需求，有些要求強(qiáng)一致，有些要求session一致，有些可以接受最終一致。占在HBase的角度上，我們服務(wù)的大量業(yè)務(wù)在災(zāi)難場(chǎng)景下是可以接受最終一致性的（我們也研發(fā)了同步復(fù)制機(jī)制，但只有極少的場(chǎng)景），因此本文主要專(zhuān)注在異步復(fù)制的討論上。很長(zhǎng)一段時(shí)間我們采用社區(qū)的異步復(fù)制機(jī)制（HBase Replication），這是HBase內(nèi)置的同步機(jī)制。

同步延遲的根因定位是第一個(gè)難題，因?yàn)橥芥溌飞婕鞍l(fā)送方、通道、接受方3個(gè)部分，排查起來(lái)有難度。我們?cè)鰪?qiáng)了同步相關(guān)的監(jiān)控和報(bào)警。

熱點(diǎn)容易引發(fā)同步延遲是第二個(gè)難題。HBase Replication采用推的方式進(jìn)行復(fù)制，讀取WAL日志然后進(jìn)行轉(zhuǎn)發(fā)，發(fā)送線(xiàn)程和HBase寫(xiě)入引擎是在同一臺(tái)RegionServer的同一個(gè)進(jìn)程里。當(dāng)某臺(tái)RegionServer寫(xiě)入熱點(diǎn)時(shí)，就需要更多的發(fā)送能力，但寫(xiě)入熱點(diǎn)本身就擠占了更多的系統(tǒng)資源，寫(xiě)入和同步資源爭(zhēng)搶。阿里HBase做了兩個(gè)方面的優(yōu)化，第一提高同步性能，減少單位MB同步的資源消耗；第二研發(fā)了遠(yuǎn)程消耗器，使其它空閑的機(jī)器可以協(xié)助熱點(diǎn)機(jī)器同步日志。

資源需求、迭代方式的不匹配是第三個(gè)難題。數(shù)據(jù)復(fù)制本身是不需要磁盤(pán)IO的，只消耗帶寬和CPU，而HBase對(duì)磁盤(pán)IO有重要依賴(lài)；數(shù)據(jù)復(fù)制的worker本質(zhì)上是無(wú)狀態(tài)的，重啟不是問(wèn)題，可以斷點(diǎn)續(xù)傳，而HBase是有狀態(tài)的，必須先轉(zhuǎn)移分區(qū)再重啟，否則會(huì)觸發(fā)Failover。一個(gè)輕量級(jí)的同步組件和重量級(jí)的存儲(chǔ)引擎強(qiáng)耦合在一起，同步組件的每一次迭代升級(jí)必須同時(shí)重啟HBase。一個(gè)重啟就可以解決的同步問(wèn)題，因?yàn)橥瑫r(shí)要重啟hbase而影響線(xiàn)上讀寫(xiě)。一個(gè)擴(kuò)容CPU或者總帶寬的問(wèn)題被放大到要擴(kuò)容hbase整體。

綜上所述，阿里HBase最終將同步組件剝離了出來(lái)作為一個(gè)獨(dú)立的服務(wù)來(lái)建設(shè)，解決了熱點(diǎn)和耦合的問(wèn)題，在云上這一服務(wù)叫做BDS Replication。隨著異地多活的發(fā)展，集群之間的數(shù)據(jù)同步關(guān)系開(kāi)始變得復(fù)雜，為此我們開(kāi)發(fā)了一個(gè)關(guān)于拓?fù)潢P(guān)系和鏈路同步延遲的監(jiān)控，并且在類(lèi)環(huán)形的拓?fù)潢P(guān)系中優(yōu)化了數(shù)據(jù)的重復(fù)發(fā)送問(wèn)題。

BDS Replication

流量切換

在具備主備集群的前提下，災(zāi)難期間需要快速的把業(yè)務(wù)流量切換到備份集群。阿里HBase改造了HBase客戶(hù)端，流量的切換發(fā)生在客戶(hù)端內(nèi)部，通過(guò)高可用的通道將切換命令發(fā)送給客戶(hù)端，客戶(hù)端會(huì)關(guān)閉舊的鏈接，打開(kāi)與備集群的鏈接，然后重試請(qǐng)求。

阿里云同城主備

切換瞬間對(duì)Meta服務(wù)的沖擊：hbase客戶(hù)端首次訪(fǎng)問(wèn)一個(gè)分區(qū)前需要請(qǐng)求Meta服務(wù)來(lái)獲取分區(qū)的地址，切換瞬間所有客戶(hù)端并發(fā)的訪(fǎng)問(wèn)Meta服務(wù)，現(xiàn)實(shí)中并發(fā)可能在幾十萬(wàn)甚至更多造成服務(wù)過(guò)載，請(qǐng)求超時(shí)后客戶(hù)端又再次重試，造成服務(wù)器一直做無(wú)用功，切換一直無(wú)法成功。針對(duì)這個(gè)問(wèn)題我們改造了Meta表的緩存機(jī)制，極大地提高了Meta表的吞吐能力，可以應(yīng)對(duì)百萬(wàn)級(jí)別的請(qǐng)求。同時(shí)在運(yùn)維上隔離了Meta分區(qū)與數(shù)據(jù)分區(qū)，防止相互影響。

從一鍵切換走向自動(dòng)切換。一鍵切換還是要依賴(lài)報(bào)警系統(tǒng)和人工操作，現(xiàn)實(shí)中至少也要分鐘級(jí)別才能響應(yīng)，如果是晚上可能要10分鐘以上。阿里HBase在演進(jìn)自動(dòng)切換過(guò)程中有兩個(gè)思路，最早是通過(guò)增加一個(gè)第三方仲裁，實(shí)時(shí)的給每一個(gè)系統(tǒng)打健康分?jǐn)?shù)，當(dāng)系統(tǒng)健康分低于一個(gè)閾值，并且其備庫(kù)是健康的情況下，自動(dòng)執(zhí)行切換命令。這個(gè)仲裁系統(tǒng)還是比價(jià)復(fù)雜的，首先其部署上要保持網(wǎng)絡(luò)獨(dú)立，其次其自身必須是高可靠的，最后健康分的正確性需要保證。仲裁系統(tǒng)的健康判斷是從服務(wù)器視角出發(fā)的，但從客戶(hù)端角度來(lái)講，有些時(shí)候服務(wù)器雖然活著但是已經(jīng)不正常工作了，可能持續(xù)的FGC，也可能出現(xiàn)了持續(xù)網(wǎng)絡(luò)抖動(dòng)。所以第二個(gè)思路是在客戶(hù)端進(jìn)行自動(dòng)切換，客戶(hù)端通過(guò)失敗率或其它規(guī)則來(lái)判定可用性，超過(guò)一定閾值則執(zhí)行切換。

極致體驗(yàn)

在風(fēng)控和推薦場(chǎng)景下，請(qǐng)求的RT越低，業(yè)務(wù)在單位時(shí)間內(nèi)可以應(yīng)用的規(guī)則就越多，分析就越準(zhǔn)確。要求存儲(chǔ)引擎高并發(fā)、低延遲、低毛刺，要高速且平穩(wěn)的運(yùn)行。阿里HBase團(tuán)隊(duì)在內(nèi)核上研發(fā)CCSMAP優(yōu)化寫(xiě)入緩存，SharedBucketCache優(yōu)化讀取緩存，IndexEncoding優(yōu)化塊內(nèi)搜索，加上無(wú)鎖隊(duì)列、協(xié)程、ThreadLocal Counter等等技術(shù)，再結(jié)合阿里JDK團(tuán)隊(duì)的ZGC垃圾回收算法，在線(xiàn)上做到了單集群P999延遲小于15ms。另一個(gè)角度上，風(fēng)控和推薦等場(chǎng)景并不要求強(qiáng)一致，其中有一些數(shù)據(jù)是離線(xiàn)導(dǎo)入的只讀數(shù)據(jù)，所以只要延遲不大，可以接受讀取多個(gè)副本。如果主備兩個(gè)副本之間請(qǐng)求毛刺是獨(dú)立事件，那么理論上同時(shí)訪(fǎng)問(wèn)主備可以把毛刺率下降一個(gè)數(shù)量級(jí)。我們基于這一點(diǎn)，利用現(xiàn)有的主備架構(gòu)，研發(fā)了DualService，支持客戶(hù)端并行的訪(fǎng)問(wèn)主備集群。在一般情況下，客戶(hù)端優(yōu)先讀取主庫(kù)，如果主庫(kù)一定時(shí)間沒(méi)有響應(yīng)則并發(fā)請(qǐng)求到備庫(kù)，然后等待最先返回的請(qǐng)求。DualService的應(yīng)用獲得的非常大的成功，業(yè)務(wù)接近零抖動(dòng)。

主備模式下還存在一些問(wèn)題。切換的粒度是集群級(jí)別的，切換過(guò)程影響大，不能做分區(qū)級(jí)別切換是因?yàn)橹鱾浞謪^(qū)不一致；只能提供最終一致性模型，對(duì)于一些業(yè)務(wù)來(lái)講不好寫(xiě)代碼邏輯；加上其它因素（索引能力，訪(fǎng)問(wèn)模型）的推動(dòng)，阿里HBase團(tuán)隊(duì)基于HBase演進(jìn)了自研的Lindorm引擎，提供一種內(nèi)置的雙Zone部署模式，其數(shù)據(jù)復(fù)制采用推拉組合的模式，同步效率大大提升；雙Zone之間的分區(qū)由GlobalMaster協(xié)調(diào)，絕大部分時(shí)間都是一致的，因此可以實(shí)現(xiàn)分區(qū)級(jí)別切換；Lindorm提供強(qiáng)一致、Session一致、最終一致等多級(jí)一致性協(xié)議，方便用戶(hù)實(shí)現(xiàn)業(yè)務(wù)邏輯。目前大部分阿里內(nèi)部業(yè)務(wù)已經(jīng)切換到Lindorm引擎。

零抖動(dòng)是我們追求的最高境界，但必須認(rèn)識(shí)到導(dǎo)致毛刺的來(lái)源可以說(shuō)無(wú)處不在，解決問(wèn)題的前提是定位問(wèn)題，對(duì)每一個(gè)毛刺給出解釋既是用戶(hù)的訴求也是能力的體現(xiàn)。阿里HBase開(kāi)發(fā)了全鏈路Trace，從客戶(hù)端、網(wǎng)絡(luò)、服務(wù)器全鏈路監(jiān)控請(qǐng)求，豐富詳盡的Profiling將請(qǐng)求的路徑、資源訪(fǎng)問(wèn)、耗時(shí)等軌跡進(jìn)行展示，幫助研發(fā)人員快速定位問(wèn)題。

總結(jié)

本文介紹了阿里HBase在高可用上的一些實(shí)踐經(jīng)驗(yàn)，結(jié)尾之處與大家分享一些看可用性建設(shè)上的思考，拋磚引玉希望歡迎大家討論。

從設(shè)計(jì)原則上

1 面向用戶(hù)的可用性設(shè)計(jì)，在影響面、影響時(shí)間、一致性上進(jìn)行權(quán)衡 MTTF和MTTR是一類(lèi)衡量指標(biāo)，但這些指標(biāo)好不一定滿(mǎn)足用戶(hù)期望，這些指標(biāo)是面向系統(tǒng)本身而不是用戶(hù)的。
2 面向失敗設(shè)計(jì)，你所依賴(lài)的組件總是會(huì)失敗千萬(wàn)不要假設(shè)你依賴(lài)的組件不會(huì)失敗，比如你確信HDFS不會(huì)丟數(shù)據(jù)，然后寫(xiě)了一個(gè)狀態(tài)機(jī)。但實(shí)際上如果多個(gè)DN同時(shí)宕機(jī)數(shù)據(jù)就是會(huì)丟失，此時(shí)可能你的狀態(tài)機(jī)永遠(yuǎn)陷入混亂無(wú)法推進(jìn)。再小概率的事件總是會(huì)發(fā)生，對(duì)中標(biāo)的用戶(hù)來(lái)講這就是100%。

從實(shí)現(xiàn)過(guò)程上

完善的監(jiān)控體系監(jiān)控是基礎(chǔ)保障，是最先需要投入力量的地方。100%涵蓋故障報(bào)警，先于用戶(hù)發(fā)現(xiàn)問(wèn)題是監(jiān)控的第一任務(wù)。其次監(jiān)控需要盡可能詳細(xì)，數(shù)據(jù)展示友好，可以極大的提高問(wèn)題定位能力。
基于隔離的冗余冗余是可用性上治本的方法，遇到未知問(wèn)題，單集群非常難保障SLA。所以只要不差錢(qián)，一定至少來(lái)一套主備。
精細(xì)的資源控制系統(tǒng)的異常往往是因?yàn)橘Y源使用的失控，對(duì)CPU、內(nèi)存、IO的精細(xì)控制是內(nèi)核高速穩(wěn)定運(yùn)行的關(guān)鍵。需要投入大量的研發(fā)資源去迭代。
系統(tǒng)自我保護(hù)能力在請(qǐng)求過(guò)載的情況下，系統(tǒng)應(yīng)該具備類(lèi)如Quota這樣的自我保護(hù)能力，防止雪崩發(fā)生。系統(tǒng)應(yīng)該能識(shí)別一些異常的請(qǐng)求，進(jìn)行限制或者拒絕。
Trace能力實(shí)時(shí)跟蹤請(qǐng)求軌跡是排查問(wèn)題的利器，需要把Profiling做到盡量詳細(xì)

原文鏈接

本文為云棲社區(qū)原創(chuàng)內(nèi)容，未經(jīng)允許不得轉(zhuǎn)載。

閱讀全文

評(píng)論

相關(guān)推薦

云服務(wù)停止拆分！阿里最新季度利潤(rùn)大增34%，高管：市場(chǎng)環(huán)境發(fā)生變化

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）阿里巴巴集團(tuán)在近日發(fā)布了2024財(cái)年第二季度（2023年6月30日至9月30日）業(yè)績(jī)公告。在財(cái)報(bào)中除了公布了該財(cái)季的財(cái)務(wù)數(shù)據(jù)之外，還披露了阿里巴巴業(yè)務(wù)集團(tuán)分拆和融資

2023-11-18 01:43:00

2137

阿里云大面積宕機(jī)，淘寶、餓了么等多產(chǎn)品“崩了”，機(jī)房運(yùn)行面臨四大挑戰(zhàn)

電子發(fā)燒友網(wǎng)報(bào)道（文/吳子鵬）11月12日下午，就在雙十一大促的后一天，阿里云疑似發(fā)生大規(guī)模、大范圍故障，導(dǎo)致包括淘寶、閑魚(yú)、阿里云盤(pán)、釘釘在內(nèi)的阿里系產(chǎn)品全線(xiàn)崩潰。一時(shí)間，“阿里云盤(pán)崩了”“淘寶

2023-11-14 09:05:04

2141

阿里版ChatGPT“通義千問(wèn)”正式亮相，阿里所有產(chǎn)品未來(lái)全面接入

電子發(fā)燒友網(wǎng)報(bào)道（文/梁浩斌）進(jìn)入4月，國(guó)內(nèi)科技公司爭(zhēng)相入局大模型領(lǐng)域，360、華為、商湯、昆侖萬(wàn)維、京東、同花順等均發(fā)布或預(yù)告了旗下的AI大模型產(chǎn)品。4月11日，在2023阿里云峰會(huì)上，阿里也終于

2023-04-12 09:12:12

4725

阿里分拆六大業(yè)務(wù)！阿里云、達(dá)摩院等隸屬云智能，平頭哥單列，均有望獨(dú)立上市！

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）3月28日晚間，阿里巴巴集團(tuán)董事會(huì)主席兼首席執(zhí)行官?gòu)堄乱砸环馊珕T信的方式，宣布啟動(dòng)24年來(lái)最重要的組織架構(gòu)調(diào)整。在阿里巴巴集團(tuán)之下，設(shè)立六大業(yè)務(wù)集團(tuán)和多家業(yè)務(wù)公司，未來(lái)

2023-03-30 09:12:57

9682

阿里云調(diào)整商標(biāo)代理服務(wù)，停接知域互聯(lián)科技訂單，建議關(guān)注

阿里云僅作為平臺(tái)運(yùn)營(yíng)方，保護(hù)并提升合作服務(wù)商的服務(wù)質(zhì)量。為了保障注冊(cè)記錄與訂單管理的連續(xù)性，阿里云將保留商標(biāo)智能注冊(cè)產(chǎn)品的登記及訂單管理等核心功能。

2024-03-04 15:33:05

135

阿里云全線(xiàn)降價(jià) 平均降價(jià)幅度超20%

似乎降價(jià)的風(fēng)已經(jīng)全面刮起來(lái)了，今天看到消息阿里云全線(xiàn)大降價(jià)；平均降價(jià)幅度超過(guò)20%，最高的產(chǎn)品降幅高達(dá)55%。據(jù)悉這是阿里云史上最大力度的一次降價(jià)，覆蓋到了計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)等所有核心產(chǎn)品。 ?

2024-02-29 18:17:45

821

阿里云為什么能降價(jià)？釋放了什么信號(hào)？

今天（2月29日）上午，阿里云發(fā)布通告，宣布全線(xiàn)下調(diào)云產(chǎn)品官網(wǎng)售價(jià)。這次降價(jià)涉及計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)等在內(nèi)的100多款產(chǎn)品，平均降價(jià)幅度超過(guò)20%，最高降幅達(dá)55%，屬于阿里云歷史上力度最大的一次。

2024-02-29 17:37:08

565

阿里巴巴重返中國(guó)頂級(jí)電商軌道

阿里巴巴集團(tuán)董事會(huì)主席蔡崇信近日宣布，經(jīng)過(guò)一系列架構(gòu)重組和管理層變動(dòng)后，阿里巴巴已成功重返中國(guó)頂級(jí)電商軌道。蔡崇信在講話(huà)中強(qiáng)調(diào)，公司正在逐步調(diào)整戰(zhàn)略，重新定位其在電商領(lǐng)域的領(lǐng)導(dǎo)地位。

2024-02-27 14:29:51

446

阿里重返中國(guó)頂級(jí)電商軌道淘特否認(rèn)退出歷史舞臺(tái)

阿里重返中國(guó)頂級(jí)電商軌道淘特否認(rèn)退出歷史舞臺(tái) 在CNBC的采訪(fǎng)中阿里巴巴主席蔡崇信表示阿里已重返中國(guó)頂級(jí)電商企業(yè)軌道。阿里隨著架構(gòu)重組和新管理層的到位，對(duì)能夠成為中國(guó)頂級(jí)電子商務(wù)企業(yè)之一更具信心

2024-02-27 14:19:16

226

阿里巴巴漲超3% 財(cái)報(bào)或超預(yù)期

阿里巴巴漲超3% 今日港股開(kāi)盤(pán)后阿里巴巴漲超3%，恒生科技表現(xiàn)也很亮眼。快手、比亞迪電子、聯(lián)想集團(tuán)等多股上漲。阿里巴巴將于2月7日發(fā)布2024財(cái)年第三季度財(cái)報(bào)，業(yè)界分析會(huì)超預(yù)期。

2024-02-06 16:05:50

1156

軟銀子公司確認(rèn)減持阿里阿里巴巴最大股東易主

軟銀子公司確認(rèn)減持阿里軟銀集團(tuán)旗下全資子公司Skybridge LLC在回應(yīng)關(guān)于買(mǎi)賣(mài)阿里巴巴股票時(shí)表示，此前已經(jīng)與金融機(jī)構(gòu)簽訂了預(yù)付遠(yuǎn)期合約涉及5.21億股；由于近幾年已經(jīng)分階段實(shí)施并完成實(shí)物結(jié)算

2024-01-26 20:45:33

1500

馬云大幅增持阿里股票馬云取代軟銀成為阿里巴巴最大股東

馬云大幅增持阿里股票馬云取代軟銀成為阿里巴巴最大股東有媒體報(bào)道，阿里巴巴創(chuàng)始人馬云、蔡崇信近期大筆增持了阿里的股票，而且已經(jīng)買(mǎi)成了最大股東，馬云取代軟銀成為阿里巴巴最大股東；馬云與蔡崇信合計(jì)持股

2024-01-24 18:55:14

668

實(shí)至名歸！恭喜我司創(chuàng)始人榮獲CMG專(zhuān)精特新“年度高人” #高芯科技

高芯科技

高芯科技發(fā)布于 2024-01-24 15:51:52

鐳神智能入選阿里巴巴諸神之戰(zhàn)2023年度智能制造賽道之星

近日，阿里云發(fā)布《Create@阿里巴巴諸神之戰(zhàn)2023年度新勢(shì)力榜單》，鐳神智能入選Create@阿里巴巴諸神之戰(zhàn)2023年度智能制造賽道之星。據(jù)悉，2023年，Create@阿里巴巴諸神之戰(zhàn)

2024-01-20 08:23:48

166

新火種AI|淘寶天貓“換帥”風(fēng)波，AI電商能為阿里扳回一局嗎？

換帥、寒冬、圍攻，阿里“權(quán)變”的季節(jié)。

2023-12-26 10:26:00

419

為什么TMS320F28335+ad7606-6讀取到的數(shù)值高8位為0？

如附件所示，為什么讀取到的數(shù)值高8位為0，只有低8位變化呢？進(jìn)入中斷后，讀取函數(shù)的代碼如下： Uint16 DATA[i]={0}; void READ(void) { for(i=0

2023-12-22 07:07:00

阿里為何拋售小鵬28億股份只是基于阿里的資本管理目標(biāo)

對(duì)于這次阿里減持小鵬汽車(chē)股份頗受各方關(guān)注。根據(jù)美國(guó)證券交易委員會(huì)（SEC）的監(jiān)管備案文件顯示，阿里打算出售2500萬(wàn)股小鵬美國(guó)存托股份（ADR）。按照小鵬汽車(chē)在周四的收盤(pán)價(jià)計(jì)算，這些股份價(jià)值大約

2023-12-17 18:22:49

922

【ELF 1開(kāi)發(fā)板試用】+　8.1 MQTT開(kāi)發(fā)——連接阿里云【項(xiàng)目復(fù)現(xiàn)】

MQTT開(kāi)發(fā)——連接阿里云【項(xiàng)目復(fù)現(xiàn)】本文基于文檔中提供的項(xiàng)目教程，復(fù)現(xiàn)ELF 1連接阿里云物聯(lián)網(wǎng)平臺(tái)，進(jìn)行MQTT開(kāi)發(fā)；記錄ELF1 個(gè)人物聯(lián)網(wǎng)開(kāi)發(fā)的過(guò)程，可以提供參考； MQTT 簡(jiǎn)述

2023-12-15 22:00:14

拼多多超越阿里，而AI電商時(shí)代才剛開(kāi)始

拼多多市值超越阿里巴巴，電商的新一輪較量才剛開(kāi)始。

2023-12-12 10:24:18

247

基于阿里云Docker和Jenkins構(gòu)建自動(dòng)化部署

在這里先亮一下所涉及的環(huán)境設(shè)備阿里云服務(wù)器。

2023-12-11 15:29:30

1234

AD2S1210的高8位信號(hào)一直是0，檢測(cè)不到1是為什么呢？

AD2S1210的高8位信號(hào)一直是0，檢測(cè)不到1，請(qǐng)問(wèn)是為什么呢？我的SOE引腳已經(jīng)接到3.3V了，但沒(méi)信號(hào)的感覺(jué)

2023-12-01 06:15:46

分布式數(shù)據(jù)恢復(fù)-hbase+hive分布式存儲(chǔ)誤刪除文件的數(shù)據(jù)恢復(fù)方案

hbase+hive分布式存儲(chǔ)數(shù)據(jù)恢復(fù)環(huán)境： 16臺(tái)某品牌R730XD服務(wù)器節(jié)點(diǎn)，每臺(tái)物理服務(wù)器節(jié)點(diǎn)上有數(shù)臺(tái)虛擬機(jī)，虛擬機(jī)上配置的分布式，上層部署hbase數(shù)據(jù)庫(kù)+hive數(shù)據(jù)倉(cāng)庫(kù)

2023-11-24 15:55:19

185

阿里云崩了：企業(yè)未來(lái)該怎么選擇云廠(chǎng)商？

2023 年 11 月 12 日 17：44 開(kāi)始，阿里云發(fā)生嚴(yán)重故障，導(dǎo)致阿里巴巴大量產(chǎn)品無(wú)法連接，一時(shí)間，“阿里云盤(pán)崩了”、“淘寶又崩了”、“閑魚(yú)崩了”、“釘釘崩了”等話(huà)題相繼登上熱搜。阿里

2023-11-23 10:18:41

176

受半導(dǎo)體新規(guī)影響，阿里云股價(jià)跌超9%，分拆IPO計(jì)劃擱置！

來(lái)源：芯智訊，謝謝編輯：感知芯視界 Link 11月16日，阿里巴巴公布了出色的2023年第三季度財(cái)報(bào)，并宣布由于美國(guó)半導(dǎo)體出口限制政策的影響，其云業(yè)務(wù)部門(mén)——阿里云的IPO計(jì)劃被擱置。受該消息影

2023-11-21 09:31:55

171

阿里為何要把一切“翻篇?dú)w零”

就在阿里啟動(dòng)“1+6+N”史上最大規(guī)模的組織變革之后年度雙十一、季度財(cái)報(bào)等相繼而來(lái)，但是阿里為何要把一切“翻篇?dú)w零”？要之前阿里此前創(chuàng)造了一個(gè)又一個(gè)的商業(yè)奇跡。但是現(xiàn)在阿里把盒馬鮮生公開(kāi)募股計(jì)劃

2023-11-17 14:43:14

1172

阿里云全球宕機(jī)：從阿里云故障看企業(yè) IT 挑戰(zhàn)

2023 年 11 月 12 日晚，阿里云遭遇了一場(chǎng)全球性故障，導(dǎo)致其全產(chǎn)品線(xiàn)全部崩潰，包括阿里云盤(pán)、釘釘、淘寶、閑魚(yú)等服務(wù)。這次故障的規(guī)模之巨大、影響之深遠(yuǎn)，在云計(jì)算歷史上堪稱(chēng)史詩(shī)級(jí)事件。作為一名

2023-11-13 00:28:55

163

阿里云的故障是一次意外還是一次危機(jī)？

和影響。 2023 年 4 月 8 日，阿里云發(fā)生了一次史詩(shī)級(jí)的故障，導(dǎo)致多個(gè)區(qū)域的云服務(wù)器、數(shù)據(jù)庫(kù)、存儲(chǔ)、網(wǎng)絡(luò)等服務(wù)出現(xiàn)不可用或性能下降的情況。這次故障的原因是阿里云的核心網(wǎng)絡(luò)設(shè)備出現(xiàn)了故障，導(dǎo)致部分網(wǎng)絡(luò)鏈路中斷，影響了多個(gè)數(shù)據(jù)中

2023-11-13 00:28:32

142

阿里云全球性故障引發(fā)技術(shù)圈熱議，企業(yè) IT 應(yīng)急應(yīng)該怎么辦？

11 月 12 日晚，阿里云發(fā)生了一起全球性故障，導(dǎo)致其全產(chǎn)品線(xiàn)崩潰，包括阿里云盤(pán)、釘釘、淘寶、閑魚(yú)等多個(gè)服務(wù)都受到影響。這次故障規(guī)模之大、影響范圍之廣令人震驚。首先，這次故障暴露了企業(yè)在依賴(lài)

2023-11-13 00:27:49

125

突發(fā)！阿里云崩了：全線(xiàn)產(chǎn)品受影響

剛剛，看到微博熱搜榜，淘寶又崩了、閑魚(yú)崩了、阿里云盤(pán)崩了、釘釘崩了。。阿里云公告受影響產(chǎn)品：企業(yè)級(jí)分布式應(yīng)用服務(wù)、消息隊(duì)列 MQ、微服務(wù)引擎、鏈路追蹤、應(yīng)用高可用服務(wù)、應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)

2023-11-13 00:26:48

207

阿里云嚴(yán)重故障，全線(xiàn)產(chǎn)品受影響（已恢復(fù)）

? 22:30 更新：阿里云稱(chēng)，受影響云產(chǎn)品均已恢復(fù)，因故障影響部分云產(chǎn)品的數(shù)據(jù)（如監(jiān)控、賬單等）可能存在延遲推送情況，不影響業(yè)務(wù)運(yùn)行。 19:33 更新：阿里云稱(chēng)，工程師通過(guò)分批重啟組件服務(wù)

2023-11-13 00:26:27

536

Esp8266接入什么平臺(tái)支持阿里智能方糖控制？

Esp8266接入什么平臺(tái)支持阿里智能方糖控制

2023-11-09 06:41:49

云上多活高可用架構(gòu)，助力企業(yè)實(shí)現(xiàn)業(yè)務(wù)無(wú)縫切換與持續(xù)穩(wěn)定運(yùn)行

云上多活高可用架構(gòu),以實(shí)現(xiàn)業(yè)務(wù)的無(wú)縫切換和持續(xù)穩(wěn)定運(yùn)行。2023年云棲大會(huì)現(xiàn)場(chǎng)阿里云高級(jí)專(zhuān)家丁杰現(xiàn)場(chǎng)分享了《云上多活高可用架構(gòu)的趨勢(shì)和實(shí)踐》的主題演講,詳細(xì)介紹了阿里云在多活高可用架構(gòu)的實(shí)踐現(xiàn)狀與未來(lái)趨勢(shì)的分析展示。多活

2023-11-08 14:12:07

396

#高通高通Q4財(cái)報(bào)利潤(rùn)同比下降48%

高通行業(yè)芯事

深圳市浮思特科技有限公司發(fā)布于 2023-11-03 15:57:22

2023云棲大會(huì) 阿里巴巴要打造AI時(shí)代最開(kāi)放的云

2023云棲大會(huì) 阿里巴巴要打造AI時(shí)代最開(kāi)放的云 2023杭州·云棲大會(huì)以“計(jì)算，為了無(wú)法計(jì)算的價(jià)值”為主題開(kāi)啟。2023云棲大會(huì)昨天開(kāi)幕，阿里巴巴集團(tuán)董事會(huì)主席蔡崇信在開(kāi)幕式上致辭；2023

2023-11-01 17:42:57

736

阿里巴巴蔡崇信：國(guó)內(nèi)8成科技公司、半數(shù)大模型公司都跑在阿里云上

云計(jì)算是數(shù)字經(jīng)濟(jì)乃至全社會(huì)的重要基礎(chǔ)設(shè)施。據(jù)介紹，目前全國(guó)80%的科學(xué)技術(shù)企業(yè)和一半以上的ai大模型公司正在阿里云運(yùn)行。10月閉幕的杭州亞運(yùn)會(huì)的核心系統(tǒng)100%在云端運(yùn)行。這是首屆“云上亞運(yùn)會(huì)”，創(chuàng)造了亞運(yùn)會(huì)歷史。

2023-10-31 14:30:34

289

#高通 #英特爾 #Elite 高通X Elite芯片或終結(jié)蘋(píng)果、英特爾的芯片王朝

高通英特爾蘋(píng)果

深圳市浮思特科技有限公司發(fā)布于 2023-10-27 16:46:07

高通驍龍8 Gen 3：智能手機(jī)未來(lái)的強(qiáng)大引擎

智能手機(jī)高通驍龍

北京中科同志科技股份有限公司發(fā)布于 2023-10-25 09:38:49

力壓阿里云輕量服務(wù)器，華為云耀云服務(wù)器 L 實(shí)例如何成為中小企業(yè)的“新歡”

阿里云服務(wù)器在過(guò)去的幾年里一直是中小企業(yè)的首選服務(wù)器之一，它提供了一系列強(qiáng)大的功能和優(yōu)勢(shì)，如高可用性、可擴(kuò)展性和靈活性等，這些特點(diǎn)使得阿里云服務(wù)器受到了廣大用戶(hù)的青睞。然而，隨著技術(shù)的不斷發(fā)展

2023-10-19 21:52:58

157

力壓阿里云輕量服務(wù)器，華為云耀云服務(wù)器 L 實(shí)例如何成為中小企業(yè)的“新歡”

2023-10-19 16:07:16

191

基于阿里云的智能窗簾

實(shí)現(xiàn)功能：光照傳感器實(shí)時(shí)測(cè)量光照強(qiáng)度值，同時(shí)通過(guò)WIFI模塊上傳阿里云平臺(tái)。窗戶(hù)有自動(dòng)模式和手動(dòng)模式。自動(dòng)模式下，當(dāng)光照強(qiáng)度大于100自動(dòng)打開(kāi)窗戶(hù)；低于100自動(dòng)關(guān)閉窗戶(hù)。窗戶(hù)可以通過(guò)紅外遙控器進(jìn)行

2023-10-15 10:38:54

微型導(dǎo)軌可用在哪些設(shè)備上？

2023-10-13 17:58:00

868

捕捉回憶的時(shí)光機(jī)：用AI智能管理的NAS，提升整理效率

Photos的出現(xiàn)，無(wú)論是很多年前的照片，奔赴世界各地的打卡記錄，每個(gè)陪我們走過(guò)一段時(shí)間的朋友，都能精準(zhǔn)找到對(duì)應(yīng)的照片，每一段回憶都值得被珍藏。什么是Terra Photos Terra Photos 是一個(gè)智能照片管理應(yīng)用程序。通過(guò) AI 算法，Terra Photos 能對(duì)

2023-10-11 14:53:13

257

傳統(tǒng)企業(yè)將VMware遷移到阿里云彈性裸金屬的最佳實(shí)踐

場(chǎng)景描述傳統(tǒng)企業(yè)將VMware遷移到阿里云彈性裸金屬，利用云計(jì)算平臺(tái)提供的彈性基礎(chǔ)設(shè)施，降低部分運(yùn)維成本和學(xué)習(xí)成本，使用其擅長(zhǎng)的技術(shù)工具專(zhuān)注自身業(yè)務(wù)，實(shí)現(xiàn)線(xiàn)下業(yè)務(wù)平滑遷移上云。解決問(wèn)題 1.

2023-10-11 11:51:00

115

STM8S103K3 STM8S103F3 STM8S103F2數(shù)據(jù)手冊(cè)

了系統(tǒng)成本 -集成的真數(shù)據(jù)EEPROM，可用于高達(dá)300k的寫(xiě)入/擦除周期 -具有內(nèi)部時(shí)鐘振蕩器、看門(mén)狗和棕色輸出的高系統(tǒng)集成級(jí)別重置。 ?性能和穩(wěn)健性 -16 MHz CPU時(shí)鐘頻率 -強(qiáng)健的I/O

2023-10-10 08:19:04

freemodbus可用在主機(jī)上嗎？

freemodbus可用在主機(jī)上么

2023-10-09 06:40:16

貼片電感壞了可用磁環(huán)電感代替嗎

電子發(fā)燒友網(wǎng)站提供《貼片電感壞了可用磁環(huán)電感代替嗎.docx》資料免費(fèi)下載

2023-09-25 11:48:00

OpenHarmony社區(qū)運(yùn)營(yíng)報(bào)告（2023年8月）

本月快訊 ● 2023年8月3日OpenAtom OpenHarmony以下簡(jiǎn)稱(chēng)“OpenHarmony”發(fā)布了Beta2版本。OpenHarmony 4.0 Beta2在系統(tǒng)能力、應(yīng)用框架、分布式

2023-09-12 18:35:42

阿里新任CEO吳泳銘發(fā)全員信創(chuàng)業(yè)心態(tài) AI驅(qū)動(dòng) 用戶(hù)第一

阿里新任CEO吳泳銘發(fā)全員信創(chuàng)業(yè)心態(tài) AI驅(qū)動(dòng) 用戶(hù)第一阿里正式交棒到吳泳銘手上，阿里新任CEO吳泳銘發(fā)全員信，宣布兩大戰(zhàn)略重心：用戶(hù)為先、AI驅(qū)動(dòng)。在吳泳銘看來(lái)，用戶(hù)第一，所有業(yè)務(wù)的根基是用戶(hù)

2023-09-12 15:24:25

776

阿里張勇時(shí)代正式落幕跟馬云一樣也在教師節(jié)之際辭任

阿里張勇時(shí)代正式落幕跟馬云一樣也在教師節(jié)之際辭任在2023年9月10日教師節(jié)之際，張勇正式卸任阿里巴巴控股集團(tuán)董事會(huì)主席兼CEO職務(wù)。還有阿里云董事長(zhǎng)與CEO職務(wù)。這意味著阿里張勇時(shí)代正式落幕

2023-09-11 16:11:33

297

STM32通過(guò)NB-IoT連接阿里云IOT平臺(tái)

NB-IoT技術(shù)介紹整體框架結(jié)構(gòu) ? 硬件連接注意事項(xiàng) ? DEMO運(yùn)行效果 ? 在阿里云物聯(lián)網(wǎng)平臺(tái)創(chuàng)建并配置產(chǎn)品 ? 在云平臺(tái)創(chuàng)建設(shè)備 ? 常見(jiàn)問(wèn)題及解決方法 ? DEMO運(yùn)行過(guò)程實(shí)物演示

2023-09-11 07:04:09

阿里“通義千問(wèn)”已完成備案即將上線(xiàn)

阿里“通義千問(wèn)”已完成備案即將上線(xiàn) 就在文心一言開(kāi)放之后，其他的大模型都在加速，阿里旗下的大模型“通義千問(wèn)”也即將上線(xiàn)。目前阿里旗下的大模型“通義千問(wèn)”已經(jīng)正式完成了備案，待正式上線(xiàn)。

2023-09-02 15:56:50

248

盤(pán)古大模型和阿里哪個(gè)好？

盤(pán)古大模型和阿里哪個(gè)好？介紹盤(pán)古大模型和阿里巴巴兩個(gè)產(chǎn)品的優(yōu)缺點(diǎn)和適用場(chǎng)景。一、盤(pán)古大模型 1. 產(chǎn)品介紹盤(pán)古大模型是杭州大朗科技有限公司推出的一款大數(shù)據(jù)分析平臺(tái)，通常用于數(shù)據(jù)挖掘、數(shù)據(jù)

2023-08-31 09:01:35

793

潤(rùn)和軟件HopeStage操作系統(tǒng)正式上架阿里云、華為云、騰訊云商店

近日，潤(rùn)和軟件HopeStage操作系統(tǒng)正式上架阿里云、華為云、騰訊云商店。

2023-08-17 11:27:47

542

芯事訪(fǎng)談 | 阿里云張獻(xiàn)濤：算力需求暴增，底層創(chuàng)新為云計(jì)算“續(xù)航”

張獻(xiàn)濤? 阿里云智能基礎(chǔ)產(chǎn)品部副總裁阿里云彈性計(jì)算產(chǎn)品線(xiàn)總經(jīng)理十多年前，當(dāng)業(yè)界還在探討“云計(jì)算將給IT產(chǎn)業(yè)格局帶來(lái)什么變化”時(shí)，也許并沒(méi)有想到云計(jì)算會(huì)從當(dāng)初的抽象構(gòu)想成為全球產(chǎn)業(yè)變革的必由之路，并成長(zhǎng)為重要的經(jīng)濟(jì)引擎。時(shí)至今日，云計(jì)

2023-08-08 14:05:01

1380

一個(gè)可用于計(jì)量電容的電路

這是一個(gè)可用于計(jì)量電容的電路。該電路類(lèi)似于以前的儀表電路。它有一點(diǎn)區(qū)別，該電路使用晶體管而不是邏輯門(mén)。

2023-07-28 15:50:48

311

STM32驅(qū)動(dòng)ESP8266連接阿里云（2）----接入阿里IoT Studio實(shí)現(xiàn)Web可視化

阿里IoT Studio是一個(gè)物聯(lián)網(wǎng)開(kāi)發(fā)平臺(tái)，可用于快速構(gòu)建基于云端的物聯(lián)網(wǎng)應(yīng)用。它提供了豐富的物聯(lián)網(wǎng)組件和工具，使得開(kāi)發(fā)者可以輕松地進(jìn)行設(shè)備接入、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等操作。要實(shí)現(xiàn)Web可視化

2023-07-27 14:13:11

1093

F-35戰(zhàn)斗機(jī)的可用性和使用分析報(bào)告

飛機(jī)可用性。F-35A和F-35C的可用性從2015年到2018年有所下降，但在2019年和2020年有所增加。（可用性以飛機(jī)在訓(xùn)練或任務(wù)中可以飛行的時(shí)間百分比來(lái)衡量。

2023-07-20 11:13:01

572

阿里改革，再無(wú)P8

阿里有著一套獨(dú)特的職級(jí)體系，采用的是 P（profession）和 M（Management）兩條職級(jí)體系，其中，“P”代表專(zhuān)業(yè)序列，如程序員、產(chǎn)品經(jīng)理、運(yùn)營(yíng)、市場(chǎng)等大多員工都在該序列。“M”則為管理序列，需要具備管理團(tuán)隊(duì)的經(jīng)驗(yàn)和能力。

2023-07-16 11:23:30

698

063. 阿里云·無(wú)影云桌面-試用NX1953 #硬聲創(chuàng)作季

阿里云

充八萬(wàn)發(fā)布于 2023-07-06 02:08:04

062. 阿里云·無(wú)影云桌面-試用NX1953-續(xù)

阿里云

充八萬(wàn)發(fā)布于 2023-07-06 02:06:55

華為云網(wǎng)站高可用解決方案，保障企業(yè)業(yè)務(wù)連續(xù)可用，數(shù)據(jù)更安全

中，我最終選擇了華為云網(wǎng)站高可用解決方案，并且非常滿(mǎn)意它的效果和服務(wù)。今天，我就來(lái)和大家分享一下，為什么我推薦華為云網(wǎng)站高可用解決方案。首先，華為云網(wǎng)站高可用解決方案的服務(wù)高可用，數(shù)據(jù)更可靠。華為云網(wǎng)站高可用解決方

2023-07-04 14:45:19

276

提高網(wǎng)站可用性需要真家伙，華為云網(wǎng)站高可用解決方案有何亮點(diǎn)？

作為 IT 從業(yè)者，我經(jīng)常遇到網(wǎng)站的可用性問(wèn)題。網(wǎng)站的可用性是指網(wǎng)站能夠正常運(yùn)行，不受故障、攻擊或其他因素的影響。網(wǎng)站的可用性對(duì)于網(wǎng)站的業(yè)務(wù)和用戶(hù)體驗(yàn)非常重要，因?yàn)槿绻W(wǎng)站出現(xiàn)故障或無(wú)法訪(fǎng)問(wèn)，就會(huì)

2023-07-03 22:32:50

277

想通過(guò)ESP8266連接阿里云，固件哪里有？

想用新唐的板子，通過(guò)esp8266連接阿里云有沒(méi)有測(cè)試好的esp8266的固件？還是說(shuō)，這個(gè)固件要自己修改，自己寫(xiě)？

2023-06-27 07:40:08

阿里再變革張勇退出集團(tuán)CEO和董事會(huì)主席轉(zhuǎn)向阿里云

阿里再變革張勇退出集團(tuán)CEO和董事會(huì)主席轉(zhuǎn)向阿里云阿里“24年以來(lái)最大變革”進(jìn)行中，阿里再變革；而且邁進(jìn)深水區(qū)，6月20日，阿里巴巴集團(tuán)董事會(huì)主席兼CEO張勇發(fā)布全員信，正式宣布自2023

2023-06-21 19:16:51

446

張勇即將卸任阿里董事會(huì)主席兼CEO，未來(lái)專(zhuān)注阿里云業(yè)務(wù)

據(jù)悉，阿里巴巴控股集團(tuán)董事會(huì)主席兼CEO張勇日前通過(guò)全員信宣布，阿里的自我變革正順利平穩(wěn)推進(jìn)，1+6+N的全新業(yè)務(wù)集群基本成型，各業(yè)務(wù)集團(tuán)董事會(huì)已開(kāi)始運(yùn)行，多個(gè)業(yè)務(wù)的上市和融資計(jì)劃也已開(kāi)展，控股集團(tuán)將主要承擔(dān)創(chuàng)新孵化大本營(yíng)角色。

2023-06-21 09:40:14

334

專(zhuān)訪(fǎng)深開(kāi)鴻C(jī)EO王成錄：做成鴻蒙生態(tài) 需要一家萬(wàn)億市值的公司

還能怎么玩”，受到產(chǎn)業(yè)各方和市場(chǎng)關(guān)注。 2022年5月，主導(dǎo)了鴻蒙系統(tǒng)開(kāi)發(fā)的負(fù)責(zé)人王成錄從華為離職，加盟了一家剛成立不久的公司，外界對(duì)此有著諸多猜想。王成錄告訴《科創(chuàng)板日?qǐng)?bào)》記者，之所以離開(kāi)華為

2023-06-15 14:46:36

高可靠高賦能M3系列(MG32F1x) - 智能門(mén)鎖的大腦

高可靠高賦能M3系列(MG32F10x/157) - 智能鎖的大腦穩(wěn)健增長(zhǎng)的市場(chǎng)智能門(mén)鎖是一種可以通過(guò)智能手機(jī)、指紋識(shí)別、密碼等方式打開(kāi)的電子門(mén)鎖。近年來(lái)，隨著人們對(duì)智能家居的需求不斷增加，智能

2023-06-12 09:42:33

阿里AliOS的編碼風(fēng)格

其實(shí)，我們身邊就有很多“好的資源”值得學(xué)習(xí)，比如本文分享的阿里 AliOS 的編碼風(fēng)格。

2023-06-02 09:26:23

108

ESP32-C2接入阿里云方案

阿里云物聯(lián)網(wǎng)套件，其目的是幫助開(kāi)發(fā)者搭建安全、強(qiáng)大的數(shù)據(jù)通道，方便終端和云端的雙向通信。全球部署多節(jié)點(diǎn)讓全球范圍海量設(shè)備可以安全低延時(shí)接入阿里云IoT Hub，提供多重防護(hù)保障云端安全，同時(shí)性能上支撐億級(jí)設(shè)備長(zhǎng)連接，百萬(wàn)消息并發(fā)。

2023-05-31 14:56:37

410

iMX8QM MEK CPU加速度計(jì)和陀螺儀在Kitchen Sink應(yīng)用程序中不可用怎么處理？

。 .\\uuu_imx_android_flash.bat -f imx8qm -e 我發(fā)現(xiàn)加速度計(jì)和陀螺儀在 Kitchen Sink 應(yīng)用程序中不可用。如何啟用這些傳感器？

2023-05-31 07:47:42

高通驍龍8 Gen4放棄公版：升級(jí)自研架構(gòu)Oryon CPU

ARM正醞釀對(duì)其IP授權(quán)模式進(jìn)行大刀闊斧地改革。對(duì)此，數(shù)碼閑聊站分享稱(chēng)，ARM授權(quán)收緊，高通最快在SM8750也就是驍龍8 Gen4開(kāi)始使用自研架構(gòu)Nuvia，2+6 8核設(shè)計(jì)。此前，雖然高通驍

2023-05-28 08:49:17

影像無(wú)處不在，回憶如何“安”放

時(shí)隔幾年再逛PE展主題依舊是“影像無(wú)處不在”，我們的回憶又將如何“安”放？僅憑先進(jìn)的科技手段記錄生活還遠(yuǎn)遠(yuǎn)不夠，存儲(chǔ)介質(zhì)和存儲(chǔ)技術(shù)的革新也發(fā)揮著巨大積極的作用。唯有此才能做到“安”放。在本屆PE 2023的故事暫告一段落，你的故事準(zhǔn)備好了嗎？可以“安”放了嗎？審核編輯?黃宇

2023-05-22 09:21:40

392

阿里云與IBM攜手為亞太區(qū)企業(yè)提供合作安全解決方案

構(gòu)建安全云環(huán)境提升亞太區(qū)客戶(hù)數(shù)字化轉(zhuǎn)型效益阿里巴巴集團(tuán)的數(shù)字技術(shù)和智能骨干業(yè)務(wù)阿里云宣布與 IBM 聯(lián)手，為亞太區(qū)企業(yè)提供合作開(kāi)發(fā)的安全解決方案。該解決方案集成了 IBM 安全產(chǎn)品 QRadar

2023-05-19 12:00:38

1067

阿里又開(kāi)源一款數(shù)據(jù)同步工具DataX，穩(wěn)定又高效，好用到爆！

DataX 是阿里云 DataWorks 數(shù)據(jù)集成的開(kāi)源版本，主要就是用于實(shí)現(xiàn)數(shù)據(jù)間的離線(xiàn)同步。 DataX 致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(kù)（MySQL、Oracle 等）、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源（即不同的數(shù)據(jù)庫(kù)）間穩(wěn)定高效的數(shù)據(jù)同步功能。

2023-05-18 10:52:40

3214

f429igt6阿里云與iwip對(duì)接出現(xiàn)問(wèn)題怎么解決呢？

rtt系統(tǒng)使用4.0.1系統(tǒng)。硬件網(wǎng)絡(luò)選擇enc28j60模塊協(xié)議棧使用iwip2.0.1 阿里云SDK包使用3.0.1 當(dāng)前通過(guò)ping命令測(cè)試數(shù)據(jù)是ping通的。所以確認(rèn)網(wǎng)絡(luò)通信正常。但是

2023-05-17 10:57:53

使用阿里云Redis的開(kāi)發(fā)規(guī)范

本文介紹了在使用阿里云Redis的開(kāi)發(fā)規(guī)范，從鍵值設(shè)計(jì)、命令使用、客戶(hù)端使用、相關(guān)工具等方面進(jìn)行說(shuō)明，通過(guò)本文的介紹可以減少使用Redis過(guò)程帶來(lái)的問(wèn)題。

2023-05-06 11:06:42

155

i.MX8QuadMax如何選擇和使用多個(gè)串口？

據(jù)我所知，i.MX8QuadMax 開(kāi)發(fā)板有多個(gè)可用的 UART 接口。如何選擇和使用多個(gè)串口？

2023-05-06 08:04:22

i.MX RT系列上是否有8個(gè)PWM通道可用？

RT 系列上是否有 8 個(gè) PWM 通道可用？是否可以驅(qū)動(dòng) 2 個(gè) BLDC 和 1 個(gè) DC 電機(jī)？如何？

2023-05-06 06:33:41

概倫電子與阿里云深化合作加速推動(dòng)EDA上云

概倫電子與阿里云深化合作加速推動(dòng)EDA上云 EDA號(hào)稱(chēng)芯片之母現(xiàn)在也要上云了。根據(jù)概倫電子官微發(fā)布的消息顯示，概倫電子一直致力于推進(jìn)EDA上云，概倫電子將與阿里云持續(xù)深化合作，加速推動(dòng)EDA

2023-05-05 17:25:26

1672

阿里云組件的底層HAL TCP相關(guān)接口是不是有問(wèn)題？

使能AT組件，選擇EC200S連接阿里云，出現(xiàn)錯(cuò)誤，一直解析不出來(lái)地址，換的AIR720也是這樣，阿里云組件的底層HAL TCP相關(guān)接口是不是有問(wèn)題bug?

2023-05-05 14:41:26

PCA9450CHN可用于iMX8M Nano嗎？

能否請(qǐng)您幫忙告知 PCA9450CHN 可用于 iMX8M Nano 因?yàn)槲覀冇?PCA9450CHN 庫(kù)存，如果可能的話(huà)，需要使用 iMX8M Nano 開(kāi)始新設(shè)計(jì) - 需要通過(guò) i2c 進(jìn)行任何軟件配置 - 硬件設(shè)計(jì)的任何應(yīng)用說(shuō)明

2023-05-05 14:03:42

基于MQTT協(xié)議設(shè)計(jì)的實(shí)時(shí)圖傳系統(tǒng)（阿里云物聯(lián)網(wǎng)平臺(tái)）

當(dāng)前基于MQTT協(xié)議設(shè)計(jì)了一個(gè)實(shí)時(shí)圖傳系統(tǒng)，通過(guò)這個(gè)項(xiàng)目來(lái)演示，兩個(gè)MQTT設(shè)備如何互相訂閱，進(jìn)行消息流轉(zhuǎn)。在阿里云服務(wù)器上創(chuàng)建2個(gè)設(shè)備，分為為設(shè)備A和設(shè)備B；設(shè)備A負(fù)責(zé)采集本地?cái)z像頭畫(huà)面

2023-04-27 09:16:14

6204

基于阿里云MQTT物聯(lián)網(wǎng)平臺(tái)視頻監(jiān)控(下)

1.項(xiàng)目介紹 ? ? ? 本項(xiàng)目基于物聯(lián)量平臺(tái)遠(yuǎn)程的視頻監(jiān)控項(xiàng)目，通過(guò)MQTT協(xié)議實(shí)現(xiàn)兩個(gè)設(shè)備間的數(shù)據(jù)上報(bào)與訂閱。通過(guò)這個(gè)項(xiàng)目來(lái)演示，兩個(gè)MQTT設(shè)備如何互相訂閱，進(jìn)行消息流轉(zhuǎn)。在阿里云服務(wù)器上創(chuàng)建

2023-04-24 14:41:35

936

基于阿里云MQTT物聯(lián)網(wǎng)平臺(tái)視頻監(jiān)控(上)

本項(xiàng)目基于物聯(lián)量平臺(tái)遠(yuǎn)程的視頻監(jiān)控項(xiàng)目，通過(guò)MQTT協(xié)議實(shí)現(xiàn)兩個(gè)設(shè)備間的數(shù)據(jù)上報(bào)與訂閱。通過(guò)這個(gè)項(xiàng)目來(lái)演示，兩個(gè)MQTT設(shè)備如何互相訂閱，進(jìn)行消息流轉(zhuǎn)。在阿里云服務(wù)器上創(chuàng)建2個(gè)設(shè)備，分為為設(shè)備

2023-04-18 16:58:59

670

阿里提及的MaaS，會(huì)如何改變?cè)破脚_(tái)？

《科創(chuàng)板日?qǐng)?bào)》11日訊，2023阿里云峰會(huì)今日舉行。阿里集團(tuán)董事會(huì)主席兼CEO張勇表示，阿里云已形成模型即服務(wù)（MaaS）、平臺(tái)即服務(wù)（PaaS）、基礎(chǔ)設(shè)施即服務(wù)（IaaS）三層架構(gòu)，其中模型即服務(wù)

2023-04-14 09:22:15

511