AWS故障與應用程式的韌性:Roomba是否取代了Canary?

AWS故障與應用程式的韌性:Roomba是否取代了Canary?

金絲雀曾被送進煤礦作為對危險的早期警告,對我來說,當我的羅姆巴無法自動搜尋狗毛並清潔我兒子餐廳椅下的地板時,就是這樣的一個警示。雲端啟用的應用程序也開始表現得“怪怪的”。有些無法使用,而有些則是反應緩慢——在我看來,慢就等於無法使用;誰會有耐心等待一個應用程序加載呢?

造成整個互聯網頭痛的是什麼?一次AWS的中斷。

自從12月7日的中斷以來,我與CIO們、同事以及其他行業分析師進行了多次對話,許多共同的擔憂仍未得到解答。以下是對最近的us-east-1中斷的一些快速思考。

了解AWS SLA

重要的是要記住,AWS要求實例/應用程序部署在兩個或更多的區域,以實現冗餘和韌性。SLA不僅是服務消費者評估他們所花錢的價值的一種方式,它也是雲服務提供商(CSP)與客戶之間的合同協議。它概述了雲服務將遵守的運行時間、可用性和性能標準。它還可能規定,服務提供商的幫助台將在一定時間內對中斷做出回應。亞馬遜有非常明確的SLA。如果客戶在一個月內的運行時間少於99.99%,公司將向他們的賬戶提供信用。

然而,有三件事需要記住:

99.99%的運行時間協議仍然意味著你願意容忍服務每月下線將近四分半鐘(每年53分鐘),並且你必須以符合AWS SLA的方式構建你的AWS實例和應用程序。第三點是,在AWS看來,這次中斷不是他們的錯。

中斷不僅僅影響初創公司和計劃不善的組織

雲服務使組織能夠定期做出預算與韌性之間的決策。然而,最近的AWS中斷不僅僅影響了網生初創公司。像迪士尼、麥當勞和亞馬遜自身這樣的成熟企業也受到了中斷的影響。這些技術先導公司不是在預算與韌性之間做出犧牲。他們知道自己是技術公司——他們有代表這一優先權的龐大IT預算,但仍然措手不及。

反覆出現的問題是,為什麼所有這些組織都會因為單一的亞馬遜區域宕機而陷入癱瘓?是架構不佳嗎?這些AWS客戶是否完全不了解AWS的SLA?他們是選擇了預算而不是韌性嗎?

亞馬遜作為企業平台

Adam Selipsky在re:Invent 2021的主旨演講和行業分析師問答清楚地表明,AWS完全專注於企業。亞馬遜理解DevOps社區的需求,但他們仍在發展其對企業的方法。谷歌雲端也認識到自己組織中的同樣不足,從甲骨文公司聘請Thomas Kurian來建立公司的企業和IT行業形象。

技術行業的每個人都明白,中斷和性能緩慢會發生,但他們期望服務提供商能提供最佳實踐並避免停機。回應Selipsky在re:Invent的主旨演講,聯合航空的技術執行副總裁兼首席數字官Linda Jojo表示,該航空公司選擇了“單一雲”方法。當然,聯合航空無法容忍經常的停機。

我的觀點

2021年12月7日對AWS來說,並不會成為臭名昭著的一天;我們已經見證了許多其他的中斷。

應用程序的韌性仍是一個新興的關注領域。過去,重點放在平台和數據中心的運行時間上;然而,在許多情況下,開發者對基礎設施沒有控制權。因此,團隊需要關注應用程序的韌性,並假設底層的IaaS(雲基礎設施)可能因為某種原因而失敗。

此外,亞馬遜需要提供更有見解的產品。災難恢復和故障轉移應該被內建在AWS的每一個層級中。軟體公司不應該被迫只能選擇多區域部署,但至少AWS應該提供建議這種做法的最佳實踐。

Telegram : @Alan5808

Line : @286fhkvy

Youtube : @kingcloud85

FB : https://www.facebook.com/kingcloud.tech/