AWS故障與應用程式的韌性：Roomba是否取代了Canary？

AWS

金絲雀曾被送進煤礦作為對危險的早期警告，對我來說，當我的羅姆巴無法自動搜尋狗毛並清潔我兒子餐廳椅下的地板時，就是這樣的一個警示。雲端啟用的應用程序也開始表現得“怪怪的”。有些無法使用，而有些則是反應緩慢——在我看來，慢就等於無法使用；誰會有耐心等待一個應用程序加載呢？

造成整個互聯網頭痛的是什麼？一次AWS的中斷。

自從12月7日的中斷以來，我與CIO們、同事以及其他行業分析師進行了多次對話，許多共同的擔憂仍未得到解答。以下是對最近的us-east-1中斷的一些快速思考。

了解AWS SLA

重要的是要記住，AWS要求實例/應用程序部署在兩個或更多的區域，以實現冗餘和韌性。SLA不僅是服務消費者評估他們所花錢的價值的一種方式，它也是雲服務提供商（CSP）與客戶之間的合同協議。它概述了雲服務將遵守的運行時間、可用性和性能標準。它還可能規定，服務提供商的幫助台將在一定時間內對中斷做出回應。亞馬遜有非常明確的SLA。如果客戶在一個月內的運行時間少於99.99%，公司將向他們的賬戶提供信用。

然而，有三件事需要記住：

99.99%的運行時間協議仍然意味著你願意容忍服務每月下線將近四分半鐘（每年53分鐘），並且你必須以符合AWS SLA的方式構建你的AWS實例和應用程序。第三點是，在AWS看來，這次中斷不是他們的錯。

中斷不僅僅影響初創公司和計劃不善的組織

雲服務使組織能夠定期做出預算與韌性之間的決策。然而，最近的AWS中斷不僅僅影響了網生初創公司。像迪士尼、麥當勞和亞馬遜自身這樣的成熟企業也受到了中斷的影響。這些技術先導公司不是在預算與韌性之間做出犧牲。他們知道自己是技術公司——他們有代表這一優先權的龐大IT預算，但仍然措手不及。

反覆出現的問題是，為什麼所有這些組織都會因為單一的亞馬遜區域宕機而陷入癱瘓？是架構不佳嗎？這些AWS客戶是否完全不了解AWS的SLA？他們是選擇了預算而不是韌性嗎？

亞馬遜作為企業平台

Adam Selipsky在re:Invent 2021的主旨演講和行業分析師問答清楚地表明，AWS完全專注於企業。亞馬遜理解DevOps社區的需求，但他們仍在發展其對企業的方法。谷歌雲端也認識到自己組織中的同樣不足，從甲骨文公司聘請Thomas Kurian來建立公司的企業和IT行業形象。

技術行業的每個人都明白，中斷和性能緩慢會發生，但他們期望服務提供商能提供最佳實踐並避免停機。回應Selipsky在re:Invent的主旨演講，聯合航空的技術執行副總裁兼首席數字官Linda Jojo表示，該航空公司選擇了“單一雲”方法。當然，聯合航空無法容忍經常的停機。

我的觀點

2021年12月7日對AWS來說，並不會成為臭名昭著的一天；我們已經見證了許多其他的中斷。

應用程序的韌性仍是一個新興的關注領域。過去，重點放在平台和數據中心的運行時間上；然而，在許多情況下，開發者對基礎設施沒有控制權。因此，團隊需要關注應用程序的韌性，並假設底層的IaaS（雲基礎設施）可能因為某種原因而失敗。

此外，亞馬遜需要提供更有見解的產品。災難恢復和故障轉移應該被內建在AWS的每一個層級中。軟體公司不應該被迫只能選擇多區域部署，但至少AWS應該提供建議這種做法的最佳實踐。

Telegram : @Alan5808

Line : @286fhkvy

Youtube : @kingcloud85

FB : https://www.facebook.com/kingcloud.tech/