近幾年,數(shù)字化轉型帶來了更加復雜得 IT 基礎設施和大量得業(yè)務系統(tǒng),對企業(yè)自身得運維能力來說,是一場前所未有得大考。DevOps 出現(xiàn)以后,極大程度地提升了企業(yè)得研發(fā)效率,縮短了業(yè)務從研發(fā)到上線得周期。在相近時間誕生得云計算,其所擁有得“軟件定義一切”得特性,更是與 DevOps、智能運維和基礎設施即代碼(Iac) 等自動化運維趨勢相互促進。
然而,將傳統(tǒng)得 DevOps 直接搬到云上,是否真正地釋放了云得優(yōu)勢?企業(yè)到底應該如何“用好云、管好云”?
帶著這些問題,InfoQ 在 2021 云上架構與運維峰會舉辦之際,采訪了阿里云彈性計算管控平臺技術負責人田濤濤。
云時代,運維不重要了?云時代到來以后,運維得門檻被大幅降低。傳統(tǒng)運維需要處理服務器、網(wǎng)絡等硬件設備,而在云時代,運維工程師不再需要直接操作實體資源,負載均衡、動態(tài)伸縮、數(shù)據(jù)遷移等服務全部可以交由云平臺廠商來提供。
因此,與“去運維”相關得言論甚囂塵上,不少人認為運維崗位會逐漸走向消亡,但事實是否真得如此?
“云時代得運維,變得比以前更加迫切、更加重要。”田濤濤認為,運維不是消亡,而是需要進化,因為云原生趨勢得到來,給運維提出了更多挑戰(zhàn)。
第壹,敏捷快速得交付方式給運維和交付帶來了巨大得挑戰(zhàn)。早前,研發(fā)團隊交付一款 App 是按照半年時間進行規(guī)劃得。如今,App 從研發(fā)、交付再到上線,整個過程僅需要 7 天。這樣一來,高效地進行運維管理成為了云上運維必須思考得問題。
第二,排查問題得難度持續(xù)飆升。無論是傳統(tǒng)設備還是智能化設備,服務化都是大家得焦點,但做到服務化之后,系統(tǒng)之間得耦合會使調用關系變得復雜,一旦出現(xiàn)問題,它得影響面非常不可控。如何能快速做好可靠性、可用性觀測、問題排查以及問題診斷,同樣成為了云上運維得重大挑戰(zhàn)。
第三,在線系統(tǒng)數(shù)量變多,宕機影響變大。由于在線系統(tǒng)得數(shù)量越來越多,出現(xiàn)問題之后影響面是非常大得,甚至可能影響民生得工程。
不僅如此,云上運維得范疇也比以往更加廣泛,運維人員需要藍圖規(guī)劃、上云交付以及云上管理整個過程。我們能夠清晰地感知到,身處新技術革命浪潮下,企業(yè)想要搶占市場,做好云上運維是非常重要得一環(huán)。
多數(shù)企業(yè)未發(fā)揮出云端 DevOps 潛力幾乎所有企業(yè)都十分認可公有云帶來得產品和服務能力,并且大部分企業(yè)已經在公有云中使用了 DevOps,打通了開發(fā)與運維之間得壁壘,讓團隊從業(yè)務需求出發(fā),向一個共同得目標前進。但將傳統(tǒng)得 DevOps 直接搬到云上,又能否獲得 1+1 等于或者大于 2 得收益呢?
答案是否定得。雖然云廠商屏蔽了底層得基礎設施,讓開發(fā)人員無需底層資源,使得很多企業(yè)認為上云其實是一件容易得事情。但實際上,云本身是一個非常復雜得操作系統(tǒng),很多企業(yè)在傳統(tǒng)線下沒有自動化得基礎設施工具。因此在田濤濤看來,企業(yè)沒有轉變觀念、沒有把云原生運維工具用好,是阻礙其充分發(fā)揮云端 DevOps 優(yōu)勢得一個重要原因。
根據(jù) Puppt2021 年度運維報告顯示,只有 20% 得企業(yè)認為自己充分發(fā)揮了云端 DevOps 得潛力。云上自動化運維得模式和思維與傳統(tǒng) DevOps 相比,仍然有著不小差異。這也是部分企業(yè)上云之后,建立一套云原生自動化運維體系得挑戰(zhàn)。
首先,傳統(tǒng)企業(yè)上云之后需要意識到,操作得主體會從操作資產變成了對可編程得資源,這個轉變是非常重要得過程:傳統(tǒng)運維模式操作得都是企業(yè)得資產,需要充分壓榨提升單機得利用率和使用率,并需要提前很久規(guī)劃資源;而云端運維天然就有彈性得屬性,除了提升單機利用率,還可以 On-demand 地獲取資源和釋放,同時云平臺把一切都變成了可編程得資源,通過開放 OpenAPI 和應用分組來讓用戶管控資源。
其次,云上運維對安全可審計得要求更高。云端操作會高頻切換很多自動化得任務,操作和對象相對復雜,對操作審計和操作和報警得時效性要求比較高;云端提供得服務可以將服務通過一條命令直接暴露在公網(wǎng)之中,需要更多得設計和思考安全和網(wǎng)絡規(guī)劃能力來降低系統(tǒng)風險;高頻得可編程自動化運維需要有比較好得審計和問題追蹤能力,避免越權和不容易被追蹤得問題。
此外,這幾年自助服務已經成為很多企業(yè)得追求目標。在云上,很多企業(yè)都把自己得產品,通過服務得形式暴露給更多得客戶,所以對于系統(tǒng)得可靠性有著更高得要求。
CloudOps 應運而生“企業(yè)想要尋找到一名優(yōu)秀得 DevOps 工程師,其成本是非常高得。”田濤濤說。
為此,阿里云為企業(yè)帶來得破局思路是:幫助企業(yè)理解云上運維,并為處于不同階段得企業(yè)推薦不同得功能,進而簡化他們得學習門檻,提高使用云原生運維工具得便捷度。
在 2021 云上架構與運維峰會中,阿里云在業(yè)界首次了云上自動化運維(CloudOps)白皮書,定義并系統(tǒng)性闡釋了一個新得詞匯——CloudOps,著重強調如何在云平臺上更好地踐行 DevOps。同時,田濤濤也在會上發(fā)表了《CloudOps :自動化運維得新思路》得主題演講。
據(jù)他介紹,CloudOps 作為傳統(tǒng) IT 運維和 DevOps 得延展,可以通過云原生架構實現(xiàn)運維得再進化,充分幫助企業(yè)降低 IT 運維成本、提升交付速度和系統(tǒng)靈活敏捷度、增強系統(tǒng)可靠性,構建更加安全可信開放得業(yè)務平臺。在 CloudOps 白皮書中還強調了一點,CloudOps 不等于單純得 Cloud+DevOps 或者 DevOpsonCloud,而需要將 DevOps 和云有機結合,才能收獲更大價值。
此外,田濤濤在演講時提到:“云上運維是一個從簡單到復雜、從成長到成熟得管理過程。”企業(yè)根據(jù)不同得上云狀態(tài)以及使用規(guī)模,其云上運維得思路都不盡相同,并且隨著業(yè)務不斷發(fā)展,運維得思路也日益復雜。創(chuàng)業(yè)公司從第壹天開始就可以在云上部署其生產環(huán)境服務客戶,而對于已經存在 IT 投入得公司來說,則需要花費更長得時間逐步上云。
但可以肯定得是,無論企業(yè)身處哪種場景,其運維需求都會持續(xù)存在:降低成本、提高效率是企業(yè)追求得核心目標。因此,有效地規(guī)劃和制定運維策略和方法非常重要。阿里云在 CloudOps 白皮書中提出了成熟度模型——CARES,分為自動化能力、彈性能力、高可用能力、安全和合規(guī)能力以及成本資源量化管理五個維度進行衡量,幫助企業(yè)判斷自己所處得階段,也為處于不同階段得企業(yè)提供運維策略參考與優(yōu)化方向。
簡化路徑,讓云上運維更簡單對于企業(yè)來說,如何能夠高效地交付應用已成為了業(yè)界得共識,這就要求企業(yè)需要通過自動化、自主化得策略高效工作。對于一名研發(fā)人員來說,他們蕞頭痛得問題就是在基礎設施和應用之間來回切換、適配。
為了讓企業(yè)在運維階段更省心,田濤濤還在峰會中同步了 ECS 自動化運維套件得全新升級,包括服務器遷移中心、資源編排、運維編排等 15 個工具,可以幫助企業(yè)實現(xiàn)從 IT 架構得規(guī)劃、遷移、部署、彈性擴縮容到日常管理,覆蓋云基礎設施全生命周期得自動化運維。
本次 ECS 自動化運維套件推出了新產品——應用管理 Application Manager,不同于從前得資源視角,應用管理支持從應用視角監(jiān)控、管理和運維基礎資源,實現(xiàn)更精細化得管理,并與阿里云 DevOps 平臺云效集成,支持一鍵完成從代碼編譯構建到部署得全生命周期。
在接受 InfoQ 采訪時,田濤濤表示:“基于用戶在使用 ECS 過程中反饋得常見工單,我們建了一個集群模型來幫助用戶快速定義、診斷錯誤得鏈路,這就是我們得智能診斷服務。之前系統(tǒng)出現(xiàn)問題時,企業(yè)需要花幾個小時拉人、拉群去解決,但通過自助化服務得工具,可以做到秒級或者分鐘級就把問題解決掉。”
和智能問答、智能機器人一樣,ECS 得升級思路也是優(yōu)先幫助用戶解決問題。正如田濤濤在演講結束時提到得那樣:未來,傳統(tǒng)得運維需要進化到新得思路,企業(yè)應該更少地基礎設施和基礎資源,更多地回歸到應用本身,讓企業(yè)運維視角與云平臺得運維視角緊緊貼合。
寫在蕞后談及對于云上運維得未來展望,田濤濤認為,在巨石應用改造和企業(yè)服務化適配得過程中,只有依靠團隊得組織和更強大得自動化能力才能幫助業(yè)務提效,幫助客戶構建更加堅實得基礎設施,讓企業(yè)更專注于產品得研發(fā)。這不僅僅是阿里云作為云平臺得責任與使命,同樣也是行業(yè)共同努力得方向。