有些大型獨角獸公司擁有數(shù)百名開發(fā)人員,每天更新代碼超過100次,云上有超過4000臺虛擬機,每月收集數(shù)PB的數(shù)據(jù)。而DevOps團隊人數(shù)有限,這對于少量的團隊成員來說是一個艱巨且繁重的任務(wù)。巨大的挑戰(zhàn)終將超過人類的能力范圍,而AIOps成為了一種解決方案。
AIOps的概念由Gartner在2016年提出,旨在使用大數(shù)據(jù)、機器學(xué)習(xí)等方法來提升運維能力,其目的是進一步降低自動化運維中人為干擾,最終實現(xiàn)運維無人化、完全自動化。隨著現(xiàn)在人工智能技術(shù)的不斷地發(fā)展,智能運維有望得以落地,目前許多企業(yè)都在積極探索中。
AIOps又稱為智能運維或基于算法的IT運維。目前智能運維還處于初步探索階段,近期在國外已經(jīng)發(fā)起了面向智能運維的研究,但是在國內(nèi),大部分IT企業(yè)還處于自動化運維的階段,一部分大型企業(yè)正在向智能運維的方向探索。
清華大學(xué)裴丹教授把AIOps和自動化運維的關(guān)系做了界定,自動化運維需要具有行業(yè)領(lǐng)域知識和運維場景的知識,具有實際處理能力。自動化運維基于規(guī)則,適用于中小環(huán)境。AIOps是去規(guī)則化的,嘗試通過大量的數(shù)據(jù)訓(xùn)練,自動琢磨出來規(guī)則,因此適用于大型或更復(fù)雜的環(huán)境。
具體而言,是對我們平時運維工作中長時間積累形成的自動化運維和監(jiān)控等能力,將其規(guī)則配置部分,進行自學(xué)習(xí)的“去規(guī)則化”改造,最終達到終極目標(biāo):由AI調(diào)度中樞管理的,質(zhì)量、成本、效率三者兼顧的無人值守運維,力爭所運營系統(tǒng)的綜合收益最大化。
GAVS、Moogsoft等互聯(lián)網(wǎng)公司都發(fā)布了AIOps的白皮書。其中,GAVS在白皮書中提出將算法作為有競爭力的工具,并提出了構(gòu)成智能運維系統(tǒng)的一些主要元素,包括監(jiān)控生態(tài)系統(tǒng),分析系統(tǒng),記錄系統(tǒng),自動腳本系統(tǒng),數(shù)據(jù)池等關(guān)鍵組件。同時,GAVS也在白皮書中提出了對AIOps的愿景,包括提升對業(yè)務(wù)、信息、網(wǎng)絡(luò)和設(shè)施的可見度;實時分析診斷問題并提供解決方法;實時通知警告存在問題;信息監(jiān)控和行為預(yù)測等。
Moogsoft提出當(dāng)今的計算能力已經(jīng)變得高效、便捷、便宜;如今的算法諸如監(jiān)督學(xué)習(xí)/無監(jiān)督學(xué)習(xí),已經(jīng)有能力從大數(shù)據(jù)中推導(dǎo)出相關(guān)的含義,因此可以使用AIOps協(xié)助人們進行IT運維。2018年4月,由高效運維社區(qū)發(fā)起,聯(lián)合百度、阿里巴巴、騰訊等多家企業(yè)人員起草了《企業(yè)級AIOps實施建議》白皮書V0.6。
白皮書闡釋了AIOps的目標(biāo)是“利用大數(shù)據(jù)、機器學(xué)習(xí)和其他分析技術(shù),通過預(yù)防預(yù)測、個性化和動態(tài)分析,直接和間接增強IT業(yè)務(wù)的相關(guān)技術(shù)能力,實現(xiàn)所維護產(chǎn)品或服務(wù)的更高質(zhì)量、合理成本及高效支撐”。白皮書中建議“AIOps的建設(shè)可以從無到局部單點探索,再到單點能力完善,形成解決某個局部問題的運維AI'學(xué)件’(也稱為AI運維組件),再由多個具有AI能力的單運維能力點組合成一個智能運維流程”。
AIOps是一個總稱,用于指代使用復(fù)雜的基礎(chǔ)設(shè)施管理軟件和云解決方案監(jiān)控工具來實現(xiàn)自動化數(shù)據(jù)分析和日常的DevOps操作。AIOps是運維的終極形式,Devops是AIops的必經(jīng)之路,AIOps是Devops在運維技術(shù)側(cè)的高級實現(xiàn)。DevOps要做得好,必須借助于AI。兩個相互不沖突。而且部署AIOps解決方案可以實現(xiàn)以下的積極成果:
(1) 不間斷的產(chǎn)品可用性,帶來積極的終端用戶體驗。
(2) 優(yōu)先解決問題,而不是永久性地滅火。
(3) 消除數(shù)據(jù)孤島并實現(xiàn)根本性的故障修復(fù)。
(4) 日常任務(wù)的自動化,使IT部門能夠集中精力于改進基礎(chǔ)架構(gòu)和流程,而不是處理重復(fù)且耗時的任務(wù)。
(5) 更好的協(xié)作,因為對日志的深入分析有助于顯示管理決策的影響,并評估采用的業(yè)務(wù)戰(zhàn)略的效率。
活在信息時代的其它文章:
Java程序員應(yīng)知應(yīng)會之Spring AOP詳解
程序員應(yīng)知應(yīng)會之設(shè)計模式的七大原則
從DevOps到AIOps(五):配置管理及監(jiān)控工具
從DevOps到AIOps(二):協(xié)同開發(fā)工具
從DevOps到AIOps(一):DevOps的背景與發(fā)展
程序員應(yīng)知應(yīng)會之越權(quán)問題
自然語言處理(一):從試圖建立規(guī)則到試圖適應(yīng)規(guī)則
移動開發(fā)知識:Android平臺如何進行藍牙模塊開發(fā)
Java程序員應(yīng)知應(yīng)會之Maven和Gradle的區(qū)別
GIS開發(fā)?你不得不了解的那些行業(yè)標(biāo)準
程序員應(yīng)知應(yīng)會之MySQL的存儲引擎
程序員應(yīng)知應(yīng)會之?dāng)?shù)據(jù)庫發(fā)展簡史
程序員應(yīng)知應(yīng)會之二進制小數(shù)的計算
JDK13新特性詳解:老舊的Socket API是如何被重寫的
Java Web程序員應(yīng)知應(yīng)會:Jsp的內(nèi)置對象與應(yīng)用
聯(lián)系客服