所謂的AIOps,簡單理解就是基于自動化運(yùn)維,將AI和運(yùn)維很好的結(jié)合起來。
AIOps的落地在多方面直擊傳統(tǒng)運(yùn)維的痛點(diǎn),AI算法承擔(dān)起分析海量運(yùn)維數(shù)據(jù)的重任,能夠自動、準(zhǔn)確地發(fā)現(xiàn)和定位問題,從決策層面提高運(yùn)營效率,為企業(yè)運(yùn)營和運(yùn)維工作在成本、質(zhì)量和效率方面的優(yōu)化提供了重要支持。
可見,AIOps 在企業(yè)中的作用正在進(jìn)一步放大。但事實(shí)上,很多企業(yè)對于AIOps 能解決什么問題并不清晰,今天我們就以博睿數(shù)據(jù)的AIOps 的三大場景和算法說起。
博睿數(shù)據(jù)的AIOps 實(shí)踐
作為中國領(lǐng)先的智能可觀測平臺,在AIOps實(shí)踐方面,多年來博睿數(shù)據(jù)積極擁抱人工智能、機(jī)器學(xué)習(xí)等新技術(shù)變革的浪潮,并基于AI和機(jī)器學(xué)習(xí)技術(shù),自主研發(fā)了“數(shù)據(jù)接入、處理、存儲與分析技術(shù)”核心技術(shù)體系,全面布局智能基線、異常檢測、智能告警、關(guān)聯(lián)分析、根因分析等豐富且廣泛的智能運(yùn)維功能,并將AIOps能力融入端到端全棧監(jiān)控產(chǎn)品線,可為傳統(tǒng)企業(yè)提供強(qiáng)大的數(shù)據(jù)處理、存儲和分析的軟件工具,幫助客戶整合各類IT運(yùn)維監(jiān)控?cái)?shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲和關(guān)聯(lián)分析,打破數(shù)據(jù)孤島,構(gòu)建統(tǒng)一的IT運(yùn)維管理平臺,讓企業(yè)的IT運(yùn)維更加智能化、自動化。
在此基礎(chǔ)上,博睿數(shù)據(jù)還依托完整的IT運(yùn)維監(jiān)控能力,利用大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)持續(xù)構(gòu)建先進(jìn)的智能運(yùn)維監(jiān)控產(chǎn)品,2021年先后推出了搭載了AI能力的新一代APM產(chǎn)品Server7.0和新版的統(tǒng)一智能運(yùn)維平臺Dataview,不斷落地智能異常檢測、根因分析、故障預(yù)測等場景。基于人工智能的能力實(shí)現(xiàn)運(yùn)維監(jiān)控場景的信息整合、特征關(guān)聯(lián)和業(yè)務(wù)洞察,幫助企業(yè)確保數(shù)字化業(yè)務(wù)平穩(wěn)運(yùn)行,并保障良好的數(shù)字化體驗(yàn)。
目前,博睿數(shù)據(jù)在AIOps 技術(shù)方面主要落地了三大場景。即智能基線預(yù)測、異常檢測及告警收斂。
隨著企業(yè)業(yè)務(wù)規(guī)模擴(kuò)大,云原生與微服務(wù)的興起,企業(yè)IT架構(gòu)復(fù)雜性呈現(xiàn)指數(shù)級增長。而傳統(tǒng)的IT運(yùn)維手段面臨故障發(fā)生后,查找故障原因困難,故障平均修復(fù)時(shí)間周期長,已無法滿足新的運(yùn)維要求。因此運(yùn)用人工智能賦能運(yùn)維,去取代緩慢易錯的人力決策,快速給出運(yùn)維決策建議,降低問題的影響并提前預(yù)警問題就成為了必然。AIOps作為目前運(yùn)維發(fā)展的最高階目標(biāo),未來將會賦能運(yùn)維帶給用戶全新的體驗(yàn)。
但需要注意的是,當(dāng)前智能運(yùn)維的很多產(chǎn)品和項(xiàng)目在企業(yè)側(cè)落地效果并不理想,究其原因可歸類為三點(diǎn):一是數(shù)據(jù)采集與AI平臺割裂,多源數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系缺失導(dǎo)致AI平臺缺乏高質(zhì)量的數(shù)據(jù),進(jìn)而導(dǎo)致模型訓(xùn)練效果不佳;二是數(shù)據(jù)采集以metric和log為主,導(dǎo)致應(yīng)用場景較窄且存在數(shù)據(jù)孤島問題;三是AI平臺能力尚有提升空間。當(dāng)前落地的場景多以異常檢測與智能告警為主,未來需要進(jìn)一步提升根因分析與故障預(yù)測的能力。
因此,未來企業(yè)首先要建設(shè)一體化監(jiān)控運(yùn)維平臺,一體化是智能化的基礎(chǔ)。基于一體化監(jiān)控運(yùn)維平臺采集的高質(zhì)量的可觀測數(shù)據(jù)數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,進(jìn)一步將AIOps的能力落地到一體化監(jiān)控運(yùn)維平臺中,從而實(shí)現(xiàn)問題精準(zhǔn)定位與見解能力。
此外,在實(shí)際應(yīng)用中,依據(jù)信通院的相關(guān)調(diào)查,其受訪企業(yè)中只有不足20%的企業(yè)具有智能化監(jiān)控和運(yùn)維決策能力,超過70%的企業(yè)在應(yīng)用系統(tǒng)出現(xiàn)故障的10分鐘內(nèi)一籌莫展。
各行業(yè)的數(shù)字化轉(zhuǎn)型正在改變這一現(xiàn)狀,不僅互聯(lián)網(wǎng)企業(yè),更多傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型為智能運(yùn)維開拓了更廣闊的市場,智能運(yùn)維有著巨大的發(fā)展空間,這也是博睿數(shù)據(jù)等行業(yè)領(lǐng)先企業(yè)發(fā)力的大好時(shí)機(jī)。
提升創(chuàng)新能力,推廣智能運(yùn)維不僅是相關(guān)服務(wù)商自身發(fā)展的要求,也是提升我國企業(yè)應(yīng)用管理和運(yùn)維水平的使命。
中國企業(yè)數(shù)字化轉(zhuǎn)型加速,無論是前端的應(yīng)用服務(wù)迭代更新,還是后端IT運(yùn)維架構(gòu)的復(fù)雜度提升,都在加速培育智能運(yùn)維的成長。