editor@Amteam.org進(jìn)入賴永鋒談ITIL 賴永鋒賴 永鋒,1997年畢業(yè)于新加坡國立大學(xué),曾在知名咨詢公司埃森哲公司任電信、金融行業(yè)資深I(lǐng)T顧問,為企業(yè)提供最佳IT實(shí)踐模式;還在渣打銀行的業(yè)務(wù)經(jīng)營 分析系統(tǒng)建設(shè)項(xiàng)目中任技術(shù)主管;后進(jìn)入美國NCR公司研發(fā)中心,擔(dān)任技術(shù)主管,并為多家公司提供IT支撐系統(tǒng)的架構(gòu)設(shè)計(jì)。2003年加入摩卡軟件,現(xiàn)任摩 卡軟件有限公司總經(jīng)理?!?/div> |
很多人用網(wǎng)管軟件很長時(shí)間了,但是還是覺得用起網(wǎng)管軟件來,很不方便。這是什么原因呢?筆者認(rèn)真分析了種種原因,最終發(fā)現(xiàn),原來是很多人并沒有把網(wǎng)管軟件中的事件管理用好。因此筆者用摩卡軟件公司的Mocha BSM網(wǎng)絡(luò)管理軟件為例,來說明一下,為什么要用好事件管理。
什么是事件管理
首先向大家說明一下,什么是事件管理,首先我們想象一下,網(wǎng)絡(luò)中各種IT元素也像人類這個(gè)社會(huì)一樣,每天都會(huì)發(fā)生各種各樣的事情,如某個(gè)網(wǎng)絡(luò)設(shè)備宕機(jī)了,某個(gè)服務(wù)器重啟了,或者某個(gè)網(wǎng)絡(luò)端口宕掉了,等等。因此一旦網(wǎng)絡(luò)中某些設(shè)備或者某些資源出現(xiàn)了問題,或者說設(shè)備的狀態(tài)發(fā)生了變化,就自然而然會(huì)產(chǎn)生事件,如端口由UP狀態(tài)變?yōu)镈own狀態(tài);或者反之,由Down狀態(tài)變?yōu)閁p狀態(tài),都會(huì)產(chǎn)生事件。
那么,我們再想象一下,如果沒有事件管理,網(wǎng)管將會(huì)怎樣?如果沒有事件管理的話,針對IT資源的管理永遠(yuǎn)將會(huì)是處于一片混亂,我們根本不知道過去整個(gè)網(wǎng)絡(luò)中到底發(fā)生了什么,我們只能夠通過網(wǎng)絡(luò)拓?fù)鋱D僅僅看到紅燈由綠變紅,而后又由紅變綠。這也就是為什么,很多人使用了網(wǎng)絡(luò)管理軟件后,總覺得網(wǎng)管軟件不好用的原因之一,因?yàn)樗X得只要看網(wǎng)絡(luò)拓?fù)鋱D就足夠了,而真正的驅(qū)動(dòng)整個(gè)網(wǎng)絡(luò)管理的運(yùn)維流程和為管理維護(hù)人員產(chǎn)生短信通知等,都是事件管理的功勞。因此,說事件管理決定一個(gè)網(wǎng)管軟件的成功和失敗是不為過的。
好的事件管理軟件好在何處
在這里,我們就為大家好好說一說一個(gè)好的事件管理軟件是如何做到的:
1.好的事件管理是能夠進(jìn)行根源性分析的。
一旦網(wǎng)絡(luò)中某個(gè)核心路由宕機(jī),導(dǎo)致某個(gè)網(wǎng)段內(nèi)的IT設(shè)備都不可訪問,如果沒有根源性分析的話,網(wǎng)管人員將會(huì)看到成百上千的故障事件,而有了根源性分析的話,管理人員只會(huì)收到一個(gè)故障事件的報(bào)告,網(wǎng)管人員只要恢復(fù)該故障事件即可解決問題。因此,一個(gè)好的事件管理能幫助網(wǎng)管人員減輕大量的工作量,而且能起到一劍封喉的作用,直接解決問題,省卻大量的故障查找時(shí)間和故障分析時(shí)間。
2.好的事件管理是能夠防止誤報(bào)的。
一個(gè)網(wǎng)管系統(tǒng)上線后,網(wǎng)管人員常常會(huì)收到大量的故障告警,而通過查找和對比,網(wǎng)管人員往往會(huì)發(fā)現(xiàn),其中95%的故障告警是垃圾告警,長此以往,真正的故障告警發(fā)生的時(shí)候,將會(huì)是狼來了,卻沒有人理會(huì)。這個(gè)是為什么呢?因?yàn)?,市面上,很多網(wǎng)管軟件都沒有做誤報(bào)過濾處理,如下圖,很多的時(shí)候,一個(gè)性能超標(biāo)事件常常是因?yàn)槟硞€(gè)偶然因素,會(huì)向上跳至超標(biāo)線,而后迅速恢復(fù)至正常。如果將該種超標(biāo)視為故障而報(bào)警的話,將會(huì)導(dǎo)致網(wǎng)管人員疲于奔命的效果,因此摩卡軟件公司的網(wǎng)管軟件采用了Flapping技術(shù),當(dāng)某個(gè)指標(biāo)連續(xù)超標(biāo)N次后,才會(huì)告警。這個(gè)N是可以根據(jù)用戶的實(shí)際需求,而靈活調(diào)整的。
3.好的事件管理是能夠提供壓縮事件的。
當(dāng)一個(gè)服務(wù)器宕機(jī)后,如果在1個(gè)小時(shí)內(nèi)沒有恢復(fù)的話,很多網(wǎng)管軟件會(huì)每隔幾分鐘就不間斷的發(fā)出短信告警,但實(shí)際上運(yùn)維人員已經(jīng)在處理故障了,因此摩卡軟件根據(jù)這個(gè)特點(diǎn),實(shí)行了故障事件壓縮處理,當(dāng)故障事件產(chǎn)生后,只會(huì)發(fā)出一條告警事件,直到故障恢復(fù)。
4.好的事件管理能夠和問題指標(biāo)自動(dòng)關(guān)聯(lián)的。
很多時(shí)候,一個(gè)設(shè)備出現(xiàn)問題,往往不止是一個(gè)原因,因此摩卡軟件的事件管理能夠?qū)⑿阅芄收虾投鄠€(gè)性能指標(biāo)事件相關(guān)聯(lián),方便管理人員進(jìn)行綜合分析。
5.好的事件管理是能夠產(chǎn)生自定義事件,以方便和運(yùn)維流程整合。
故障事件產(chǎn)生后,是需要流程去解決的,因此必須為流程的啟動(dòng)和工單的觸發(fā)預(yù)留足夠的接口,而摩卡網(wǎng)管軟件支持用戶自定義事件,為流程的整合提供了靈活的接口,方便網(wǎng)管軟件和IT運(yùn)維流程管理軟件進(jìn)行整合。
聯(lián)系客服