什么是BI?
BI是Business Intelligence的英文縮寫(xiě),中文解釋為商務(wù)智能,用來(lái)幫助企業(yè)更好地利用數(shù)據(jù)提高決策質(zhì)量的技術(shù)集合,是從大量的數(shù)據(jù)中鉆取信息與知識(shí)的過(guò)程。簡(jiǎn)單講就是業(yè)務(wù)、數(shù)據(jù)、數(shù)據(jù)價(jià)值應(yīng)用的過(guò)程。如下圖所示:
從上圖可以看出,傳統(tǒng)的交易系統(tǒng)完成的是Business到Data的過(guò)程,而BI要做的事情是在Data的基礎(chǔ)上,讓Data產(chǎn)生價(jià)值,這個(gè)產(chǎn)生價(jià)值的過(guò)程就是Business Intelligence analyse的過(guò)程。
如何實(shí)現(xiàn)Business Intelligence analyse的過(guò)程,從技術(shù)角度來(lái)說(shuō),是一個(gè)復(fù)雜的技術(shù)集,它包含ETL、DW、OLAP、Portal等,其應(yīng)用的邏輯流程如下圖所示:
上圖流程,簡(jiǎn)單的說(shuō)就是把交易系統(tǒng)已經(jīng)發(fā)生過(guò)的數(shù)據(jù),通過(guò)ETL工具抽取到主題明確的數(shù)據(jù)倉(cāng)庫(kù)中,OLAP后生成Cube或報(bào)表,透過(guò)Portal展現(xiàn)給用戶(hù),用戶(hù)利用這些經(jīng)過(guò)分類(lèi)(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的數(shù)據(jù),支持業(yè)務(wù)決策。
注意:
(1) BI不是產(chǎn)生決策,而利用分析后的數(shù)據(jù)支持決策,僅防誤解。 (2) Cognos是BI展現(xiàn)工具中的一種。
現(xiàn)在就上述概要內(nèi)容作簡(jiǎn)要說(shuō)明如下:
(1)BI的誕生
隨著IT技術(shù)的進(jìn)步,傳統(tǒng)的業(yè)務(wù)交易系統(tǒng)有了長(zhǎng)足的發(fā)展,已經(jīng)實(shí)現(xiàn)了業(yè)務(wù)信息化,每一筆業(yè)務(wù)數(shù)據(jù)都記錄在數(shù)據(jù)庫(kù)中,星轉(zhuǎn)斗移,累積了以TB為計(jì)量單位的業(yè)務(wù)數(shù)據(jù)記錄。
也許你會(huì)問(wèn):這么多數(shù)據(jù),占用了很多存儲(chǔ)設(shè)備,耗費(fèi)存儲(chǔ)成本,卻又不經(jīng)常訪問(wèn),留著它有什么用處?
可以給你肯定的回答,留著這些歷史數(shù)據(jù)意義巨大,挖掘業(yè)務(wù)的規(guī)律、支持決策。典型的案例有“尿片和啤酒”的故事。尿片和啤酒本來(lái)是兩樣不相干的東西,可是,有人就發(fā)現(xiàn),星期五在超市里購(gòu)物的,購(gòu)買(mǎi)尿片的年輕父親中有30%~40%的人同時(shí)購(gòu)買(mǎi)啤酒。原來(lái),星期五年輕的父親購(gòu)買(mǎi)尿片時(shí),還會(huì)為自己捎帶買(mǎi)啤酒,因?yàn)?,星期五是各家電視臺(tái)轉(zhuǎn)播橄欖球賽的時(shí)間,于是,超市老板們就把尿片和啤酒捆綁銷(xiāo)售獲得了巨大成功。這個(gè)故事成了一個(gè)利用數(shù)據(jù)挖掘商業(yè)價(jià)值最大化的神話。
由此看來(lái),非常不關(guān)聯(lián)的兩樣?xùn)|西,通過(guò)海量的信息數(shù)據(jù)處理,可以挖掘出它們之間潛在的關(guān)聯(lián),將這種關(guān)聯(lián)商業(yè)化,就會(huì)得到意想不到的新業(yè)務(wù)或新的商業(yè)模式。
到底該怎樣把這些占據(jù)大量存儲(chǔ)空間的數(shù)據(jù)的價(jià)值挖掘出來(lái),讓這些數(shù)據(jù)從成本的消耗者變成利潤(rùn)的促進(jìn)者呢?新的數(shù)據(jù)分析技術(shù)由此誕生了,完成了“數(shù)據(jù)”到“數(shù)據(jù)價(jià)值”轉(zhuǎn)換的環(huán)節(jié),同時(shí)給這項(xiàng)技術(shù)起了一個(gè)響亮而又神密的名字“BI”(Business Intelligence)
(2)基本技術(shù)
BI(Business Intelligence) 是一種運(yùn)用了數(shù)據(jù)倉(cāng)庫(kù)、在線分析和數(shù)據(jù)挖掘等技術(shù)來(lái)處理和分析數(shù)據(jù)的嶄新技術(shù),目的是為企業(yè)決策者提供決策支持。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪么BI技術(shù)涉及了哪些方面呢?
從上圖圖(2)中,我們不難看出其核心技術(shù)中DW與OLAP。
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse) 的官方定義是一個(gè)面向主題的(Subject Oriented)、集成的(Integrate)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。
為什么要在操作型數(shù)據(jù)庫(kù)和 OLAP 之間加一層“數(shù)據(jù)倉(cāng)庫(kù)”呢?
說(shuō)一千道一萬(wàn)都計(jì)算機(jī)資源與效能惹的禍,操作型數(shù)據(jù)庫(kù)以快速響應(yīng)業(yè)務(wù)為主要目標(biāo),而OLAP的時(shí)候要占用大量的硬件資源,在OLAP的時(shí)候,業(yè)務(wù)操作很難快速響應(yīng),無(wú)法保證業(yè)務(wù)的順利進(jìn)行,從業(yè)務(wù)->數(shù)據(jù)->數(shù)據(jù)的價(jià)值的邏輯來(lái)看,沒(méi)有業(yè)務(wù)就談不上OLAP;零星分散的數(shù)據(jù)一般存在有多個(gè)應(yīng)用,對(duì)應(yīng)多個(gè)業(yè)務(wù)操作型數(shù)據(jù)庫(kù),訪問(wèn)效能極其低下。綜合上述資源與效能的問(wèn)題,最高效的方法就是將數(shù)據(jù)先整合到數(shù)據(jù)倉(cāng)庫(kù)中,而由OLAP應(yīng)用統(tǒng)一從數(shù)據(jù)倉(cāng)庫(kù)里取數(shù),以解決快速響應(yīng)業(yè)務(wù)與OLAP的矛盾。
但是,多了這么一層,不管ROLAP還是MOLAP都無(wú)法查看實(shí)時(shí)數(shù)據(jù),這并不影響BI的應(yīng)用,90%的BI應(yīng)用都不要求實(shí)時(shí)性,允許數(shù)據(jù)有滯后,這是決策支持系統(tǒng)的應(yīng)用特點(diǎn),這個(gè)滯后區(qū)間就是數(shù)據(jù)抽取工具工作及OLAP的時(shí)間。
ETL,(Extract Transform Load)操作型業(yè)務(wù)數(shù)據(jù)庫(kù)(DB)到數(shù)據(jù)倉(cāng)庫(kù)(DW)的過(guò)程稱(chēng)之為ETL,它實(shí)現(xiàn)數(shù)據(jù)的抽取,傳輸及裝載工作,目前流行的工具有Informatica,DTS,SSIS等工具。
OLAP,(On-Line Analytical Processing)即聯(lián)機(jī)分析處理,是 BI的一種全新的數(shù)據(jù)封裝方式,直接產(chǎn)物是報(bào)表或Cube,是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類(lèi)軟件技術(shù)。
OLAP的基本操作有鉆?。?/span>roll up和drill down)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drill across、drill through等。
Portal,是展現(xiàn)BI產(chǎn)物的平臺(tái)入口,BI的產(chǎn)物被放置在Portal上,用戶(hù)登錄這個(gè)Portal即可訪問(wèn)數(shù)據(jù)。
透過(guò)上述技術(shù),BI應(yīng)用DW中的海量數(shù)據(jù),OLAP(ROLAP\MOLAP)加工成可讀性很強(qiáng)的報(bào)表信息或知識(shí),展現(xiàn)給決策者,用這些報(bào)表信息或知識(shí)做為決策的依據(jù),由此來(lái)完成數(shù)據(jù)與價(jià)值的轉(zhuǎn)換。
(3)應(yīng)用模式
數(shù)據(jù)查詢(xún)是最簡(jiǎn)單的 BI 應(yīng)用,輸出報(bào)表是BI最直接的產(chǎn)物,根據(jù)數(shù)據(jù)連接,加工過(guò)程及用途,應(yīng)用模式大致可以分為四種:格式報(bào)表;在線分析;數(shù)據(jù)可視化;數(shù)據(jù)挖掘。
1、格式報(bào)表:帶格式的數(shù)據(jù)集合,如:交叉表等。
2、在線分析:多維數(shù)據(jù)集合,如:Cube等。
3、數(shù)據(jù)可視化:信息以盡可能多的形式展現(xiàn)出來(lái),目的是使決策者通過(guò)圖形這種直觀的表現(xiàn)方式迅速獲得信息中蘊(yùn)藏的知識(shí),如柱圖等。
4、數(shù)據(jù)挖掘:從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。分析方法:
· 分類(lèi)(Classification)
· 估值(Estimation)
· 預(yù)言(Prediction)
· 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Description and Visualization)
數(shù)據(jù)挖掘號(hào)稱(chēng)能通過(guò)歷史數(shù)據(jù)的分析,預(yù)測(cè)客戶(hù)的行為,而事實(shí)上,客戶(hù)自己可能都不明確自己下一步要作什么。所以,數(shù)據(jù)挖掘的結(jié)果,沒(méi)有人們想象中神秘,它不可能是完全正確的??蛻?hù)的行為是與社會(huì)環(huán)境相關(guān)連的,所以數(shù)據(jù)挖掘本身也受社會(huì)背景的影響。
(4)社會(huì)背景
中國(guó)擁有5000年的文化史,燦爛的文件讓日常報(bào)表也非常具有凝聚力,交錯(cuò)縱橫,里外相嵌,格式詭異、規(guī)則古怪、數(shù)據(jù)集中而文名于世,讓無(wú)數(shù)報(bào)表工具折腰。BI概念是從歐美引進(jìn)的,現(xiàn)有的工具也多是歐美國(guó)家提供,中國(guó)是世界上報(bào)表最復(fù)雜的國(guó)家,報(bào)表設(shè)計(jì)風(fēng)格與這些國(guó)家有明顯的差別,BI工具制作的報(bào)表傾向于僅用一張報(bào)表說(shuō)明一個(gè)問(wèn)題,而中國(guó)的報(bào)表傾向于將盡可能多的問(wèn)題集中在一張報(bào)表中,這種思路直接導(dǎo)致了BI工具應(yīng)用難度的提升。
常用的BI 廠商和產(chǎn)品:
ETL:Informatica,datastage,Kettle,SSIS,DTS
DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;
OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM , SQL Server Analysis Server
Data Mining:IBM,SAS,SPSS