大數(shù)據(jù)定義、作用及其對(duì)數(shù)據(jù)庫(kù)技術(shù)影響
1.1 大數(shù)據(jù)及其影響
大數(shù)據(jù)(Big Data)是目前最重要的科學(xué)、技術(shù)和社會(huì)話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價(jià)值?!?/p>
大數(shù)據(jù)定義有著如下的基本前提和含義。
① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長(zhǎng)。用世界著名的咨詢公司高德納(Gartner)研究報(bào)告的描述:“同一類型的數(shù)據(jù)量快速增長(zhǎng);數(shù)據(jù)增長(zhǎng)速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來(lái)源和新數(shù)據(jù)種類的不斷增加。”
② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲(chǔ)成為可能。網(wǎng)絡(luò)技術(shù)、移動(dòng)設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測(cè)技術(shù)等等,每時(shí)每刻都在各種形式、各種類型的大量數(shù)據(jù)。
③ 計(jì)算技術(shù)的進(jìn)步與發(fā)展:現(xiàn)代計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫(kù)處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識(shí)。
④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺(tái)對(duì)數(shù)據(jù)的綜合處理,造成了知識(shí)邊界擴(kuò)展、知識(shí)價(jià)值提升、知識(shí)衍生能力加快,它極大地影響到了企業(yè)、個(gè)人、社會(huì)和政府的決策,極大地促進(jìn)了社會(huì)生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)和難于模仿的核心競(jìng)爭(zhēng)力。因此,大數(shù)據(jù)技術(shù)也成為了國(guó)家的核心戰(zhàn)略資源。
大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺(tái)多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來(lái)的種種便利和收益,便能夠在大數(shù)據(jù)時(shí)代占領(lǐng)先機(jī)。
1.2 大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)技術(shù)的影響
大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫(kù)技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)技術(shù)也具有明顯的特殊性。
1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點(diǎn)
數(shù)據(jù)量宏大。對(duì)數(shù)據(jù)庫(kù)技術(shù)影響最大、最直接的方面莫過(guò)于數(shù)據(jù)的爆炸性增長(zhǎng)。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴(kuò)展到GB,現(xiàn)在再擴(kuò)展到TB,不遠(yuǎn)的將來(lái)數(shù)據(jù)庫(kù)將經(jīng)常面對(duì)PB量級(jí)的數(shù)據(jù),這必然對(duì)數(shù)據(jù)庫(kù)的硬件架構(gòu)、數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫(kù)應(yīng)用產(chǎn)生重大的影響。
數(shù)據(jù)形式多樣。另外一個(gè)對(duì)數(shù)據(jù)庫(kù)技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價(jià)值數(shù)據(jù)并不多,例如多張圖片定對(duì)象的變化,連續(xù)視頻影像中對(duì)特殊對(duì)象的跟蹤等等,其數(shù)據(jù)抽取方式、過(guò)濾方法和存儲(chǔ)、計(jì)算方式均有別于傳統(tǒng)數(shù)據(jù)庫(kù)。
單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫(kù)處理無(wú)法滿足。當(dāng)前,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的處理能力已難于滿足,需要新的數(shù)據(jù)庫(kù)處理技術(shù)。
傳統(tǒng)的并行數(shù)據(jù)庫(kù)的靈活性具有局限性。并行數(shù)據(jù)庫(kù)系統(tǒng)取得了輝煌的成績(jī),但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對(duì)固定結(jié)構(gòu)”的計(jì)算結(jié)構(gòu),例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。
結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫(kù)有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時(shí)不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫(kù)技術(shù)的一項(xiàng)迫切要求。
對(duì)結(jié)果要求的模糊化。在大數(shù)據(jù)的時(shí)代,計(jì)算技術(shù)不僅限于回答“是/非”問(wèn)題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級(jí)左右地震、近一周國(guó)際往返機(jī)票將上漲……這些答案并不精確,但足以指導(dǎo)人們的活動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。
新數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開(kāi)發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫(kù)系統(tǒng),相關(guān)的專家經(jīng)過(guò)分析和總結(jié)提出了NoSQL的設(shè)計(jì)理念,并創(chuàng)建了許多成功的產(chǎn)品。
1.2.2 新型數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)
與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比較,新型數(shù)據(jù)庫(kù)技術(shù)具有一些明顯的特點(diǎn),具體如下:
可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來(lái)控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫(kù)處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對(duì)結(jié)果的計(jì)算和推斷。
使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說(shuō)話”的特點(diǎn)。
不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無(wú)結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。
在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實(shí)用部分?jǐn)?shù)據(jù),得出準(zhǔn)確結(jié)論”的選擇時(shí),新型數(shù)據(jù)庫(kù)技術(shù)一般會(huì)選擇前者,從一個(gè)更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫(kù)那樣提供因果關(guān)系斷語(yǔ);如果數(shù)據(jù)計(jì)算量宏大、成本高昂或條件不具備,則把關(guān)注點(diǎn)由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機(jī)的,而是預(yù)先設(shè)計(jì)和規(guī)劃好的。
不同的數(shù)據(jù)庫(kù)開(kāi)發(fā)理念,不同的應(yīng)用目標(biāo),不同的技術(shù)方案,早就了新型數(shù)據(jù)庫(kù)豐富多彩、特點(diǎn)各異的局面。
1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)到非關(guān)系數(shù)據(jù)
在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫(kù)的概念和規(guī)則,這是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要的里程碑??频露x的關(guān)系數(shù)據(jù)庫(kù)具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點(diǎn)。關(guān)系數(shù)據(jù)庫(kù)模型把數(shù)據(jù)庫(kù)操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語(yǔ)言則把關(guān)系數(shù)據(jù)庫(kù)及其操作模式完整地固定下來(lái),其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫(kù)技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫(kù)中定義的關(guān)系模型的實(shí)質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫(kù)就是通過(guò)關(guān)系連接的多個(gè)二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫(kù)軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫(kù)。
到二十世紀(jì)八十年代后期,IBM的研究員提出了數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)定義:“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定?!睌?shù)據(jù)倉(cāng)庫(kù)的進(jìn)步在于,它把決策支持定為數(shù)據(jù)庫(kù)中數(shù)據(jù)組織和管理的目標(biāo),從而把智能性和決策能力融入到數(shù)據(jù)庫(kù)中。Inmon之后,Ralph Kimball建立了更加方便、實(shí)用的“自底向上”數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實(shí)施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉(cāng)庫(kù),但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。
隨著數(shù)據(jù)庫(kù)在企業(yè)中的廣泛應(yīng)用,企業(yè)收集了大量的數(shù)據(jù),如何從已有數(shù)據(jù)中提取對(duì)企業(yè)運(yùn)營(yíng)和決策具有重要價(jià)值的信息,成為了數(shù)據(jù)庫(kù)使用者和開(kāi)發(fā)者關(guān)系的話題?!瓣P(guān)系數(shù)據(jù)庫(kù)之父”科德再次走在了前面,提出多維數(shù)據(jù)庫(kù)和多維分析的概念,這便是“聯(lián)機(jī)分析處理”(OLAP),使得數(shù)據(jù)庫(kù)已經(jīng)顯現(xiàn)了“智能性”特點(diǎn)。從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生的OLAP又反過(guò)來(lái)促進(jìn)和推動(dòng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的更深層的發(fā)展。
數(shù)據(jù)倉(cāng)庫(kù)、OLAP的發(fā)展和成熟催生了下一代數(shù)據(jù)庫(kù)“智能產(chǎn)品”——數(shù)據(jù)挖掘。該技術(shù)是指從大量的數(shù)據(jù)中自動(dòng)搜索數(shù)據(jù)之間隱藏著的特殊關(guān)系,通過(guò)統(tǒng)計(jì)、分析、檢索、機(jī)器學(xué)習(xí)結(jié)合專家系統(tǒng)(結(jié)合過(guò)去的經(jīng)驗(yàn))和模式識(shí)別來(lái)發(fā)現(xiàn)數(shù)據(jù)之間的“內(nèi)在聯(lián)系”,為判斷、決策、規(guī)劃提供信息。這時(shí)被發(fā)現(xiàn)的“內(nèi)在聯(lián)系”不再是簡(jiǎn)單的結(jié)果,而是上升為“知識(shí)”,大量知識(shí)的積累更進(jìn)一步提升了數(shù)據(jù)挖掘的準(zhǔn)確性和商業(yè)價(jià)值。數(shù)據(jù)倉(cāng)庫(kù)把數(shù)據(jù)挖掘地深度進(jìn)一步擴(kuò)展并快速應(yīng)用到商業(yè)環(huán)境中,這便是“商業(yè)智能”(Business Intelligent, BI)。
商業(yè)智能和數(shù)據(jù)挖掘的大規(guī)模應(yīng)用是在互聯(lián)網(wǎng)高度普及的時(shí)刻,隨著數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和商業(yè)競(jìng)爭(zhēng)的白熱化,網(wǎng)絡(luò)服務(wù)、網(wǎng)絡(luò)搜索引擎及網(wǎng)絡(luò)用戶行為標(biāo)引技術(shù)逐漸成熟。通過(guò)數(shù)據(jù)庫(kù)中的知識(shí)、用戶行為統(tǒng)計(jì)、分析,產(chǎn)生出更具綜合性、普遍性和高商業(yè)附加值的知識(shí),與數(shù)據(jù)挖掘和商業(yè)智能同期發(fā)展的數(shù)據(jù)可視化技術(shù),充分利用圖形、圖表等視覺(jué)元素,完成了現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)在結(jié)果輸出和表現(xiàn)形式上的又一次飛躍。數(shù)據(jù)挖掘、商業(yè)智能、可視化技術(shù)的基礎(chǔ)是大數(shù)據(jù),其工具便是大數(shù)據(jù)工具。
聯(lián)系客服