大數(shù)據(jù)時(shí)代已經(jīng)驟然登場(chǎng)
21世紀(jì)是數(shù)據(jù)鉆出石油的時(shí)代,從龐大的數(shù)據(jù)集合中找尋有價(jià)值的數(shù)據(jù)和知識(shí),通過(guò)分析挖掘?yàn)楦餍袠I(yè)提供真正的智慧。2010年印刷版《大英百科全書(shū)》,32冊(cè),重達(dá)58.5公斤。然而,它的全部?jī)?nèi)容,還裝不滿一個(gè)4G的U盤(pán)。
目前谷歌每天要處理大約24PB的數(shù)據(jù),F(xiàn)acebook每天要處理23TB的數(shù)據(jù),Twitter每天處理7TB ,百度每天大概新增10TB的數(shù)據(jù)。騰訊每日新增加200-300TB的數(shù)據(jù),淘寶每日訂單超過(guò)1000萬(wàn),阿里巴巴已經(jīng)積累的數(shù)據(jù)量超過(guò)100個(gè)PB。而人類全球數(shù)據(jù)總量在以每?jī)赡攴环乃俣仍鲩L(zhǎng)。
大數(shù)據(jù)時(shí)代驟然登場(chǎng),你不接受你就被淘汰,這是趨勢(shì),我們必須順勢(shì)而為。
數(shù)據(jù)挖掘到底用的是那些技術(shù)呢
從數(shù)據(jù)分析近年進(jìn)化到數(shù)據(jù)挖掘,某種程度是指數(shù)據(jù)量大,也有數(shù)據(jù)深度分析的意味。那么數(shù)據(jù)挖掘到底用的是啥高深的方法呢?其實(shí)也就三類技術(shù),且聽(tīng)且看!我么用SPSS Modeler14.1來(lái)給大家簡(jiǎn)單闡述哦!
分類、關(guān)聯(lián)與聚類算法是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的最主要算法。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。1分類與預(yù)測(cè)(Classification and forecasting)
簡(jiǎn)單地說(shuō),分類(Categorization or Classification)就是按照某種標(biāo)準(zhǔn)給對(duì)象貼標(biāo)簽(label),再根據(jù)標(biāo)簽來(lái)區(qū)分歸類。其與聚類的區(qū)別在于,聚類事先并不知道聚成幾類,由軟件進(jìn)行探索分析。
以SPSS Modeler為例,分類與預(yù)測(cè)共提供了18種模型哦!請(qǐng)見(jiàn)下面截圖,這里不贅述啦!
2關(guān)聯(lián)規(guī)則(association rules)
關(guān)聯(lián)規(guī)則是從統(tǒng)計(jì)上發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系。關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。
SPSS Modeler提供了3種關(guān)聯(lián)規(guī)則算法。分別為Apriori、Carma 與 序列。
3聚類(Clustering)
聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。SPSS Modeler提供了4種聚類:K-means、Kohonen、Two-Steps 與異常。
我們離數(shù)據(jù)挖掘有多遠(yuǎn)?
別把數(shù)據(jù)挖掘想的多高大上,從技術(shù)而言,Modeler中總共也就25種數(shù)據(jù)挖掘的方法,很容易搞的定。但個(gè)人認(rèn)為數(shù)據(jù)挖掘重在思想與理念。數(shù)據(jù)挖掘是一個(gè)流程一個(gè)體系,本文淺談,后續(xù)更新。
聯(lián)系客服