大數(shù)據(jù)的整個(gè)生命周期包括數(shù)據(jù)收集與存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用等幾個(gè)環(huán)節(jié)。在我們的《2016中國(guó)大數(shù)據(jù)發(fā)展?fàn)顩r研究報(bào)告》系列解讀文章中,上一期主要說(shuō)了數(shù)據(jù)源以及與之緊密相關(guān)的數(shù)據(jù)存儲(chǔ),這一期我們來(lái)談?wù)剶?shù)據(jù)分析。
數(shù)據(jù)挖掘是數(shù)據(jù)分析的重要方法
◆◆ ◆
根據(jù)《2016中國(guó)大數(shù)據(jù)發(fā)展?fàn)顩r研究報(bào)告》,目前采用的大數(shù)據(jù)技術(shù)方案主要集中于數(shù)據(jù)采集、分布式存儲(chǔ)、分布式計(jì)算等靠前的環(huán)節(jié)。值得注意的是,大數(shù)據(jù)的分析處理是企業(yè)普遍關(guān)注的,在企業(yè)采用的大數(shù)據(jù)技術(shù)方案中占據(jù)較大的比重。目前的普遍共識(shí)是,數(shù)據(jù)分析在整個(gè)大數(shù)據(jù)產(chǎn)業(yè)鏈中發(fā)揮重要作用,數(shù)據(jù)挖掘和分析能力構(gòu)成了大數(shù)據(jù)廠商的核心競(jìng)爭(zhēng)力。
大數(shù)據(jù)分析的主要方法包括兩方面:一是從企業(yè)存儲(chǔ)的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中分析出計(jì)算機(jī)可以理解的語(yǔ)義信息或知識(shí);二是對(duì)隱性知識(shí)的提取,如關(guān)聯(lián)情況、意圖等信息進(jìn)行挖掘,常用的方法包括分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、時(shí)間序列分析預(yù)測(cè)等,這是大數(shù)據(jù)分析的難點(diǎn)和熱點(diǎn),也是大數(shù)據(jù)廠商競(jìng)爭(zhēng)力的重要體現(xiàn)。
擁有數(shù)據(jù)分析核心算法的廠商,國(guó)際市場(chǎng)主要有IBM、SAP、Oracle、微軟、谷歌、亞馬遜、Facebook 等,國(guó)內(nèi)主要有阿里、騰訊、百度、星環(huán)科技、帆軟軟件、用友、永洪科技等。數(shù)據(jù)分析與挖掘的能力直接決定了大數(shù)據(jù)的應(yīng)用推廣程度和范圍,是大數(shù)據(jù)產(chǎn)業(yè)的核心。
Hadoop、Spark等數(shù)據(jù)分析工具不斷完善
◆◆ ◆
工欲善其事,必先利其器。數(shù)據(jù)分析工具的優(yōu)劣,直接決定了數(shù)據(jù)分析效率的高低和分析結(jié)果的好壞。隨著Hadoop HDFS、Hadoop MapReduce、HBase、Hive的漸次出現(xiàn),Hadoop生態(tài)系統(tǒng)逐步形成。作為大數(shù)據(jù)時(shí)代的一個(gè)快速處理數(shù)據(jù)分析框架,Spark尤其值得關(guān)注,多家世界頂級(jí)的數(shù)據(jù)企業(yè)例如Google,F(xiàn)acebook等都已紛紛轉(zhuǎn)向Spark框架。Spark可以實(shí)現(xiàn)圖形分析流,并幫助開(kāi)發(fā)人員利用自己熟悉的語(yǔ)言,對(duì)企業(yè)數(shù)據(jù)庫(kù)內(nèi)的數(shù)據(jù)流進(jìn)行查詢(xún)和分析,為我們提供了一個(gè)額外的數(shù)據(jù)分析結(jié)論獲取途徑。
新興分析工具普遍具有操作簡(jiǎn)單的特點(diǎn),有些甚至對(duì)用戶(hù)沒(méi)有任何編碼知識(shí)要求。例如在Microsoft推出的Microsoft R Server平臺(tái)和Salesforce推出的Lightning CRM平臺(tái)上,非編碼人員也可以創(chuàng)建應(yīng)用程序來(lái)查看數(shù)據(jù)并進(jìn)行數(shù)據(jù)分析。
另一方面,數(shù)據(jù)分析的時(shí)效性要求也在不斷提高。實(shí)時(shí)分析工具的出現(xiàn),可以幫助用戶(hù)利用數(shù)據(jù)進(jìn)行快速?zèng)Q策。目前比較知名的實(shí)時(shí)分析工具有Google Analytics和Clicky,可以為用戶(hù)提供實(shí)時(shí)數(shù)據(jù)訪問(wèn)和分析服務(wù)。
人工智能為大數(shù)據(jù)分析賦能
◆◆ ◆
過(guò)去的2016年,見(jiàn)證了人工智能的崛起:無(wú)人駕駛汽車(chē)技術(shù)逐漸成熟、語(yǔ)音語(yǔ)義識(shí)別的精度不斷提高、圖形圖像識(shí)別技術(shù)獲得發(fā)展、智能機(jī)器人頻頻亮相,尤其是AlphaGo與韓國(guó)圍棋選手李世石的對(duì)弈更是引爆了人們對(duì)人工智能的熱情。
可以預(yù)見(jiàn),未來(lái)大數(shù)據(jù)技術(shù)將與人工智能技術(shù)更緊密的結(jié)合,讓計(jì)算系統(tǒng)具備對(duì)數(shù)據(jù)的理解、推理、發(fā)現(xiàn)和決策能力,從而能從數(shù)據(jù)中獲取更準(zhǔn)確、更深層次的知識(shí),挖掘數(shù)據(jù)背后的價(jià)值。應(yīng)該說(shuō),人工智能與大數(shù)據(jù)好似一對(duì)孿生兄弟,他們是相互成就的關(guān)系:人工智能系統(tǒng)需要大量數(shù)據(jù)來(lái)“喂養(yǎng)”,只有經(jīng)過(guò)大量數(shù)據(jù)的訓(xùn)練,其智能化程度才能不斷提高;反過(guò)來(lái),機(jī)器智能的提升,極大的提高了數(shù)據(jù)分析效率,讓我們對(duì)海量數(shù)據(jù)的分析變得可能。更進(jìn)一步,大數(shù)據(jù)與人工智能結(jié)合起來(lái),催生出一些新興領(lǐng)域,為我們展示出全新的數(shù)字世界。例如在網(wǎng)絡(luò)安全領(lǐng)域,內(nèi)置人工智能的大數(shù)據(jù)分析系統(tǒng),具有海量安全數(shù)據(jù)的快速分析和深度挖掘能力,推動(dòng)了網(wǎng)絡(luò)安全的變革,并催生威脅態(tài)勢(shì)感知、網(wǎng)絡(luò)輿情監(jiān)測(cè)等全新領(lǐng)域。
隨著人工智能的發(fā)展,在海量數(shù)據(jù)中挖掘有用信息并形成知識(shí)將變得可能,機(jī)器系統(tǒng)將逐步獲得認(rèn)知能力,這推動(dòng)了認(rèn)知計(jì)算的發(fā)展。認(rèn)知計(jì)算是人工智能不斷發(fā)展的產(chǎn)物,包括自然語(yǔ)言處理、語(yǔ)音識(shí)別、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、機(jī)器人技術(shù)等。只要人們認(rèn)識(shí)到大數(shù)據(jù)和分析學(xué)之間的緊密聯(lián)系,就會(huì)發(fā)現(xiàn)認(rèn)知計(jì)算和分析學(xué)一樣,都是大數(shù)據(jù)分析不可或缺的,認(rèn)知計(jì)算的重要性將越來(lái)越受到人們的認(rèn)可。IBM Watson 是認(rèn)知計(jì)算系統(tǒng)的杰出代表,它實(shí)現(xiàn)了信息分析、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域中大量的技術(shù)創(chuàng)新,能夠助力決策者從大量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中實(shí)現(xiàn)深刻的價(jià)值洞察。
將具有認(rèn)知能力的機(jī)器系統(tǒng)應(yīng)用于大數(shù)據(jù)分析之中,將極大的提高數(shù)據(jù)分析效率,增強(qiáng)圖形圖像、語(yǔ)音、視頻等非結(jié)構(gòu)化數(shù)據(jù)的處理能力,進(jìn)而拓寬大數(shù)據(jù)平臺(tái)可以處理的數(shù)據(jù)類(lèi)型。同時(shí),人工智能乃至認(rèn)知計(jì)算的大量應(yīng)用,將極大減少在數(shù)據(jù)分析中的人工干預(yù),將人從繁重的數(shù)據(jù)分析中解放出來(lái)??梢哉f(shuō),人工智能是大數(shù)據(jù)分析的靈魂,將是大數(shù)據(jù)分析技術(shù)騰飛的翅膀。
聯(lián)系客服