中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[圖]

隨著互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,目前我們已處于數(shù)據(jù)、信息過(guò)載的海量信息時(shí)代。據(jù)數(shù)據(jù)調(diào)查公司IDC 研究報(bào)告顯示:2011 年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8 ZB,較去年同期,這一數(shù)據(jù)上漲了1 ZB,全球信息總量每過(guò)兩年就會(huì)增長(zhǎng)1 倍。用戶(hù)面對(duì)海量信息卻很難找到自己真正感興趣的內(nèi)容[1]。同時(shí)隨著運(yùn)營(yíng)商逐漸推出移動(dòng)互聯(lián)網(wǎng)產(chǎn)品應(yīng)用商店、閱讀、游戲、社區(qū)等產(chǎn)品,如何分析挖掘這些產(chǎn)品生成的海量數(shù)據(jù),將成為運(yùn)營(yíng)商迫切需要解決的問(wèn)題。

云計(jì)算的出現(xiàn),使得數(shù)據(jù)挖掘平臺(tái)有了新的發(fā)展方向,也使得新一代的數(shù)據(jù)挖掘平臺(tái)成為可能。云計(jì)算是能夠提供動(dòng)態(tài)資源、虛擬化和高可用的計(jì)算平臺(tái)。云計(jì)算平臺(tái)可被用來(lái)開(kāi)發(fā)高性能的應(yīng)用程序[2-3]。但是對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō),海量數(shù)據(jù)本身具有噪聲、異構(gòu)、算法復(fù)雜、技術(shù)復(fù)雜等問(wèn)題,而現(xiàn)在的云計(jì)算開(kāi)發(fā)平臺(tái)并沒(méi)有提供數(shù)據(jù)規(guī)約等功能。因此文章通過(guò)對(duì)于數(shù)據(jù)挖掘、云計(jì)算的詳細(xì)描述和分析,提出了基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)。該平臺(tái)架構(gòu)基于云計(jì)算的基礎(chǔ)能力,并符合云計(jì)算軟件即服務(wù)(SaaS)的設(shè)計(jì)理念。該平臺(tái)還能極大減少運(yùn)營(yíng)商、企業(yè)在數(shù)據(jù)挖掘技術(shù)上的投入并能加快其挖掘業(yè)務(wù)的推出,縮短研發(fā)周期,進(jìn)一步提高產(chǎn)品收益。

1 基于云計(jì)算的數(shù)據(jù)挖掘策略

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘[4-6]是一個(gè)從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際數(shù)據(jù)中提取隱含在其中的但具有潛在實(shí)用信息和知識(shí)的過(guò)程。從數(shù)據(jù)挖掘的定義可以看出數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)領(lǐng)域的一個(gè)重要技術(shù),它涉及到人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)等高技術(shù)領(lǐng)域,具體技術(shù)包括特征化、關(guān)聯(lián)、聚類(lèi)、預(yù)測(cè)分析等。數(shù)據(jù)挖掘在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、電信、金融、科學(xué)研究等領(lǐng)域得到了廣泛的應(yīng)用,例如Facebook 的好友推薦、和淘寶網(wǎng)的商品推薦、銀行的防欺詐分析等。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)建立在關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)之上的,對(duì)數(shù)據(jù)進(jìn)行計(jì)算,找出隱藏在數(shù)據(jù)中的模型或關(guān)系,并在大規(guī)模的數(shù)據(jù)上進(jìn)行數(shù)據(jù)訪問(wèn)和統(tǒng)計(jì)計(jì)算,整個(gè)挖掘的過(guò)程需要消耗大量的計(jì)算資源以及存儲(chǔ)資源[7]。

隨著云時(shí)代的到來(lái)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,數(shù)據(jù)規(guī)模從MB、級(jí)發(fā)展到TB、PB 級(jí)甚至EB、ZB 級(jí),并且面臨著TB 級(jí)的增長(zhǎng)速度,數(shù)據(jù)挖掘的要求和環(huán)境也變得越來(lái)越復(fù)雜,從而形成“數(shù)據(jù)量的急劇膨脹”和“ 數(shù)據(jù)深度分析需求的增長(zhǎng)”這兩大趨勢(shì),使得40 年來(lái)一直適用的數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)在海量數(shù)據(jù)挖掘方面顯得力不從心[8]。

綜合上述,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)及其體系架構(gòu)在云時(shí)代的海量數(shù)據(jù)中已經(jīng)出現(xiàn)了不少問(wèn)題,其中首先是挖掘效率的問(wèn)題,傳統(tǒng)的基于單機(jī)的挖掘算法或基于數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)的挖掘技術(shù)及并行挖掘已經(jīng)很難高效地完成海量數(shù)據(jù)的分析;其次高昂的軟硬件成本也阻止了云時(shí)代數(shù)據(jù)挖掘系統(tǒng)的發(fā)展;最后傳統(tǒng)的體系架構(gòu)不能完成挖掘算法能力的提供,基本是在以單個(gè)算法為整體模塊,用戶(hù)只能使用已有的算法或重新編寫(xiě)算法完成自己獨(dú)特的業(yè)務(wù)。

云計(jì)算云計(jì)算[9-10]是一種商業(yè)計(jì)算模式,它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)。同時(shí)云計(jì)算是并行計(jì)算、分布式計(jì)算和網(wǎng)格計(jì)算的發(fā)展,或者說(shuō)是這些計(jì)算科學(xué)概念的商業(yè)實(shí)現(xiàn)。

通常認(rèn)為云計(jì)算包括以下3 個(gè)層次的服務(wù):基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、SaaS;其中IaaS 提供以硬件設(shè)備為基礎(chǔ)的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)服務(wù),實(shí)現(xiàn)了對(duì)硬件資源的抽象并服務(wù)化提供,使得分布式計(jì)算和分布式存儲(chǔ)成為現(xiàn)實(shí)。

云計(jì)算具有一些特點(diǎn)[10-11]:

(1)虛擬化。云計(jì)算支持用戶(hù)在任意位置使用各種終端以獲取應(yīng)用服務(wù),所請(qǐng)求的資源來(lái)自云而不是固定的、有形的實(shí)體,并且對(duì)于用戶(hù)來(lái)說(shuō)只需要使用云提供的服務(wù)即可。

(2)通用性。云計(jì)算不針對(duì)特定的應(yīng)用,而是可以在云的支撐下構(gòu)造出千變?nèi)f化的應(yīng)用,同一個(gè)云可以同時(shí)支撐不同的應(yīng)用運(yùn)行。

(3)高可擴(kuò)展性及超大規(guī)模。云的規(guī)??梢詣?dòng)態(tài)擴(kuò)展,并且這種動(dòng)態(tài)擴(kuò)展對(duì)用戶(hù)是透明的,并且不影響用戶(hù)的業(yè)務(wù)和應(yīng)用。同時(shí)這種擴(kuò)展是超大規(guī)模的,如Google 云計(jì)算已經(jīng)擁有上百萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟等也擁有幾十萬(wàn)臺(tái)服務(wù)器。

(4)可靠性高。云計(jì)算使用多副本容錯(cuò)、多計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施來(lái)保障服務(wù)的高可靠性。

(5)經(jīng)濟(jì)性好。云的特殊容錯(cuò)機(jī)制導(dǎo)致可以采用廉價(jià)的節(jié)點(diǎn)來(lái)構(gòu)成云,而云的自動(dòng)化集中式管理使得大量企業(yè)無(wú)需負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本。云的通用性使資源的利用率較之傳統(tǒng)系統(tǒng)大幅提升,因此用戶(hù)可以充分享受云的低成本優(yōu)勢(shì)。

1.3 數(shù)據(jù)挖掘云化策略

云計(jì)算的出現(xiàn)即給數(shù)據(jù)挖掘帶來(lái)了問(wèn)題和挑戰(zhàn),也給數(shù)據(jù)挖掘帶來(lái)新的機(jī)遇—— 數(shù)據(jù)挖掘技術(shù)將會(huì)出現(xiàn)基于云計(jì)算的新模式。如何構(gòu)建基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)也將是業(yè)界面臨的主要問(wèn)題之一,創(chuàng)建一個(gè)用戶(hù)參與、開(kāi)發(fā)技術(shù)要求不高的、快速響應(yīng)的數(shù)據(jù)挖掘平臺(tái)也是迫切需要解決的問(wèn)題。

從業(yè)界對(duì)云計(jì)算的理解來(lái)看,云計(jì)算動(dòng)態(tài)的、可伸縮的計(jì)算能力使得高效的海量數(shù)據(jù)挖掘成為可能。云計(jì)算SaaS 功能的理解和標(biāo)準(zhǔn)化,使得基于的數(shù)據(jù)挖掘SaaS 化有了技術(shù)和理論的支持,也將使得數(shù)據(jù)挖掘面向大眾化和企業(yè)化。文章主要是從基于云計(jì)算平臺(tái)的數(shù)據(jù)挖掘服務(wù)化、挖掘算法并行化、挖掘算法組件化角度進(jìn)行構(gòu)建數(shù)據(jù)挖掘SaaS 平臺(tái),如圖所示。

如圖1 所示,文章提出的基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)采用分層的思想:首先底層支撐采用云計(jì)算平臺(tái),并使用云計(jì)算平臺(tái)提供的分布存儲(chǔ)以及分布式計(jì)算能力完成數(shù)據(jù)挖掘計(jì)算能力的并行實(shí)現(xiàn);其次數(shù)據(jù)挖掘平臺(tái)在設(shè)計(jì)上采用分布式、可插拔組件化思路,支持多算法部署、調(diào)度等;最后數(shù)據(jù)挖掘平臺(tái)提供的算法能力采用服務(wù)的方式對(duì)外暴露,并支持不同業(yè)務(wù)系統(tǒng)的調(diào)用,從而較方便地實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的推薦、挖掘等相關(guān)功能需求。

2 數(shù)據(jù)挖掘平臺(tái)云架構(gòu)

云計(jì)算的分布式存儲(chǔ)和分布式計(jì)算促使了新一代數(shù)據(jù)挖掘平臺(tái)的變革。圖2 是基于云的數(shù)據(jù)挖掘平臺(tái)架構(gòu)??紤]到挖掘算法和推薦算法的并行化和分布化是一個(gè)專(zhuān)門(mén)的、大的課題,因此文章暫不包含具體算法的并行化和云化的內(nèi)容。

如圖2 所示,該平臺(tái)是基于云計(jì)算平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)挖掘云服務(wù)平臺(tái),采用分層設(shè)計(jì)的思想以及面向組件的設(shè)計(jì)思路,總體上分為3 層,自下向上依次為:云計(jì)算支撐平臺(tái)層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務(wù)層。

云計(jì)算支撐平臺(tái)層

云計(jì)算支撐平臺(tái)層主要是提供分布式文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)以及計(jì)算能力。中興通訊有自主研發(fā)的云計(jì)算平臺(tái),該架構(gòu)可以基于企業(yè)自主研發(fā)的云計(jì)算平臺(tái),也可以基于第三方提供的云計(jì)算平臺(tái)。

數(shù)據(jù)挖掘能力層

數(shù)據(jù)挖掘能力層主要是提供挖掘的基礎(chǔ)能力,包含算法服務(wù)管理、調(diào)度引起、數(shù)據(jù)并行處理框架,并提供對(duì)數(shù)據(jù)挖掘云服務(wù)層的能力支撐。該層可以支持第三方挖掘算法工具的接入,例如Weka、Mathout 等分布式算法庫(kù),同時(shí)也可以提供內(nèi)部的數(shù)據(jù)挖掘算法和推薦算法庫(kù)。

數(shù)據(jù)挖掘云服務(wù)層

云服務(wù)層主要是對(duì)外提供數(shù)據(jù)挖掘云服務(wù),服務(wù)能力封裝的接口形式可以是多樣的,包括基于簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議(SOAP) 的Webservice、、HTTP、XML 或本地應(yīng)用程序編程接口(API) 等多種形式。云服務(wù)層也可以支持基于結(jié)構(gòu)化查詢(xún)語(yǔ)言語(yǔ)句的訪問(wèn),并提供解析引擎,以自動(dòng)調(diào)用云服務(wù)。各個(gè)業(yè)務(wù)系統(tǒng)可以根據(jù)數(shù)據(jù)和業(yè)務(wù)的需要調(diào)用、組裝數(shù)據(jù)挖掘云服務(wù)。

文章提出的基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)與傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)相比有高可擴(kuò)展性、海量數(shù)據(jù)處理能力、面向服務(wù)、硬件成本低廉等優(yōu)越性,可以支持大范圍分布式數(shù)據(jù)挖掘的設(shè)計(jì)和應(yīng)用。

3 基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)的關(guān)鍵技術(shù)

3.1 云計(jì)算技術(shù)

分布式計(jì)算是解決海量數(shù)據(jù)挖掘任務(wù),提高海量數(shù)據(jù)挖掘的有效手段之一,在理論和實(shí)踐上已經(jīng)獲得證實(shí)。分布式計(jì)算包含了分布式存儲(chǔ)和并行計(jì)算兩個(gè)層面的內(nèi)容,而云計(jì)算平臺(tái)提供了分布式文件存儲(chǔ)和并行的計(jì)算能力,因此很好地解決了這兩個(gè)層面的內(nèi)容。下面主要分析幾個(gè)主流的分布式文件系統(tǒng)和分布式并行計(jì)算框架,以更好地構(gòu)建云計(jì)算數(shù)據(jù)挖掘平臺(tái)的核心支撐能力。

分布式文件系統(tǒng)有效地解決了海量數(shù)據(jù)存儲(chǔ)問(wèn)題,并實(shí)現(xiàn)了位置透明、移動(dòng)透明、性能透明、擴(kuò)展透明、高容錯(cuò)、高安全、高性能等關(guān)鍵功能。目前業(yè)界比較流行分布式文件系統(tǒng)有Google 文件系統(tǒng)(GFS)、分布式文件系統(tǒng)(HDFS)、文件系統(tǒng)(KFS),這3 種分布式文件系統(tǒng)都是基于Goolgle 提出的分布式文件系統(tǒng)理論進(jìn)行研發(fā)的。Google提出的GFS 就是解決其海量數(shù)據(jù)存儲(chǔ)和搜索、分析等問(wèn)題,而和KFS 是基于GFS 理論基礎(chǔ)上實(shí)現(xiàn)的開(kāi)源系統(tǒng),并且在商業(yè)和學(xué)術(shù)領(lǐng)域得到了廣泛的應(yīng)用。

分布式并行計(jì)算框架對(duì)于高效完成數(shù)據(jù)挖掘計(jì)算任務(wù)極其重要,并且它對(duì)分布式計(jì)算的一些技術(shù)細(xì)節(jié)進(jìn)行了封裝,例如數(shù)據(jù)分布、任務(wù)并行、任務(wù)調(diào)度、負(fù)載平衡、任務(wù)容錯(cuò)、系統(tǒng)容錯(cuò)等,使用戶(hù)不需要考慮這些細(xì)節(jié),而只要考慮任務(wù)間的邏輯關(guān)系。這樣不僅可以提高研發(fā)的效率,還可以降低系統(tǒng)維護(hù)的成本。目前典型的分布式計(jì)算框架有:

。MapReduce 是提出的一個(gè)并行計(jì)算框架,它可以在大量PC 機(jī)上并行執(zhí)行海量數(shù)據(jù)的收集和分析任務(wù)。它把如何進(jìn)行任務(wù)并行執(zhí)行、如何進(jìn)行數(shù)據(jù)分布、如何容錯(cuò)、網(wǎng)絡(luò)帶寬時(shí)延等問(wèn)題的解決方案編碼,并封裝在了一個(gè)庫(kù)里面,使用戶(hù)只需要執(zhí)行數(shù)據(jù)運(yùn)算即可,而不必關(guān)心并行計(jì)算、容錯(cuò)、數(shù)據(jù)分布、負(fù)載均衡等復(fù)雜的細(xì)節(jié)。同時(shí)它又對(duì)上層應(yīng)用提供良好簡(jiǎn)單的抽象接口。MapReduce 主要應(yīng)用在搜索、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘領(lǐng)域。

。Pregel 是Google 提出的迭代處理計(jì)算框架,它具有高效、可擴(kuò)展和容錯(cuò)的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個(gè)表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計(jì)算框架。Pregel 的主要應(yīng)用場(chǎng)景是大型的圖計(jì)算,例如交通線(xiàn)路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。

。Dryad 是微軟硅谷研究院創(chuàng)建的研究項(xiàng)目,主要用來(lái)提供一個(gè)基于windows 操作系統(tǒng)的分布式計(jì)算平臺(tái),總體用來(lái)支持有向無(wú)環(huán)圖類(lèi) 型數(shù)據(jù)流的并行程序。微軟于年宣布,停止對(duì)Dryad 進(jìn)行版本升級(jí),轉(zhuǎn)投Hadoop 即MapReduce 計(jì)算框架。

目前業(yè)界開(kāi)源的云計(jì)算平臺(tái)平臺(tái), 包含HDFS 和MapReduce,為海量數(shù)據(jù)挖掘平臺(tái)提供完備的云計(jì)算平臺(tái)支撐平臺(tái)[12]。

3.2 數(shù)據(jù)匯集調(diào)度中心

數(shù)據(jù)匯集調(diào)度中心實(shí)現(xiàn)對(duì)接入本平臺(tái)的業(yè)務(wù)數(shù)據(jù)的匯集,可以解決不同數(shù)據(jù)的規(guī)約問(wèn)題,并支持各種不同的源數(shù)據(jù)格式。源數(shù)據(jù)格式支持聯(lián)機(jī)事務(wù)處理系統(tǒng)(OLTP)數(shù)據(jù)、聯(lián)機(jī)分析處理系統(tǒng)(OLAP)數(shù)據(jù)、各種日志數(shù)據(jù)、爬蟲(chóng)數(shù)據(jù)等,同時(shí)要提供多種數(shù)據(jù)同步方式,例如數(shù)據(jù)庫(kù)實(shí)時(shí)同步、socket 消息同步、文件傳輸協(xié)議同步等各種各樣的方式,如圖3所示。

數(shù)據(jù)匯集調(diào)度中心主要是完成對(duì)不同類(lèi)型數(shù)據(jù)的匯集。本數(shù)據(jù)匯集調(diào)度中心采用模板化設(shè)計(jì)技術(shù),支持新數(shù)據(jù)的模板和元數(shù)據(jù)配置以達(dá)到不同業(yè)務(wù)數(shù)據(jù)的統(tǒng)一收集和規(guī)約。

3.3 服務(wù)調(diào)度和服務(wù)管理技術(shù)

為了能夠讓不同的業(yè)務(wù)系統(tǒng)使用本計(jì)算平臺(tái),平臺(tái)必須要提供服務(wù)調(diào)度和服務(wù)管理功能。服務(wù)調(diào)度根據(jù)服務(wù)的優(yōu)先級(jí)以及服務(wù)和資源的匹配情況等進(jìn)行調(diào)度,解決服務(wù)的并行互斥、隔離等,保證數(shù)據(jù)挖掘平臺(tái)的云服務(wù)是安全、可靠的,并根據(jù)服務(wù)管控進(jìn)行調(diào)度控制。

服務(wù)管理實(shí)現(xiàn)統(tǒng)一的服務(wù)注冊(cè)、服務(wù)暴露等功能,不僅支持本地服務(wù)能力的暴露,也支持第三方數(shù)據(jù)挖掘能力的接入,很好地?cái)U(kuò)展數(shù)據(jù)挖掘平臺(tái)的服務(wù)能力。

3.4 挖掘算法并行化技術(shù)

挖掘算法并行化是有效利用云計(jì)算平臺(tái)提供的基礎(chǔ)能力的關(guān)鍵技術(shù)之一,涉及到算法是否可以并行、以及并行策略的選擇等技術(shù)。文章通過(guò)K-means 聚類(lèi)算法并行化并行計(jì)算框架來(lái)說(shuō)明挖掘算法的并行化技術(shù)[13]。

3.4.1 K-means 算法的主要思想

 K-means算法的主要思想是基于使聚類(lèi)性能指標(biāo)最小化。這里所用的聚類(lèi)準(zhǔn)則函數(shù)是聚類(lèi)集中每一樣本點(diǎn)到該類(lèi)簇中心點(diǎn)距離平方之和,并使它最小化。如圖4 所示,K 均值算法的處理流程如下:首先,隨機(jī)地選擇k 個(gè)對(duì)象,每個(gè)對(duì)象代表一個(gè)簇的初始均值和中心;對(duì)剩余的每個(gè)對(duì)象,則根據(jù)其與各個(gè)簇的均值距離,將它指派到最相似的簇;然后計(jì)算每個(gè)簇的新均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。通常,采用平方誤差準(zhǔn)則,其定義如(1):

其中,E 是數(shù)據(jù)集中所有對(duì)象的平方誤差和,p 是空間中的點(diǎn),表示給定的對(duì)象,mi 是簇Ci 的均值。對(duì)于每個(gè)簇中的每個(gè)對(duì)象,首先要求出對(duì)象到其簇中心的均值的平方,然后再求和。

3.4.2 K-means 并行化思路

是以聚類(lèi)中心來(lái)劃分聚類(lèi)的,一旦k 個(gè)聚類(lèi)中心確定了,聚類(lèi)可立即完成。因此,這里主要講述如何并行實(shí)現(xiàn)更新聚類(lèi)中心[14]。

在隨機(jī)的初始化k 個(gè)聚類(lèi)中心以后,每一次任務(wù)的執(zhí)行都會(huì)更新當(dāng)前個(gè)聚類(lèi)中心的值。在映射階段,對(duì)于每一個(gè)樣本O S ,需要計(jì)算與其最近的聚類(lèi)中心O i (0≤i ≤,然后輸出<i , O S >鍵值對(duì)。

在化簡(jiǎn)(Reducer) 階段,框架會(huì)收集屬于相同鍵的值,相當(dāng)于對(duì)每個(gè)聚類(lèi)中心O i (0≤i ≤k -1) ,而離它最近的樣本都會(huì)作為值收集起來(lái)。這樣Reducer 里就可以利用這些樣本重新估計(jì)出k 個(gè)聚類(lèi)中心,如所示:

這樣,在一輪MapReduce 完成后,新的聚類(lèi)中心也已經(jīng)計(jì)算出來(lái)。通過(guò)比較本輪聚類(lèi)中心與上一輪聚類(lèi)中心差異度,可確定算法是否收斂。

4 結(jié)束語(yǔ)

文章通過(guò)對(duì)數(shù)據(jù)挖掘和云計(jì)算技術(shù)的發(fā)展分析,提出了基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)以及數(shù)據(jù)挖掘服務(wù)化的思路。本平臺(tái)不僅僅是基于云計(jì)算實(shí)現(xiàn)了一個(gè)數(shù)據(jù)挖掘平臺(tái),同時(shí)也對(duì)數(shù)據(jù)挖掘平臺(tái)進(jìn)行了化。本平臺(tái)可以為運(yùn)營(yíng)商、企業(yè)提供效益增值的數(shù)據(jù)挖掘應(yīng)用,同時(shí)也減少了運(yùn)營(yíng)商、企業(yè)在數(shù)據(jù)挖掘技術(shù)上的投入。運(yùn)營(yíng)商、企業(yè)即可以創(chuàng)建自己內(nèi)部的數(shù)據(jù)挖掘私有云,為內(nèi)部產(chǎn)品提供數(shù)據(jù)挖掘服務(wù),也可以提供數(shù)據(jù)挖掘公用云,為不同的企業(yè)提供數(shù)據(jù)挖掘服務(wù)。

參考文獻(xiàn)

[1] 云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨的挑戰(zhàn)(1)[EB/OL].http://cloud.watchstor.com/storage-134538_1.htm

[2] 陳康,鄭緯民. 云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5):1337-1348.

[3] 紀(jì)俊.一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[D].青島:青島大學(xué),2009.

[4] J Han, M Kamber. Data mining concepts and techniques[M].Third Edition.San Francisco,CA,USA:Morgan Kaufmann Publishers,2012.

[5] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:科學(xué)出版社,2009.

[6] 商琳,駱斌.一種基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)框架[J].計(jì)算機(jī)應(yīng)用研究,2000,17(9):63-65.

[7] 楊艦友, 唐彥. 云計(jì)算總體架構(gòu)及其應(yīng)用與商業(yè)模式探討[J]. 數(shù)字通信,2012,(3):3-6.

[8] 何清. 基于云計(jì)算的海量數(shù)據(jù)挖掘[C/OL]//第二屆中國(guó)云計(jì)算大會(huì),2010 年5 月21-22 日,北京.http://blog.sina.com.cn/s/blog_66248a9e0100z38d.html

[9] 楊勇,董振江,陸平. 具備云計(jì)算特性的業(yè)務(wù)交付平臺(tái)及其關(guān)鍵技術(shù)研究[J]. 中興通訊技術(shù),2011,17(5):55-57.

[10] 吳朱華.云計(jì)算核心技術(shù)剖析[M].北京:人民郵電出版社,2011.

[11] 劉鵬.云計(jì)算[M]. 北京:電子工業(yè)出版社,2011.

[12] 夏英, 楊選倫. 云環(huán)境中基于金字塔模型的影像數(shù)據(jù)存儲(chǔ)方法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,24(6):669-674.

[13] 余永紅,向曉軍,高陽(yáng)等. 面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J]. 計(jì)算機(jī)科學(xué)與探索,2012,6(1),46-57.

[14]李智龍宿紹瑩唐鵬飛陳曾平. 基于數(shù)字信道化的正弦信號(hào)快速測(cè)頻方法[J]. 雷達(dá)科學(xué)與技術(shù), 2011,9(5):55-58.

作者:丁巖 楊慶平 錢(qián)煜明   來(lái)源:中興通訊技術(shù)

一.為什么需要“基于云計(jì)算”?

如果把人類(lèi)發(fā)展的歷史看作一條按照一定目的向前延伸的軌跡,那么就會(huì)發(fā)現(xiàn),它是沿著信息不斷膨脹的方向前進(jìn)的。今天,互聯(lián)網(wǎng)應(yīng)用、商業(yè)智能數(shù)據(jù)分析、科學(xué)數(shù)據(jù)處理等具有海量數(shù)據(jù)挖掘需求的應(yīng)用變得越來(lái)越普遍,如何高效管理、分析這些海量數(shù)據(jù)成為當(dāng)前急需解決的問(wèn)題;這些數(shù)據(jù)的異構(gòu)性(即類(lèi)型各異的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù))又進(jìn)一步加劇了海量數(shù)據(jù)處理的難度。

數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過(guò)程,能夠發(fā)現(xiàn)隱含在大規(guī)模數(shù)據(jù)中的知識(shí),從而指導(dǎo)人們決策。數(shù)據(jù)挖掘主要涉及特征化、區(qū)分、關(guān)聯(lián)或相關(guān)分析、分類(lèi)、聚類(lèi)、演變分析等等,在互聯(lián)網(wǎng)應(yīng)用、電子商務(wù)、電信、金融、醫(yī)療、交通、軍事、科學(xué)研究等等諸多領(lǐng)域的決策分析中被廣泛應(yīng)用。目前,常用的傳統(tǒng)數(shù)據(jù)挖掘軟件有:SQL server 2008、SPSSSAS、R、Weka、Clementine、Statistica等等。數(shù)據(jù)挖掘技術(shù)與關(guān)系型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)密切相關(guān);通常需要遍歷訓(xùn)練數(shù)據(jù)獲得相關(guān)的統(tǒng)計(jì)信息,用于求解或優(yōu)化模型參數(shù);在大規(guī)模數(shù)據(jù)上進(jìn)行頻繁的數(shù)據(jù)訪問(wèn)需要耗費(fèi)大量運(yùn)算時(shí)間。近年來(lái),數(shù)據(jù)規(guī)模從MB、GB級(jí)發(fā)展到TBPB級(jí)甚至EB、ZB級(jí),數(shù)據(jù)挖掘的要求和環(huán)境也變得越來(lái)越復(fù)雜,從而形成“數(shù)據(jù)量的急劇膨脹”和“數(shù)據(jù)深度分析需求的增長(zhǎng)”這兩大趨勢(shì),使得40年來(lái)一體適用的數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)在海量數(shù)據(jù)挖掘方面顯得力不從心。

分布式計(jì)算/并行計(jì)算(尤其是低成本的計(jì)算)是解決海量數(shù)據(jù)挖掘任務(wù)的有效手段。云計(jì)算是并行計(jì)算、分布式計(jì)算和網(wǎng)格計(jì)算等計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn),它可以將計(jì)算任務(wù)分布在大量互連的計(jì)算機(jī)上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算資源、存儲(chǔ)資源和其他服務(wù)資源。按照中國(guó)電子學(xué)會(huì)云計(jì)算專(zhuān)家委員會(huì)的學(xué)術(shù)定義,云計(jì)算是一種基于互聯(lián)網(wǎng)的、大眾參與的計(jì)算模式,其計(jì)算資源(包括計(jì)算能力、存儲(chǔ)能力、交互能力等)是動(dòng)態(tài)、可伸縮、被虛擬化的,并以服務(wù)的方式提供。這個(gè)新興領(lǐng)域中的MapReduce、Hadoop等高擴(kuò)展性、高性能的并行計(jì)算編程模型、分布式海量數(shù)據(jù)處理框架以及相關(guān)關(guān)鍵技術(shù),使得海量數(shù)據(jù)存儲(chǔ)和分布式計(jì)算成為現(xiàn)實(shí)。基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù),依賴(lài)于云計(jì)算平臺(tái)提供的低成本分布式并行計(jì)算環(huán)境,可以為更多、更復(fù)雜的海量數(shù)據(jù)挖掘問(wèn)題提供新的理論與支撐工具,為愈來(lái)愈多的企業(yè)分析海量數(shù)據(jù)提供解決方案,并大大減少它們應(yīng)用商務(wù)智能的成本。

二、       基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)熱點(diǎn)

2004年,Google公司最先提出MapReduce技術(shù)作為面向大數(shù)據(jù)分析和處理的并行計(jì)算模型,主要包含3個(gè)層面的內(nèi)容:(1) 分布式文件系統(tǒng);(2) 并行編程模型;(3) 并行執(zhí)行引擎。它首先為用戶(hù)提供分布式的文件系統(tǒng),使用戶(hù)能方便地處理大規(guī)模數(shù)據(jù);然后將所有的程序運(yùn)算抽象為MapReduce兩個(gè)基本操作,在Map階段模型將問(wèn)題分解為更小規(guī)模的問(wèn)題,并在集群的不同節(jié)點(diǎn)上執(zhí)行,在Reduce階段將結(jié)果歸并匯總。MapReduce在設(shè)計(jì)之初,致力于通過(guò)大規(guī)模廉價(jià)服務(wù)器集群實(shí)現(xiàn)大數(shù)據(jù)的并行處理,它把擴(kuò)展性和系統(tǒng)可用性放在了優(yōu)先考慮的位置。2005年初,Douglas Cutting等人在開(kāi)源搜索引擎系統(tǒng)Nutch上實(shí)現(xiàn)了一個(gè)MapReduce系統(tǒng);2006年,他們將MapReduceNDFSNutch的分布式文件系統(tǒng))移出Nutch形成開(kāi)源搜索項(xiàng)目Lucene一個(gè)子項(xiàng)目:Hadoop;2008年,Hadoop成為Apache的頂級(jí)項(xiàng)目,并逐漸成為一個(gè)進(jìn)行分布式計(jì)算和海量數(shù)據(jù)處理的基礎(chǔ)平臺(tái);在這個(gè)平臺(tái)之上的一系列項(xiàng)目和技術(shù)(如HDFS、MapReduce、PigHive、HBase、ZooKeeperSqoop等)構(gòu)建了一個(gè)Hadoop生態(tài)圈。

MapReduce并行編程模型和Hadoop平臺(tái)具有強(qiáng)大的處理大規(guī)模數(shù)據(jù)的能力,最早僅面向搜索引擎領(lǐng)域的數(shù)據(jù)分析,現(xiàn)已擴(kuò)展到面向更廣泛應(yīng)用的數(shù)據(jù)挖掘領(lǐng)域。但是,MapReduce模型適合結(jié)構(gòu)一致的海量數(shù)據(jù),且要求計(jì)算簡(jiǎn)單;而大量的數(shù)據(jù)密集型應(yīng)用,往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法,計(jì)算非常困難。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)成為了工業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點(diǎn)技術(shù)。下面對(duì)一些典型研究和應(yīng)用進(jìn)展進(jìn)行介紹。

斯坦福大學(xué)Chu等人在國(guó)際學(xué)術(shù)會(huì)議NIPS’2006提出一種基于MapReduce的、適用于大量機(jī)器學(xué)習(xí)算法的通用并行編程框架。他們通過(guò)對(duì)經(jīng)典的機(jī)器學(xué)習(xí)算法進(jìn)行分析發(fā)現(xiàn),算法學(xué)習(xí)過(guò)程中的運(yùn)算都能轉(zhuǎn)化為若干在訓(xùn)練數(shù)據(jù)集上的求和操作;求和操作可以獨(dú)立地在不同數(shù)據(jù)子集上進(jìn)行,因此很容易在MapReduce編程平臺(tái)上實(shí)現(xiàn)并行化執(zhí)行。在該框架下,他們實(shí)現(xiàn)了包括線(xiàn)性回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、主成分分析和支持向量機(jī)等在內(nèi)的十種經(jīng)典的數(shù)據(jù)挖掘算法。源于這篇論文的思想,在Apache軟件基金會(huì)資助下,Grant Ingersoll等人研發(fā)了一個(gè)基于Hadoop/MapReduce的開(kāi)源機(jī)器學(xué)習(xí)算法庫(kù)Mahout,致力于數(shù)據(jù)挖掘并行化。目前,Mahout最新發(fā)布版本號(hào)為0.5,已經(jīng)實(shí)現(xiàn)了協(xié)同過(guò)濾、局部線(xiàn)性加權(quán)回歸、貝葉斯分類(lèi)器、隨機(jī)森林決策樹(shù)分類(lèi)器、隱馬爾科夫模型、奇異值矩陣分解、并行頻繁模式挖掘、LDAK-Means聚類(lèi)、層次聚類(lèi)、模糊K-Means聚類(lèi)、均值漂移聚類(lèi)、譜聚類(lèi)等算法,可以有效地將并行數(shù)據(jù)挖掘技術(shù)應(yīng)用于相關(guān)大規(guī)模數(shù)據(jù)分析領(lǐng)域。

針對(duì)傳統(tǒng)數(shù)據(jù)挖掘軟件擴(kuò)展性差以及MapReduce數(shù)據(jù)分析功能薄弱的特點(diǎn),IBM研究院致力于對(duì)RHadoop的集成研究,從而將計(jì)算推向更高層次的數(shù)據(jù)挖掘并進(jìn)行并行處理,使Hadoop獲得了強(qiáng)大的深度分析能力。此外,IBM研究院Sun等人認(rèn)為,MapReduce特別適合倒排序索引、樸素貝葉斯、KNN等單次迭代的數(shù)據(jù)挖掘算法,也比較適合K-Means、高斯混合、PageRank、PLSILDA等需要多次迭代的算法,但并不適合像SVM這類(lèi)需要對(duì)大量共享數(shù)據(jù)進(jìn)行同步的算法。2011年,IBM研究院在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議KDD’2011上指出,MapReduce在執(zhí)行機(jī)器學(xué)習(xí)領(lǐng)域的算法時(shí)存在一些缺點(diǎn),進(jìn)而提出一種基于MapReduce的并行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法執(zhí)行工具包NIMBLE。

目前,學(xué)術(shù)界正在加大對(duì)基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)研究的關(guān)注,例如SIGMODVLDB、KDDSIGIR、WWW、HPDC、ICDE等國(guó)際學(xué)術(shù)會(huì)議都有論文闡述如何進(jìn)一步增強(qiáng)MapReduce的數(shù)據(jù)分析能力。Talia等人提出可以從四個(gè)層次提供云計(jì)算數(shù)據(jù)挖掘服務(wù):底層為組成數(shù)據(jù)挖掘算法的基本步驟;第二層為單獨(dú)的數(shù)據(jù)挖掘服務(wù)(例如分類(lèi)、聚類(lèi)等);第三層為分布式的數(shù)據(jù)挖掘模式(例如并行分類(lèi)、聚合式機(jī)器學(xué)習(xí)等);第四層為前三層元素構(gòu)成的完整的數(shù)據(jù)挖掘應(yīng)用。在此基礎(chǔ)上,他們?cè)O(shè)計(jì)了基于云計(jì)算的數(shù)據(jù)挖掘開(kāi)放服務(wù)框架,并開(kāi)發(fā)了一系列的數(shù)據(jù)挖掘服務(wù)系統(tǒng)(例如Weka4WS、Knowledge GridMobile Data Mining Services、Mining@home等)。例如,標(biāo)準(zhǔn)版Weka工具只能在單機(jī)上運(yùn)行,并且不能超越1GB內(nèi)存的限制;經(jīng)過(guò)算法的并行化,在MapReduce集群上不僅突破了原有的可處理數(shù)據(jù)量的限制,輕松地對(duì)超過(guò)100GB的數(shù)據(jù)進(jìn)行分析,同時(shí)利用并行計(jì)算提高了性能。此外,Ranger等人提出了一個(gè)基于MapReduce的應(yīng)用程序編程接口Phoenix,并實(shí)現(xiàn)了K-Means、主成分分析和線(xiàn)性回歸三種數(shù)據(jù)挖掘算法;Gillick等人對(duì)單程學(xué)習(xí)、迭代學(xué)習(xí)和基于查詢(xún)的學(xué)習(xí)三類(lèi)機(jī)器學(xué)習(xí)算法在MapReduce框架下的性能分別做了評(píng)測(cè)。

在國(guó)內(nèi),中科院計(jì)算所與中國(guó)移動(dòng)研究院合作研發(fā)了基于Hadoop的并行分布式數(shù)據(jù)挖掘平臺(tái)PDMiner,集成了多種機(jī)器學(xué)習(xí)算法;從系統(tǒng)架構(gòu)角度看,自下而上分為:分布式計(jì)算層(包括分布式文件系統(tǒng)、并行編程環(huán)境、分布式系統(tǒng)管理)、數(shù)據(jù)挖掘平臺(tái)層(主要包括數(shù)據(jù)加載、預(yù)處理、并行計(jì)算、結(jié)果顯示等)以及業(yè)務(wù)應(yīng)用層(主要是電信類(lèi)業(yè)務(wù)應(yīng)用);達(dá)到了商用軟件精度,數(shù)據(jù)處理規(guī)模遠(yuǎn)遠(yuǎn)超出傳統(tǒng)商用數(shù)據(jù)挖掘軟件;已成為中國(guó)移動(dòng)數(shù)據(jù)挖掘分析支撐工具,應(yīng)用于TB級(jí)的實(shí)際電信數(shù)據(jù)挖掘。此外,中科院計(jì)算所還開(kāi)發(fā)了面向Web的數(shù)據(jù)挖掘云服務(wù)平臺(tái)CMOS;中科院深圳先進(jìn)研究院研制了一個(gè)分布式數(shù)據(jù)挖掘客戶(hù)端系統(tǒng)AlphaMiner,服務(wù)器為運(yùn)行于集群的Hadoop平臺(tái);南京大學(xué)正在研發(fā)一個(gè)基于Hadoop的并行數(shù)據(jù)挖掘算法工具箱Dodo,以期實(shí)現(xiàn)迭代/非迭代類(lèi)數(shù)據(jù)挖掘算法的并行MapReduce化實(shí)現(xiàn),并提供包括資源分配、目錄服務(wù)、流管理等一系列的組件化數(shù)據(jù)挖掘云服務(wù)。

目前,工業(yè)界推出的商用云計(jì)算平臺(tái)有:Amazon公司的EC2S3AWS)、Google公司的Google Apps EngineGAE)、Yahoo!公司的Yahoo Application PlatformYAP)、IBM公司的Blue Cloud、Microsoft公司的Windows Azure、Salesforce公司的Sales Force、Apple公司的iCloudVMware公司的vCloud、Cloudera的商用Hadoop平臺(tái)、Apache軟件基金會(huì)的開(kāi)源Hadoop平臺(tái)等。這些平臺(tái)除了提供基本的分布式存儲(chǔ)和計(jì)算功能外,有的還具備一些數(shù)據(jù)挖掘能力。Intel發(fā)布了2015未來(lái)云愿景,并發(fā)起開(kāi)放式數(shù)據(jù)中心聯(lián)盟,以期制定滿(mǎn)足下一代數(shù)據(jù)中心和云計(jì)算的需求;Microsoft計(jì)劃將基于HadoopWindows Server與其現(xiàn)有商務(wù)智能挖掘工具(如SQL server 2008)聯(lián)合處理大數(shù)據(jù)任務(wù);商務(wù)智能領(lǐng)域的各大公司也提供面向企業(yè)的大規(guī)模數(shù)據(jù)挖掘服務(wù),例如微策略、IBMOracle等公司都擁有基于云計(jì)算的數(shù)據(jù)挖掘服務(wù)平臺(tái);Google、Yahoo!、Facebook等使用上千個(gè)節(jié)點(diǎn)組成的Hadoop集群進(jìn)行海量搜索日志和網(wǎng)頁(yè)數(shù)據(jù)分析。

在國(guó)內(nèi),中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通分別展開(kāi)“大云”、“星云”、“互聯(lián)云”的項(xiàng)目建設(shè)(其中,2011年“大云”已經(jīng)達(dá)到1036個(gè)節(jié)點(diǎn)、5208個(gè)CPU、10TB內(nèi)存的規(guī)模),主要為商業(yè)經(jīng)營(yíng)分析、電信、互聯(lián)網(wǎng)、電子政務(wù)等多個(gè)領(lǐng)域提供數(shù)據(jù)挖掘、系統(tǒng)評(píng)估、搜索等方面的計(jì)算服務(wù)。2011年,由國(guó)家發(fā)改委牽頭,聯(lián)合工信部、財(cái)政部撥出15億元,作為國(guó)家戰(zhàn)略新興產(chǎn)業(yè)云計(jì)算示范工程專(zhuān)項(xiàng)資金,重點(diǎn)推動(dòng)國(guó)內(nèi)云計(jì)算產(chǎn)業(yè)發(fā)展、扶持云計(jì)算領(lǐng)軍企業(yè)。例如,百度擁有國(guó)內(nèi)最大規(guī)模的綠色數(shù)據(jù)中心集群,計(jì)劃投入數(shù)十億元發(fā)展智能數(shù)據(jù)服務(wù)、典型行業(yè)應(yīng)用和公共云計(jì)算平臺(tái);阿里巴巴利用Hadoop平臺(tái)對(duì)海量電子商務(wù)交易數(shù)據(jù)進(jìn)行存儲(chǔ)和深度數(shù)據(jù)挖掘,并于2011年啟動(dòng)10億元云基金,專(zhuān)注于基于云計(jì)算的電子商務(wù)、分布式存儲(chǔ)和計(jì)算技術(shù)、數(shù)據(jù)中心運(yùn)維技術(shù)、大規(guī)模/超大規(guī)模的數(shù)據(jù)挖掘和分析的算法等等;騰訊已經(jīng)在海量社交網(wǎng)絡(luò)服務(wù)數(shù)據(jù)挖掘和大規(guī)模圖分析等方面積累了豐富的實(shí)踐經(jīng)驗(yàn),并已經(jīng)或計(jì)劃在天津、上海、重慶建立云計(jì)算中心和電子商務(wù)基地,以利用云計(jì)算展開(kāi)海量數(shù)據(jù)分析。

但是,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)還面臨很多挑戰(zhàn),仍存在許多問(wèn)題等待解決,例如:基于云計(jì)算的新型海量數(shù)據(jù)挖掘方法研究和實(shí)現(xiàn);各種數(shù)據(jù)挖掘算法的并行化策略;在MapReduce上實(shí)現(xiàn)更加復(fù)雜的分析、更大規(guī)模的分析;關(guān)系數(shù)據(jù)庫(kù)技術(shù)與Hadoop/MapReduce技術(shù)的融合;云計(jì)算環(huán)境下海量數(shù)據(jù)挖掘服務(wù)的遷移學(xué)習(xí);云計(jì)算環(huán)境下海量數(shù)據(jù)挖掘的可視化、可信性、安全性等等。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
基于云計(jì)算的海量數(shù)據(jù)挖掘
大數(shù)據(jù)在物流行業(yè)及供應(yīng)鏈管理中的應(yīng)用案例分享
大數(shù)據(jù)導(dǎo)論
基于Hadoop平臺(tái)的個(gè)性化新聞推薦系統(tǒng)的設(shè)計(jì)
網(wǎng)絡(luò)時(shí)代海量數(shù)據(jù)挖掘的關(guān)鍵技術(shù)及應(yīng)用現(xiàn)狀
DataSense分布式數(shù)據(jù)挖掘平臺(tái)
更多類(lèi)似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服