中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
張華平:大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型(轉(zhuǎn))

華平,副教授,北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒炇抑魅危搶嶒炇业亩喾N形式研究成果已經(jīng)在在學(xué)術(shù)界和產(chǎn)業(yè)界得到廣泛的應(yīng)用。


大數(shù)據(jù)是從海量信息中挖掘知識和智慧


記者:現(xiàn)在人們都在談?wù)摯髷?shù)據(jù),那么到底“大”到什么程度呢?


張華平:隨著以Twitter與Facebook等為代表的新型社交媒體的出現(xiàn)和迅猛發(fā)展,基于互聯(lián)網(wǎng)的社交媒體已經(jīng)成為信息傳播的重要渠道和載體,從而產(chǎn)生了海量的數(shù)據(jù)。我這里有一組數(shù)據(jù),我們可以感受一下。


每分鐘Facebook評論數(shù)超過50萬,圖片上傳量接近14萬張。按照這個速度計算,只需15分鐘,F(xiàn)acebook圖片上傳量就相當(dāng)于紐約圖片檔案館中的圖片總量;輕博客Tumblr每分鐘博文發(fā)布量為1000篇,博文轉(zhuǎn)發(fā)量為300篇;2012年,天貓與淘寶的“雙十一”交易總額為53億元,“雙十一”全天,支付寶交易筆數(shù)超一億筆,最高峰時處理交易數(shù)達(dá)20.5萬筆/分鐘;新浪微博用戶平均每天發(fā)布微博超過一億條,每分鐘平均處理微博7萬條。


可以說,互聯(lián)網(wǎng)時代,信息的生產(chǎn)能力已經(jīng)超過了人們對其處理和吸收的能力,因此,幫助人們快速、方便、準(zhǔn)確地從大數(shù)據(jù)海洋中搜索并挖掘到所需的信息,已經(jīng)成為時代發(fā)展的需要。


記者:那么,到底什么是大數(shù)據(jù)呢?請談?wù)勀亩x。


張華平:究竟什么是大數(shù)據(jù),不同的人都會做出對自己有利的解釋,這一點跟當(dāng)前所有流行的技術(shù)熱點類似。比如說:數(shù)據(jù)庫領(lǐng)域的人會說大數(shù)據(jù)就是數(shù)據(jù)倉庫,體系結(jié)構(gòu)的會說大數(shù)據(jù)就是云計算、hadoop就是數(shù)據(jù)中心,做芯片的會說,大數(shù)據(jù)就是更高性能的并行芯片。


英國學(xué)者、《大數(shù)據(jù)時代》作者舍恩博格可以說是大數(shù)據(jù)的啟蒙者,我們稱他為老舍。我曾經(jīng)跟他做過交流,他認(rèn)為,大數(shù)據(jù)是指不用隨機(jī)分析法的捷徑,而采用所有數(shù)據(jù)的方法。


我認(rèn)為,已有的定義都不嚴(yán)謹(jǐn),僅僅是定義出了大數(shù)據(jù)的屬性,是大數(shù)據(jù)的必要而不充分的條件。我自己的理解是:大數(shù)據(jù)是指從客觀存在的全量超大規(guī)模、多源異構(gòu)、實時變化的微觀數(shù)據(jù)中,利用自然語言處理、信息檢索、機(jī)器學(xué)習(xí)等技術(shù)抽取知識,轉(zhuǎn)化為智慧的方法論。它是一場新的科技革命,也是思想方法的革命。大數(shù)據(jù)思維主要包括:全量分析,讓數(shù)據(jù)說話;承認(rèn)并客觀地認(rèn)識世界的混雜性;相關(guān)性挖掘替代因果推斷。


當(dāng)然這里還有不少爭議,我更多強調(diào)的是大數(shù)據(jù)是從微觀數(shù)據(jù)中發(fā)現(xiàn)信息,挖掘知識,并轉(zhuǎn)化為智慧。


記者:以前也是有數(shù)據(jù)的,大數(shù)據(jù)和之前的數(shù)據(jù)相比有哪些特性呢?


張華平:一是規(guī)模,大數(shù)據(jù)最突出的特點就是“大”。二是多樣性,數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),以前我們最常見的就是結(jié)構(gòu)化數(shù)據(jù),也就是數(shù)據(jù)庫和數(shù)據(jù)倉庫。但在大數(shù)據(jù)里,我們基本上特指的是非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)不過是冰山一角,非結(jié)構(gòu)化數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)的十倍乃至百倍。三是數(shù)據(jù)的變化越來越快。我們以前接觸的數(shù)據(jù)是靜態(tài)的,或者說等到積累到一定規(guī)模的時候,再進(jìn)行處理。但如今,可能在處理數(shù)據(jù)的時候,新的數(shù)據(jù)又來了。


大數(shù)據(jù)最重要的特性就是實現(xiàn)其價值的增值。現(xiàn)在的數(shù)據(jù)雖然海量,但價值密度特別低。以前每一條都是有用的,現(xiàn)在需要浪里淘沙,沙里淘金,實現(xiàn)信息價值的量變到質(zhì)變,實現(xiàn)信息本身的增值,從而產(chǎn)生知識,進(jìn)而演化為智慧。


大數(shù)據(jù)是一種軟資產(chǎn)


記者:你為什么強調(diào)大數(shù)據(jù)是一場科技革命?


張華平:我剛才談到,大數(shù)據(jù)是信息疊加產(chǎn)生知識、智慧的過程,大數(shù)據(jù)時代的到來,會帶來兩個變化。


第一,以前我們都非常重視系統(tǒng),系統(tǒng)是核心,只要把數(shù)據(jù)輸入,最后得到一個結(jié)果就可以了。而在大數(shù)據(jù)時代,數(shù)據(jù)被作為一種軟資產(chǎn)來看待?,F(xiàn)在還沒有更多手段從大數(shù)據(jù)中挖掘出知識來,但它是一種軟資產(chǎn)已經(jīng)成為共識。


我們舉個例子,比如百度,我們所有人都用百度地圖,百度也花很多錢去打廣告去研發(fā),但我們并沒有付費,它的盈利從哪里來?再比如淘寶,它的盈利又從哪里來?


很多人以為它們是靠關(guān)鍵詞搜索排名,這確實可以收點費用,但并不重要。最重要的是,它們掌握著數(shù)據(jù),可以通過數(shù)據(jù)挖掘用戶的行為習(xí)慣和喜好,可以據(jù)此對產(chǎn)品和服務(wù)進(jìn)行有針對性的調(diào)整和優(yōu)化。比如什么衣服流行,尺寸應(yīng)該怎樣分配,大號生產(chǎn)多少,小號生產(chǎn)多少等等,廠家可以從購物網(wǎng)站得到這些數(shù)據(jù)??梢哉f,手握大數(shù)據(jù)的公司是“金礦上的富翁”。


第二,大數(shù)據(jù)已經(jīng)成為了下一代科技革命的原動力。大數(shù)據(jù)和別的資產(chǎn)不同,是可以不斷重復(fù)開發(fā)的。我們今天可以想一個辦法進(jìn)行挖掘,明天又可以從另一個角度進(jìn)行挖掘,每一次都會產(chǎn)生新的價值。而所有這些數(shù)據(jù),到一定的時刻或者時段,將成為引發(fā)下一代科技革命的依據(jù)和導(dǎo)火索。


記者:這樣看來,大數(shù)據(jù)的用途太大了。


張華平:是這樣。比如,使用百度地圖,它就會記錄你的行蹤。一個人的數(shù)據(jù)是微小的,但當(dāng)幾億人的數(shù)據(jù)匯總分析之后,能做的事情就不簡單了:可以了解人們的旅游偏好、道路擁堵狀況,以及旅游線路設(shè)計、旅游規(guī)劃存在等等。所有這些,并不需要像過去一樣要采用衛(wèi)星手段,而是通過大數(shù)據(jù)分析就可以得出結(jié)論。通過購物網(wǎng)站,甚至一個領(lǐng)導(dǎo)人的偏好都可以分析出來,可以說,在大數(shù)據(jù)時代已經(jīng)沒有隱私,這一點常常讓人感到恐懼。所以,大數(shù)據(jù)不僅僅只涉及商業(yè)領(lǐng)域,它在軍事上、在國家安全、經(jīng)濟(jì)發(fā)展、社會穩(wěn)定等各方面都有廣泛的用途。


美國對大數(shù)據(jù)是高度重視的。2012年,美國白宮發(fā)布了一個大數(shù)據(jù)的促進(jìn)計劃,要投資2億美元推動大數(shù)據(jù)研究,從大數(shù)據(jù)里面抽取出知識,獲得洞察力和智慧。這應(yīng)該引起我國高層的關(guān)注。


大數(shù)據(jù)挖掘是知著、見微、曉意


記者:那么,大數(shù)據(jù)的挖掘是怎樣一個過程呢?


張華平:大數(shù)據(jù)挖掘就是知著、見微、曉意。知著,強調(diào)的是從整體來認(rèn)識客觀世界,需要快速計算大數(shù)據(jù)的宏觀特征與結(jié)構(gòu)。比如,在對微博的分析過程中,我們需要的是快速計算出微博的熱點特征,需要了解微博關(guān)注與傳播的宏觀分布圖。


見微,強調(diào)的是在宏觀指導(dǎo)下,有針對性地研究有代表性的微觀數(shù)據(jù)。我們不可能對每一條微博做精細(xì)化的分析,這在效率上是不允許的,也會導(dǎo)致噪聲過多,影響最終的效果。


曉意,強調(diào)的是對語言語義的理解與認(rèn)知,屬于自然語言理解的范疇,需要我們真正理解內(nèi)容內(nèi)在的含義。


記者:請您舉一個通俗的例子說一下大數(shù)據(jù)應(yīng)用。


張華平:我們都知道美國的棱鏡計劃,這是美國國家安全局(NSA)的信息監(jiān)視項目,主要監(jiān)視十類信息——電郵、即時消息、視頻、照片、存儲數(shù)據(jù)、語音聊天、文件傳輸、視頻會議、登錄時間和社交網(wǎng)絡(luò)資料的細(xì)節(jié)。


我曾經(jīng)在中央電視臺接受專訪,談從棱鏡計劃的手機(jī)監(jiān)控來看大數(shù)據(jù)。我們知道,利用手機(jī)周邊的三個基站基本可以定位出我們所在的位置。那么,利用手機(jī)位置,美國NSA究竟可以做什么呢?


第一,可以推斷出個人的活動規(guī)律,如出差規(guī)律、出國頻度等。


第二,可以推斷出個人職業(yè)、性別等。這個并不難,只需要根據(jù)其位置對應(yīng)的職業(yè)特征即可,如高校、寫字樓、農(nóng)場、女性用品店等。


第三,可以推斷出個人社交圈。晚上與你手機(jī)頻繁重疊的,絕大部分都是你的親屬;白天重疊的,是同事的概率極高;與危險人物密切交際的手機(jī)主人,其屬于潛在威脅的概率大大高于常人。


這是一個非常經(jīng)典的大數(shù)據(jù)案例,其中手機(jī)位置數(shù)據(jù)大量疊加,可以從中獲得遠(yuǎn)遠(yuǎn)超出手機(jī)位置之外的多種信息,幾乎可以做安全監(jiān)控的所有事情。


記者:您領(lǐng)導(dǎo)的大數(shù)據(jù)搜索與挖掘?qū)嶒炇易隽四男┭芯磕兀?/p>


張華平:JZSearch精準(zhǔn)搜索引擎,也就是中文非結(jié)構(gòu)化大數(shù)據(jù)搜索引擎,是由我們實驗室開發(fā)的,全部是我們的自護(hù)知識產(chǎn)權(quán),具有專業(yè)精準(zhǔn)、高擴(kuò)展性和高通用性的特點??芍С治谋?、數(shù)字、日期、字符串等各種數(shù)據(jù)類型的高效索引,支持豐富的查詢語言和查詢類型,支持少數(shù)民族語言的搜索。目前已經(jīng)應(yīng)用于中國郵政搜索引擎、河北省標(biāo)準(zhǔn)搜索引擎、富基融通商品搜索。國防科大、華為、中國移動、人民網(wǎng)等采用的都是我們實驗室輸出的技術(shù)。


除了搜索之外,我們更多的工作是圍繞大數(shù)據(jù)的內(nèi)容挖掘推出了NLPIR網(wǎng)絡(luò)搜索與挖掘共享開發(fā)平臺,是針對語言信息內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。我們提供應(yīng)用軟件及各平臺下的二次開發(fā)包,非商用永久免費。


記者:應(yīng)用效果如何?


張華平:反映非常好。比如,締元信為國內(nèi)主流的門戶網(wǎng)站提供網(wǎng)絡(luò)統(tǒng)計服務(wù),每日新增數(shù)據(jù)500G,采用我們的大數(shù)據(jù)挖掘技術(shù),為客戶提供了精準(zhǔn)的商情營銷增值服務(wù)。


我們的技術(shù)還可以應(yīng)用于政治報告、國情咨文解讀、微博分析等等。就微博而言,通過技術(shù)分析,就很容易發(fā)現(xiàn)一個人的偏好,包括他的朋友,甚至可以分析出他的價值觀。比如像薛蠻子,我們做過他的分析,根據(jù)他的微博,我們發(fā)現(xiàn)他這個人追求刺激和權(quán)力的欲望非常高。


記者:我看到過一篇報道,說紀(jì)委實行大數(shù)據(jù)辦案。什么叫大數(shù)據(jù)辦案?你們的成果可以應(yīng)用在反腐敗方面嗎?


張華平:完全可以;我理解的大數(shù)據(jù)辦案指的是從各種公開的碎片化大數(shù)據(jù)中通過搜索挖掘的手段,發(fā)現(xiàn)腐敗的線索,輔助傳統(tǒng)。楊達(dá)才案就是經(jīng)典的大數(shù)據(jù)辦案,通過十余張公開的正面新聞報道的照片,按照手表為線索,最終挖掘出其貪腐的嫌疑。我們相關(guān)的研究成果在輿情監(jiān)測、社會問題發(fā)現(xiàn)等都有實際應(yīng)用,完全適用大數(shù)據(jù)辦案。


大數(shù)據(jù)開啟了時代轉(zhuǎn)型


記者:大數(shù)據(jù)給我們的生活帶來了哪些方便?


張華平:大數(shù)據(jù)切切實實在改變我們的生活,我們每個人都有感受。我們在網(wǎng)上享受到很多服務(wù),其實就是眾包模式的體現(xiàn)。它真正體現(xiàn)了人人為我,我為人人。


比如,我們每天都要接到很多騷擾電話、廣告電話,之前很難解決這個問題。在大數(shù)據(jù)時代,用眾包的理念就可以解決。如果你覺得這是一個騷擾電話,可以做出標(biāo)注,當(dāng)下次再接到這個電話時,你也許會發(fā)現(xiàn)已經(jīng)有上百人也做了標(biāo)注,掛掉就是了。


再比如,我們出去旅游,現(xiàn)在都會在網(wǎng)上做好攻略。不論是旅游地點還是賓館,去玩過的人會告訴你,哪個地方好,哪個地方不好;哪個賓館便宜,那個賓館服務(wù)態(tài)度不好。這樣,即使是一個山區(qū)的偏僻小店,只要它有特色,只要大家都說好,我們也敢去飽餐一頓。


當(dāng)然,大數(shù)據(jù)也有一個很重大的缺陷,就是讓我們每一個人都成了一個透明的人,這就涉及到個人隱私的保護(hù)問題。但我們不能因為高鐵出事不坐高鐵,不能因為飛機(jī)出事就不坐飛機(jī)。大數(shù)據(jù)是科技發(fā)展的趨勢,但要把握好方向,這就需要法律的完善。


未來的大數(shù)據(jù)將向人工智能的方向發(fā)展,它將引領(lǐng)各個產(chǎn)業(yè)20-30年。它將影響到我們每個人生活的方方面面,對社會經(jīng)濟(jì)生活、管理創(chuàng)新甚至國家戰(zhàn)略產(chǎn)生深遠(yuǎn)的影響。bigdata is a big deal,大數(shù)據(jù)真的是一個大的事業(yè),它開啟了一次重大的時代轉(zhuǎn)型,我們應(yīng)該把這項事業(yè)做得更好。


北京報道/本刊記者 劉增輝

 

來源:《中國遠(yuǎn)程教育》(資訊)2014年第10期轉(zhuǎn)載請注明來源!

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
途友 | 華平股份邁開大數(shù)據(jù)戰(zhàn)略第一步,投資易保互聯(lián)
驚呆了!大數(shù)據(jù)和云計算竟然有這么多驚人之處!
大數(shù)據(jù)時代:大數(shù)據(jù)是一種有著真正未來的趨勢
田溯寧:云計算中的“大數(shù)據(jù)”
【非凡·擁抱變革】華平投資丁毅:傳統(tǒng)企業(yè)如何適應(yīng)互聯(lián)網(wǎng)潮流?
大數(shù)據(jù)時代 的結(jié)構(gòu)和解構(gòu)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服