前言
現(xiàn)代科技高速發(fā)展,一方面給人們生活帶來(lái)了便利;另一方面也給人們工作、生活沖擊越來(lái)越大。接下來(lái)的物聯(lián)網(wǎng)、人工智能、大數(shù)據(jù)、云計(jì)算、智能硬件等高科技來(lái)襲,會(huì)進(jìn)一步顛覆人們傳統(tǒng)的生活方式、工作方式,所以我們有必要認(rèn)識(shí)和了解它們。
作者將分七篇文章與條頭們分享討論互聯(lián)網(wǎng)發(fā)展過(guò)程中發(fā)生了那些重要的科技創(chuàng)新,本篇主要分享“大數(shù)據(jù)”。
大數(shù)據(jù)(big data)定義:
美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)給出的定義是:大數(shù)據(jù)是數(shù)量大、獲取速度快或形態(tài)多樣的數(shù)據(jù),難以用傳統(tǒng)關(guān)系型數(shù)據(jù)分析方法進(jìn)行有效分析,或者需要大規(guī)模的水平擴(kuò)展才能高效處理。
2.大數(shù)據(jù)的4V特征:
2. 1.Volume容量:數(shù)據(jù)體量巨大,從TB增長(zhǎng)到PB指非結(jié)構(gòu)化數(shù)據(jù)的模型和增長(zhǎng)速度;
①非結(jié)構(gòu)化數(shù)據(jù)占總數(shù)據(jù)量的80-90%,比結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)快10-50倍,數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)庫(kù)的10-50倍;
說(shuō)明:
a、非結(jié)構(gòu)化數(shù)據(jù)-是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。包括所
有格式的辦公文檔、文本、圖片、XML, HTML、各類(lèi)報(bào)表、圖像和音頻/視頻信息等等。
b、結(jié)構(gòu)化數(shù)據(jù),簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù)。比如企業(yè)ERP、財(cái)務(wù)系統(tǒng)、醫(yī)療HIS數(shù)據(jù)庫(kù)等
②數(shù)據(jù)基本單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。相鄰單位之間差1024倍,如TB=1024GB,PB=1024TB;
2.2.Variety多樣化:指數(shù)據(jù)的異構(gòu)和多樣性,數(shù)據(jù)多種不同形式,如文本、圖像、視頻、機(jī)器數(shù)據(jù);數(shù)據(jù)無(wú)模式或者模式不明顯;
①數(shù)據(jù)來(lái)源多,微博、傳感器、社交網(wǎng)站;
②數(shù)據(jù)的種類(lèi)多,非結(jié)構(gòu)化數(shù)據(jù)多,視頻、模型、音頻、文檔、連接信息;
③關(guān)聯(lián)性強(qiáng):譬如旅行圖片和日志,就能推測(cè)出你的位置和行程是怎么樣的。
2.3.Value價(jià)值:體現(xiàn)在大量的不相關(guān)信息,價(jià)值密度低,需要通過(guò)深度復(fù)雜分析才可以對(duì)未來(lái)趨勢(shì)與模式進(jìn)行預(yù)測(cè);價(jià)值密度低,從海量數(shù)據(jù)中挖掘稀有并珍貴的信息才是大數(shù)據(jù)的核心;
2.4.Velocity高效:實(shí)現(xiàn)實(shí)時(shí)分析,實(shí)時(shí)呈現(xiàn)分析結(jié)果;能否實(shí)現(xiàn)實(shí)時(shí)的數(shù)據(jù)流處理是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)-BI的關(guān)鍵差別之一;
3.大數(shù)據(jù)的意義:
大數(shù)據(jù)是幫助企業(yè)利用海量數(shù)據(jù)資產(chǎn)實(shí)時(shí)、精確的洞察未知邏輯領(lǐng)域的動(dòng)態(tài)變化,并快速重塑業(yè)務(wù)流程、組織和行業(yè)的新型數(shù)據(jù)管理技術(shù)構(gòu)建顛覆性?xún)?yōu)勢(shì):
①洞察未知:多樣化的數(shù)據(jù)使企業(yè)可以利用更為廣泛的數(shù)據(jù)以支撐企業(yè)更多維度的分析需求,而不再局限于已知事實(shí)的分析,進(jìn)而增加戰(zhàn)略洞察力;
②優(yōu)化流程:動(dòng)態(tài)的分析變化可以使企業(yè)實(shí)時(shí)監(jiān)測(cè)分析業(yè)務(wù)流程的不足,進(jìn)而不斷優(yōu)化業(yè)務(wù)流程;
③實(shí)時(shí)響應(yīng):數(shù)據(jù)可實(shí)時(shí)訪問(wèn)分析加速了企業(yè)獲取信息及分析的速度,進(jìn)而使用戶更加靈敏的應(yīng)對(duì)市場(chǎng)的變化。
4.大數(shù)據(jù)技術(shù)和傳統(tǒng)數(shù)據(jù)管理技術(shù)不同:
4.1.大數(shù)據(jù)以動(dòng)態(tài)為主,傳統(tǒng)數(shù)據(jù)以靜態(tài)為主
維度 | 大數(shù)據(jù) | 傳統(tǒng)數(shù)據(jù) |
從數(shù)據(jù)來(lái)看 | 大數(shù)據(jù)技術(shù)針對(duì)的是實(shí)時(shí)產(chǎn)生的大量結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù) | 傳統(tǒng)數(shù)據(jù)管理針對(duì)的是過(guò)去一段時(shí)間內(nèi)已知范圍內(nèi)的易于理解的數(shù)據(jù) |
從處理工具來(lái)看 | 大數(shù)據(jù)技術(shù)要求實(shí)時(shí)處理數(shù)據(jù) | 要求高效、高吞吐處理數(shù)據(jù),并未有嚴(yán)格的時(shí)限要求 |
從數(shù)據(jù)算法來(lái)看 | 探究的是建立算法模型,基于實(shí)時(shí)數(shù)據(jù)不斷優(yōu)化 | 管理統(tǒng)計(jì)分析主題關(guān)系早確立且不變 |
4.2.從是否已知關(guān)系來(lái)看
維度 | 大數(shù)據(jù) | 傳統(tǒng)數(shù)據(jù) |
已知關(guān)系 | 未知為主,大數(shù)據(jù)探究的是已知之外的數(shù)據(jù)關(guān)聯(lián)程度 | 已知為主,傳統(tǒng)數(shù)據(jù)管理技術(shù)探究的是基于已知下數(shù)量關(guān)系 |
5.大數(shù)據(jù)的技術(shù)支撐:
5.1.存儲(chǔ)
①存儲(chǔ)成本下降,存儲(chǔ)成本的下降,也改變了大家對(duì)數(shù)據(jù)的看法,更加愿意把1年、2年甚至更久遠(yuǎn)的歷史數(shù)據(jù)保存下來(lái),有了歷史數(shù)據(jù)的沉淀,才可以通過(guò)對(duì)比,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)和價(jià)值;
②正是由于存儲(chǔ)成本的下降,才能為大數(shù)據(jù)搭建最好的基礎(chǔ)設(shè)施;
5.2.計(jì)算
運(yùn)算速度越來(lái)越快,海量數(shù)據(jù)從原始數(shù)據(jù)源到產(chǎn)生價(jià)值,期間會(huì)經(jīng)過(guò)存儲(chǔ)、清洗、挖掘、分析等多個(gè)環(huán)節(jié),如果計(jì)算速度不夠快,很多事情是無(wú)法實(shí)現(xiàn)的。
5.3.智能
機(jī)器擁有理解數(shù)據(jù)的能力大數(shù)據(jù)帶來(lái)的最大價(jià)值就是“智慧”,大數(shù)據(jù)讓機(jī)器變得有智慧,同時(shí)人工智能進(jìn)一步提升了處理和理解數(shù)據(jù)的能力。
6.大數(shù)據(jù)幾種較為常用的功能:
6.1.追蹤
互聯(lián)網(wǎng)和物聯(lián)網(wǎng)無(wú)時(shí)無(wú)刻不在記錄,大數(shù)據(jù)可以追蹤、追溯任何一個(gè)記錄,形成真實(shí)的歷史軌跡。追蹤是許多大數(shù)據(jù)應(yīng)用的起點(diǎn),包括消費(fèi)者購(gòu)買(mǎi)行為、購(gòu)買(mǎi)偏好、支付手段、搜索和瀏覽歷史、位置信息等。
6.2.識(shí)別
在對(duì)各種因素全面追蹤的基礎(chǔ)上,通過(guò)定位、比對(duì)、篩選,可以實(shí)現(xiàn)精準(zhǔn)識(shí)別,尤其是對(duì)語(yǔ)音、圖像、視頻進(jìn)行識(shí)別,使可分析內(nèi)容大大豐富,得到的結(jié)果更為精準(zhǔn)。
6.3.畫(huà)像
通過(guò)對(duì)同一主體不同數(shù)據(jù)源的追蹤、識(shí)別、匹配,形成更立體的刻畫(huà)和更全面的認(rèn)識(shí)。對(duì)消費(fèi)者畫(huà)像,可以精準(zhǔn)推送廣告和產(chǎn)品;對(duì)企業(yè)畫(huà)像,可以準(zhǔn)確判斷其信用及面臨的風(fēng)險(xiǎn)。
6.4.提示
在歷史軌跡、識(shí)別和畫(huà)像基礎(chǔ)上,對(duì)未來(lái)趨勢(shì)及重復(fù)出現(xiàn)的可能性進(jìn)行預(yù)測(cè),當(dāng)某些指標(biāo)出現(xiàn)預(yù)期變化或超預(yù)期變化時(shí)給予提示、預(yù)警。以前也有基于統(tǒng)計(jì)的預(yù)測(cè),大數(shù)據(jù)大大豐富了預(yù)測(cè)手段,對(duì)建立風(fēng)險(xiǎn)控制模型有深刻意義。
6.5.匹配在海量信息中精準(zhǔn)追蹤和識(shí)別,利用相關(guān)性、接近性等進(jìn)行篩選比對(duì),更有效率地實(shí)現(xiàn)產(chǎn)品搭售和供需匹配。大數(shù)據(jù)匹配功能是互聯(lián)網(wǎng)約車(chē)、租房、金融等共享經(jīng)濟(jì)新商業(yè)模式的基礎(chǔ)。
6.6.優(yōu)化
按距離最短、成本最低等給定的原則,通過(guò)各種算法對(duì)路徑、資源等進(jìn)行優(yōu)化配置。對(duì)企業(yè)而言,提高服務(wù)水平、提升內(nèi)部效率;對(duì)公共部門(mén)而言,節(jié)約公共資源、提升公共服務(wù)能力。
聯(lián)系客服