2016 年,谷歌 AlphaGo 機(jī)器人在圍棋比賽中擊敗了世界冠軍李世石,引爆了人工智能,開啟人工智能的新紀(jì)元。2017年,國務(wù)院發(fā)布實(shí)施了《新一代人工智能發(fā)展規(guī)劃》,對(duì)中國面向2030年的人工智能產(chǎn)業(yè)進(jìn)行了整體規(guī)劃與部署。一時(shí)間,人工智能AI成為炙手可熱的風(fēng)口,幾乎所有的IT互聯(lián)網(wǎng)企業(yè),以及那些還在推動(dòng)互聯(lián)網(wǎng)+、數(shù)字化轉(zhuǎn)型的傳統(tǒng)企業(yè),也試圖尋求借助人工智能實(shí)現(xiàn)自身的轉(zhuǎn)型升級(jí)。
但如同這些年來,大數(shù)據(jù)先是被神化,然后又被妖魔化的技術(shù)概念炒作路線一樣,本輪AI熱潮也必然會(huì)經(jīng)歷從過度神化走向落地的過程。在狂熱之余,也有必要分析本輪AI熱潮的實(shí)質(zhì):本輪火熱的人工智能在算法或模型方面并無革命性的重大突破。深度學(xué)習(xí)早在上世紀(jì)八十年代就已經(jīng)出現(xiàn)。近年來人工智能的突然爆發(fā),主要有兩個(gè)關(guān)鍵因素:一是大數(shù)據(jù),為深度學(xué)習(xí)算法提供海量的訓(xùn)練數(shù)據(jù)作支撐;二是高性能計(jì)算,尤其是通用計(jì)算GPU給予了神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)強(qiáng)大的計(jì)算力支持,使得以前無法完成的計(jì)算或者無法在短時(shí)間內(nèi)完成的計(jì)算成為了可能。
正因?yàn)橛辛藘蓚€(gè)關(guān)鍵因素作支撐,使得本輪人工智能呈現(xiàn)與以往不同的特征:在特定領(lǐng)域,學(xué)習(xí)的主體真正由人變成了機(jī)器,人工智能正式進(jìn)入了2.0時(shí)代。這也是試圖尋求借助人工智能實(shí)現(xiàn)自身轉(zhuǎn)型升級(jí)的傳統(tǒng)企業(yè),最為關(guān)注的焦點(diǎn):即如何借助人工智能技術(shù),通過機(jī)器自主學(xué)習(xí)從海量的文本、視頻、圖像等大數(shù)據(jù)中每天24小時(shí)、永不停息地探尋規(guī)則、模式、預(yù)測(cè)、趨勢(shì)、關(guān)聯(lián)關(guān)系等隱性知識(shí),實(shí)現(xiàn)知識(shí)創(chuàng)新服務(wù)與決策支持,釋放“智能紅利”,而使公司獲得更早的發(fā)展先機(jī)和更強(qiáng)的競(jìng)爭力。因此,本文的關(guān)注重點(diǎn)并非研究某項(xiàng)具體的人工智能技術(shù),而是探討如何在傳統(tǒng)企業(yè)內(nèi)部建立從大數(shù)據(jù)到知識(shí)的一套工作機(jī)制或方法,即行業(yè)數(shù)據(jù)+AI元素,促成AI技術(shù)在行業(yè)知識(shí)轉(zhuǎn)化過程中更好的發(fā)揮創(chuàng)新引領(lǐng)作用。
1. 從大數(shù)據(jù)到知識(shí)的轉(zhuǎn)化過程
本文提出通過大數(shù)據(jù)治理工作,在企業(yè)內(nèi)部建立起一套支撐大數(shù)據(jù)深化應(yīng)用、AI2.0(即機(jī)器自主學(xué)習(xí))常態(tài)化運(yùn)轉(zhuǎn),涵蓋大數(shù)據(jù)、組織架構(gòu)、技術(shù)平臺(tái)等在內(nèi)的創(chuàng)新工作機(jī)制,將隱性知識(shí)的轉(zhuǎn)化主體逐漸由人向機(jī)器轉(zhuǎn)變。如下圖所示。
企業(yè)大數(shù)據(jù)包括社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成數(shù)據(jù),分為文本、視頻、圖像、語音等承載形態(tài)。大數(shù)據(jù)到知識(shí)的轉(zhuǎn)化可以分為兩個(gè)階段:
在大數(shù)據(jù)深化應(yīng)用階段,企業(yè)主要由數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師等大數(shù)據(jù)專業(yè)人員運(yùn)用機(jī)器學(xué)習(xí)、探索分析、實(shí)時(shí)數(shù)據(jù)服務(wù)等大數(shù)據(jù)深化應(yīng)用技術(shù),從大數(shù)據(jù)中提取出規(guī)則、趨勢(shì)、關(guān)聯(lián)關(guān)系等各類知識(shí),基于相關(guān)的應(yīng)用方向結(jié)合實(shí)際需求,構(gòu)建應(yīng)用場(chǎng)景,從而產(chǎn)生業(yè)務(wù)價(jià)值;這個(gè)階段的主要特征是以人為學(xué)習(xí)主體,大數(shù)據(jù)專業(yè)人員全程掌控,基于自身經(jīng)驗(yàn)去獲取所需的各類數(shù)據(jù)、選擇合適的算法、技術(shù)、工具平臺(tái)去發(fā)掘隱含在大數(shù)據(jù)中的隱性知識(shí),完全離不開“人”。
在新一代人工智能應(yīng)用階段,由數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師等大數(shù)據(jù)專業(yè)人員利用各種深度學(xué)習(xí)算法,放棄對(duì)結(jié)果的可解釋性、不限定問題假設(shè)、不訓(xùn)練樣本、也不人工標(biāo)記數(shù)據(jù)集,只追求學(xué)習(xí)的有效性,僅結(jié)合人類的先驗(yàn)常識(shí)、隱性直覺等知識(shí)為引導(dǎo),基于海量大數(shù)據(jù),整體圍繞“以機(jī)器為學(xué)習(xí)主體”這一目標(biāo),建立注意力模型、記憶網(wǎng)絡(luò)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、半監(jiān)督/無監(jiān)督學(xué)習(xí)等算法模型,實(shí)現(xiàn)從淺層計(jì)算到深度神經(jīng)推理,“永不停息”自主驅(qū)動(dòng)學(xué)習(xí),去發(fā)掘隱含在大數(shù)據(jù)中的隱性知識(shí),最終使機(jī)器自身具備數(shù)據(jù)收集、整理、分析的能力,并自主對(duì)算法進(jìn)行調(diào)整和優(yōu)化,自主將大數(shù)據(jù)轉(zhuǎn)變?yōu)橹R(shí),實(shí)現(xiàn)高階人工智能,更好地支撐知識(shí)創(chuàng)新服務(wù)與各級(jí)決策。
2. 大數(shù)據(jù)治理
為了更好地支撐大數(shù)據(jù)到知識(shí)轉(zhuǎn)化過程,應(yīng)將傳統(tǒng)數(shù)據(jù)治理升級(jí)到大數(shù)據(jù)治理,如同大數(shù)據(jù)是數(shù)據(jù)一樣,大數(shù)據(jù)治理本質(zhì)上也是數(shù)據(jù)治理,數(shù)據(jù)治理方法論同樣也適用于大數(shù)據(jù)治理,但是考慮到大數(shù)據(jù)的特性,需要作出適當(dāng)?shù)恼{(diào)整,本文重點(diǎn)闡述大數(shù)據(jù)治理與傳統(tǒng)數(shù)據(jù)治理差異性較大的內(nèi)容,以及大數(shù)據(jù)治理對(duì)于深化大數(shù)據(jù)應(yīng)用、支撐新一代人工智能落地的基石作用。
通過大數(shù)據(jù)治理,將推動(dòng)“以人為學(xué)習(xí)主體”的大數(shù)據(jù)深化應(yīng)用階段逐步向“以機(jī)器為學(xué)習(xí)主體”的新一代人工智能應(yīng)用階段轉(zhuǎn)變,推進(jìn)治理的數(shù)據(jù)類型由傳統(tǒng)的、占比不到15%的結(jié)構(gòu)化數(shù)據(jù)向原生態(tài)格式、多結(jié)構(gòu)、占比超過85%的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變;推進(jìn)治理的數(shù)據(jù)范圍由專注企業(yè)內(nèi)部數(shù)據(jù)向行業(yè)上下游、跨行業(yè)、社會(huì)輿情等數(shù)據(jù)轉(zhuǎn)變;推進(jìn)數(shù)據(jù)治理工作目標(biāo)由體現(xiàn)間接價(jià)值向直接推動(dòng)價(jià)值創(chuàng)造轉(zhuǎn)變。
2.1 大數(shù)據(jù)治理組織
在現(xiàn)有數(shù)據(jù)治理組織架構(gòu)中增加大數(shù)據(jù)治理相關(guān)的職責(zé)和角色:將數(shù)據(jù)科學(xué)家、AI算法專家等大數(shù)據(jù)專家納入到?jīng)Q策層——數(shù)據(jù)治理委員會(huì)(或知識(shí)創(chuàng)新領(lǐng)導(dǎo)小組,名字不限于此),大數(shù)據(jù)專家從驅(qū)動(dòng)數(shù)據(jù)到知識(shí)的轉(zhuǎn)化視角、知識(shí)指導(dǎo)實(shí)踐的洞察視角,輔助作出各種決策,有助于從組織高階層面為驅(qū)動(dòng)大數(shù)據(jù)轉(zhuǎn)化知識(shí)爭取更多資源。按大數(shù)據(jù)類型分設(shè)大數(shù)據(jù)主管[1],負(fù)責(zé)本類型大數(shù)據(jù)的收集(不限本公司)、內(nèi)部提供、外部交換及質(zhì)量、安全等管理工作。數(shù)據(jù)主管向業(yè)務(wù)部門匯報(bào),憑借其專業(yè)性,負(fù)責(zé)提升數(shù)據(jù)資產(chǎn)的可信度和隱私性,同時(shí)確保開展大數(shù)據(jù)深化應(yīng)用、深化學(xué)習(xí)時(shí),各項(xiàng)保障工作能支撐到位。
2.2 大數(shù)據(jù)質(zhì)量管理
大數(shù)據(jù)質(zhì)量管理相比傳統(tǒng)數(shù)據(jù)質(zhì)量管理更加復(fù)雜,主要表現(xiàn)在數(shù)據(jù)來源復(fù)雜且多樣性、組織內(nèi)外數(shù)據(jù)含義存在差異性、外部數(shù)據(jù)難以有效控制質(zhì)量且錯(cuò)誤數(shù)據(jù)無法溯源等等。同時(shí),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法對(duì)數(shù)據(jù)質(zhì)量要求極高,否則可能會(huì)導(dǎo)致機(jī)器無法自主學(xué)習(xí)、或產(chǎn)生錯(cuò)誤知識(shí),影響決策,造成資源浪費(fèi)。大數(shù)據(jù)質(zhì)量評(píng)估維度需要重新定義。目前在大數(shù)據(jù)質(zhì)量的可度量性方面以麻省理工學(xué)院Richard Y.Wang等提出的數(shù)據(jù)質(zhì)量度量維度為典型代表,將大數(shù)據(jù)質(zhì)量維度分為四大類、19個(gè)維度[2],如下表所示:
2.3 大數(shù)據(jù)架構(gòu)管理
當(dāng)前,各大型企業(yè)都已啟動(dòng)或即將完成大數(shù)據(jù)平臺(tái)建設(shè),基本上都規(guī)劃了本企業(yè)的大數(shù)據(jù)架構(gòu),在此不再重復(fù)。在本處強(qiáng)調(diào)三點(diǎn):
一是需要建立面向多源異構(gòu)數(shù)據(jù)、尤其是非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)采集機(jī)制,數(shù)據(jù)來源可能是合作企業(yè),也有可能是熱點(diǎn)網(wǎng)站,需針對(duì)不同類型數(shù)據(jù)定制化開發(fā)不同的采集程序,如包裝器、抽取程序等;
二是文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù),必須與人員、組織、產(chǎn)品等主數(shù)據(jù)進(jìn)行關(guān)聯(lián),從而通過索引、分析等技術(shù),挖掘非結(jié)構(gòu)化數(shù)據(jù)的潛在價(jià)值;
三是大數(shù)據(jù)架構(gòu)應(yīng)逐漸向“以機(jī)器為學(xué)習(xí)主體”的目標(biāo)架構(gòu)階段性演進(jìn)。與傳統(tǒng)的數(shù)據(jù)倉庫建設(shè)方法類似,前期可根據(jù)應(yīng)用需求,選擇知識(shí)圖譜、智能機(jī)器人等應(yīng)用方向,基于特定領(lǐng)域設(shè)計(jì)應(yīng)用場(chǎng)景,逐步建立起針對(duì)內(nèi)外部數(shù)據(jù)自動(dòng)采集、整合、分析以及自動(dòng)學(xué)習(xí)優(yōu)化算法的能力,通過場(chǎng)景驅(qū)動(dòng)逐漸推動(dòng)大數(shù)據(jù)應(yīng)用架構(gòu)向大數(shù)據(jù)智能化架構(gòu)演進(jìn)。
2.4 大數(shù)據(jù)生命周期管理
大數(shù)據(jù)生命周期管理與傳統(tǒng)數(shù)據(jù)生命周期管理在流程上比較相似,但大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清理,與傳統(tǒng)數(shù)據(jù)清理區(qū)別較大。對(duì)于傳統(tǒng)數(shù)據(jù)而言,數(shù)據(jù)質(zhì)量是一個(gè)很重要的特性,但對(duì)于大數(shù)據(jù),數(shù)據(jù)可用性則更為重要,傳統(tǒng)意義上的垃圾數(shù)據(jù),也有可能變廢為寶。對(duì)于不同的可用性數(shù)據(jù),應(yīng)建立不同的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),如應(yīng)用于財(cái)務(wù)統(tǒng)計(jì)的數(shù)據(jù)和應(yīng)用于分析的數(shù)據(jù),在質(zhì)量標(biāo)準(zhǔn)上有所不同,有的需求注重?cái)?shù)據(jù)全面性但對(duì)質(zhì)量要求不是特別高;有些需求,如審計(jì)與風(fēng)險(xiǎn),則嚴(yán)格關(guān)注垃圾數(shù)據(jù)并從中發(fā)現(xiàn)問題。因此,大數(shù)據(jù)應(yīng)用中不建議直接清理垃圾數(shù)據(jù),可通過數(shù)據(jù)質(zhì)量分級(jí),不同質(zhì)量等級(jí)的數(shù)據(jù)滿足不同層次的應(yīng)用需求。
2.5 大數(shù)據(jù)服務(wù)創(chuàng)新
大數(shù)據(jù)治理與數(shù)據(jù)治理最大的區(qū)別在于兩者的關(guān)注點(diǎn)不同,數(shù)據(jù)治理主要是為了保證數(shù)據(jù)能夠反映并還原真實(shí)業(yè)務(wù),促進(jìn)數(shù)據(jù)與業(yè)務(wù)的一致性,使企業(yè)能基于真實(shí)的數(shù)據(jù)環(huán)境更好的開展各項(xiàng)業(yè)務(wù)活動(dòng),產(chǎn)生間接價(jià)值。但大數(shù)據(jù)治理更多關(guān)注發(fā)揮大數(shù)據(jù)的應(yīng)用價(jià)值,通過大數(shù)據(jù)深化應(yīng)用、深度學(xué)習(xí)算法模型去發(fā)掘隱藏在海量大數(shù)據(jù)中的規(guī)則、模式、關(guān)系等知識(shí),從而指導(dǎo)業(yè)務(wù)部門開展領(lǐng)先于市場(chǎng)競(jìng)爭對(duì)手的高價(jià)值、低風(fēng)險(xiǎn)的業(yè)務(wù)活動(dòng);通過支撐新產(chǎn)業(yè)和新業(yè)態(tài)的跨界深度融合,甚至為企業(yè)開辟全新的市場(chǎng)空白地帶,促進(jìn)公司業(yè)務(wù)的全面創(chuàng)新與高速發(fā)展。
3.總結(jié)
本文從大數(shù)據(jù)視角將新一代人工智能定位為相對(duì)于大數(shù)據(jù)深化應(yīng)用更高階段的知識(shí)提取過程,并指出了兩者的明確區(qū)別:以人為學(xué)習(xí)主體的大數(shù)據(jù)深化應(yīng)用階段和以機(jī)器為學(xué)習(xí)主體的新一代人工智能應(yīng)用階段;兩者的共同之處都是從大數(shù)據(jù)到知識(shí)轉(zhuǎn)化過程。在大數(shù)據(jù)轉(zhuǎn)化為知識(shí)的過程中,以應(yīng)用場(chǎng)景為驅(qū)動(dòng),通過大數(shù)據(jù)治理各項(xiàng)業(yè)務(wù)活動(dòng),促進(jìn)大數(shù)據(jù)、人工智能技術(shù)的深度融合,釋放“智能紅利”,推動(dòng)新一代人工智能應(yīng)用逐漸落地。
引用:
[1]桑尼爾.索雷斯. 大數(shù)據(jù)治理[M]. 匡斌譯. 北京:清華大學(xué)出版社,2014.
[2]張紹華,潘蓉,宗宇偉. 大數(shù)據(jù)治理與服務(wù). 上??茖W(xué)技術(shù)出版社,2016.
【作者簡介】
楊科學(xué),御數(shù)坊高級(jí)咨詢顧問,2006年碩士畢業(yè)于中南大學(xué)計(jì)算機(jī)專業(yè),獲得數(shù)據(jù)管理專業(yè)認(rèn)證(CDMP)、信息系統(tǒng)項(xiàng)目管理師認(rèn)證,主要從事數(shù)據(jù)治理、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型設(shè)計(jì)等咨詢和設(shè)計(jì)工作。先后為金融、電力等行業(yè)的多家大型企業(yè)提供數(shù)據(jù)治理咨詢和企業(yè)數(shù)據(jù)模型設(shè)計(jì)服務(wù)工作。
會(huì)員專欄
會(huì)員專欄是針對(duì)會(huì)員企業(yè)的高質(zhì)量原創(chuàng)內(nèi)容與精彩觀點(diǎn)的分享欄目,為會(huì)員企業(yè)提供深度思考、創(chuàng)新理念、案例經(jīng)驗(yàn)、專業(yè)成就等內(nèi)容分享的平臺(tái),旨在擴(kuò)大會(huì)員企業(yè)先進(jìn)思想的影響,傳播AI大數(shù)據(jù)的正確理念,促進(jìn)AI大數(shù)據(jù)落地應(yīng)用,助力傳統(tǒng)產(chǎn)業(yè)智能化轉(zhuǎn)型升級(jí)。
會(huì)員專欄歡迎廣大會(huì)員企業(yè)積極參與、踴躍投稿,投稿請(qǐng)注意須為原創(chuàng)。
聯(lián)系客服