早在1980年,著名的未來(lái)學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)贊頌為“第三次浪潮的華彩樂(lè)章”。2009年前后,“大數(shù)據(jù)”一詞才開始逐步受到信息技術(shù)行業(yè)的重視。在經(jīng)歷了幾年的批判、質(zhì)疑、討論、炒作之后,大數(shù)據(jù)迎來(lái)了屬于它的時(shí)代。2012年3月,美國(guó)白宮科技政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,成立“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,率先將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家戰(zhàn)略。
2014年3月,“大數(shù)據(jù)”首次出現(xiàn)在我國(guó)《政府工作報(bào)告》中。2015年7月,國(guó)務(wù)院辦公廳發(fā)布《關(guān)于運(yùn)用大數(shù)據(jù)加強(qiáng)對(duì)市場(chǎng)主體服務(wù)和監(jiān)管的若干意見(jiàn)》。8月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確規(guī)劃國(guó)家將實(shí)施政府?dāng)?shù)據(jù)資源共享開放工程、國(guó)家大數(shù)據(jù)資源統(tǒng)籌發(fā)展工程、政府治理大數(shù)據(jù)工程、公共服務(wù)大數(shù)據(jù)工程、萬(wàn)眾創(chuàng)新大數(shù)據(jù)工程、大數(shù)據(jù)關(guān)鍵技術(shù)及產(chǎn)品研發(fā)與產(chǎn)業(yè)化工程、大數(shù)據(jù)產(chǎn)業(yè)支撐能力提升工程、網(wǎng)絡(luò)和大數(shù)據(jù)安全保障工程等十項(xiàng)大數(shù)據(jù)工程。10月,黨的十八屆五中全會(huì)提出,實(shí)施網(wǎng)絡(luò)強(qiáng)國(guó)戰(zhàn)略,實(shí)施“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略,標(biāo)志著大數(shù)據(jù)戰(zhàn)略正式上升為國(guó)家戰(zhàn)略,開啟了大數(shù)據(jù)建設(shè)的新篇章。
一、從信息視角認(rèn)識(shí)世界
人類已經(jīng)進(jìn)入信息社會(huì)、信息時(shí)代,信息是我們這個(gè)世界賴以運(yùn)行的血液、食物和生命力。盡管信息的原始形式已經(jīng)存在了成千上萬(wàn)年,但是真正對(duì)信息進(jìn)行理性認(rèn)識(shí),卻還是上個(gè)世紀(jì)中葉左右的事。信息是什么?1948年,控制論的創(chuàng)始人維納(Norbert Wiener)在《控制論——關(guān)于在動(dòng)物和機(jī)器中控制和通信的科學(xué)》一書中指出:“信息就是信息,既不是物質(zhì)也不是能量?!睆亩谝淮伟研畔⑻岬搅伺c物質(zhì)、能量并駕齊驅(qū)的地位,勾畫出了一幅“物質(zhì)—能量—信息”的世界三要素的新圖景。哈佛大學(xué)信息政策研究中心主任A.歐廷格(Oettinger)說(shuō):“沒(méi)有物質(zhì),任何東西都不存在;沒(méi)有能量,任何事情都不會(huì)發(fā)生;沒(méi)有信息,任何東西都沒(méi)有意義?!?/span>
人們一般很少去思考信息與訊息、消息、知識(shí)、數(shù)據(jù)等之間的聯(lián)系和區(qū)別。第一次洞察信息本質(zhì)、也是第一次賦予“信息”一詞精確定義的是克勞德·香農(nóng)(Shannon)。1949年,香農(nóng)發(fā)表了《通信的數(shù)學(xué)理論》,經(jīng)典地闡明了通信的基本問(wèn)題,提出了通信系統(tǒng)的模型,給出了信息量的數(shù)學(xué)表達(dá)式,這是人類第一次系統(tǒng)、全面、理性地認(rèn)識(shí)信息,從此奠定了一門新的學(xué)科——信息論。香農(nóng)認(rèn)為,剝除了語(yǔ)義內(nèi)容,“信息是用來(lái)消除隨機(jī)不確定性的東西”,是出人意料,這一定義被人們看作是經(jīng)典性定義并加以引用。香農(nóng)還引入了測(cè)量信息的最小單位——比特(bit),如今已經(jīng)躋身為量納的一員,成為今天日常生活都離不開的詞匯。信息與概率密不可分。1比特,從根本上說(shuō),就是代表一次擲硬幣猜正反面時(shí)的不確定程度。令人頗感興趣的是,香農(nóng)當(dāng)時(shí)能夠想到的最大信息倉(cāng)庫(kù)是美國(guó)國(guó)會(huì)圖書館。
從此以后,信息論猶如一股洪流,在心理學(xué)、遺傳學(xué)、量子力學(xué)、經(jīng)濟(jì)學(xué)、語(yǔ)言學(xué)等一個(gè)又一個(gè)領(lǐng)域掀起了顛覆性的革命,極大地改變了現(xiàn)代科學(xué)的面貌。萬(wàn)物源自比特。在這個(gè)大數(shù)據(jù)時(shí)代,所有新聞出版行業(yè)從業(yè)人員在世界觀方面,應(yīng)該具有“信息”視角,讓信息成為我們世界觀的核心之一,因?yàn)槲覀儽旧砭褪切畔⑿袠I(yè),我們現(xiàn)在所從事的社會(huì)活動(dòng)和工作崗位,歸根結(jié)底都是信息的獲取利用、生產(chǎn)加工和傳播消費(fèi)。
二、樹立三種新的數(shù)據(jù)思維
西方有一句話:“除了上帝,任何人都應(yīng)該用數(shù)據(jù)說(shuō)話?!薄洞龠M(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》提出建立“用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”的管理機(jī)制,這將建立起全社會(huì)的數(shù)據(jù)思維和數(shù)據(jù)文化。正解大數(shù)據(jù)要上升到文化的高度,其本質(zhì)就是理性思維、科學(xué)精神、實(shí)事求是,因?yàn)閿?shù)據(jù)就是事實(shí)。大數(shù)據(jù)專家維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中具有洞見(jiàn)性地提出三種數(shù)據(jù)思維:整體思維、多樣思維和相關(guān)思維,已經(jīng)成為共識(shí)。但我認(rèn)為,新聞出版行業(yè)更應(yīng)該具備如下三種思維:
一是價(jià)值思維。我們要明明白白地認(rèn)識(shí)到:數(shù)據(jù)是一種資產(chǎn),數(shù)據(jù)是財(cái)富。大數(shù)據(jù)思維的核心是價(jià)值思維。這里所說(shuō)的數(shù)據(jù),不僅包括管理數(shù)據(jù)、交易數(shù)據(jù)和社交數(shù)據(jù),也包括用戶數(shù)據(jù)。傳統(tǒng)新聞出版單位一定要充分認(rèn)識(shí)到:用戶也是不可忽視的一筆重要財(cái)富。2014年2月20日,Facebook宣布用160億美元收購(gòu)WhatsApp,在整個(gè)收購(gòu)的價(jià)值組成中,對(duì)WhatsApp逾5億用戶的估值約為20億美元(約合人民幣123億元),相當(dāng)于每名用戶約4美元(約合人民幣25元)。
二是應(yīng)用思維。有人說(shuō),誰(shuí)擁有了大數(shù)據(jù),誰(shuí)就擁有了未來(lái),就占領(lǐng)了制高點(diǎn)、取得了主動(dòng)權(quán)。這種觀點(diǎn)值得商榷,因?yàn)閿?shù)據(jù)的價(jià)值在于應(yīng)用,而不在于擁有。大數(shù)據(jù)真正重要的不是數(shù)據(jù)本身,如何利用數(shù)據(jù)驅(qū)動(dòng)單位內(nèi)部的業(yè)務(wù)流程和產(chǎn)品研發(fā)才是重中之重,這意味著要從業(yè)務(wù)驅(qū)動(dòng)轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng),這正是傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)的關(guān)鍵所在。數(shù)據(jù)比流程更重要,這一點(diǎn)對(duì)于新聞出版行業(yè)尤其關(guān)鍵,因?yàn)槲覀冞@個(gè)行業(yè)定量思維、數(shù)據(jù)決策嚴(yán)重匱乏,選題策劃、印數(shù)決策等更多地依賴于經(jīng)驗(yàn)。亞馬遜與傳統(tǒng)書店對(duì)決的勝出,最核心的原因在于,其電子商務(wù)架構(gòu)于大數(shù)據(jù)平臺(tái)之上,通過(guò)全維度記錄、存儲(chǔ)與描述數(shù)據(jù),深入進(jìn)行數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)挖掘,并基于數(shù)據(jù)進(jìn)行預(yù)測(cè)與推薦。而傳統(tǒng)發(fā)行行業(yè)面臨的痛點(diǎn)在于,產(chǎn)品與服務(wù)無(wú)法數(shù)據(jù)化。
三是共享思維。出版單位內(nèi)部的數(shù)據(jù)孤島現(xiàn)象是普遍存在的,有的出版社不同編輯室之間連作者信息都不能共享。出版?zhèn)髅郊瘓F(tuán)不同企業(yè)之間的孤島效應(yīng)更加明顯,新聞出版行業(yè)層面更是缺乏大數(shù)據(jù)平臺(tái)。大數(shù)據(jù)的發(fā)展需要全社會(huì)、全行業(yè)協(xié)同,最終實(shí)現(xiàn)數(shù)據(jù)共享。共享是指“使用而非擁有”,非公非私,既可以公有私用,也可以私有公用。必須要認(rèn)識(shí)到,本部門、本企業(yè)、本集團(tuán)、本行業(yè)內(nèi)部數(shù)據(jù)如果不流動(dòng)起來(lái),不與外部數(shù)據(jù)融合,就會(huì)成為死數(shù)據(jù)。越共享,效率越高。當(dāng)然共享并不意味著免費(fèi),關(guān)鍵在于利益機(jī)制設(shè)計(jì)。
三、大數(shù)據(jù)在解決新聞出版業(yè)痼疾方面大有可為
長(zhǎng)期以來(lái),新聞出版行業(yè)形成了幾大痼疾,嚴(yán)重影響產(chǎn)業(yè)健康發(fā)展:一是庫(kù)存暴漲,產(chǎn)能過(guò)剩,供需嚴(yán)重不匹配,已經(jīng)成為產(chǎn)業(yè)不能承受之重,風(fēng)險(xiǎn)極大,行業(yè)亟需綠色發(fā)展。出版業(yè)和全國(guó)經(jīng)濟(jì)一樣,面臨巨大的去庫(kù)存問(wèn)題。2004到2014年10年時(shí)間,全國(guó)總庫(kù)存(出版社和新華書店系統(tǒng))數(shù)量增長(zhǎng)近25億冊(cè),金額突破1000億元,達(dá)到創(chuàng)紀(jì)錄的1010億元,而2014年全國(guó)純銷售僅為778億元,早已形成倒掛之勢(shì),剔除中小學(xué)教材,實(shí)際庫(kù)銷比已經(jīng)逼近2。二是發(fā)行市場(chǎng)諸侯割據(jù),條塊分割,缺乏全國(guó)性的發(fā)行中盤,統(tǒng)一開放競(jìng)爭(zhēng)有序的全國(guó)大市場(chǎng)遠(yuǎn)遠(yuǎn)沒(méi)有形成,導(dǎo)致我國(guó)的出版?zhèn)髅郊瘓F(tuán)難以做大主業(yè)。三是出版發(fā)行生態(tài)鏈畸形,寄銷制導(dǎo)致無(wú)條件退貨,賬期長(zhǎng),回款難,誠(chéng)信缺失,真正意義上的出版社圖書單品種核算難以實(shí)現(xiàn),編輯績(jī)效考核和激勵(lì)機(jī)制難以建立,整個(gè)行業(yè)仍是粗放式管理。要想從根本上解決上述問(wèn)題,就必須充分利用大數(shù)據(jù)技術(shù),建立行業(yè)大數(shù)據(jù)平臺(tái)和信用信息平臺(tái),從產(chǎn)業(yè)鏈上中下游進(jìn)行精確管理,數(shù)據(jù)驅(qū)動(dòng)選題策劃、印刷決策,分析用戶行為,精準(zhǔn)營(yíng)銷、個(gè)性化推薦,重塑出版生產(chǎn)、銷售和管理模式。
四、新聞出版行業(yè)有哪些大數(shù)據(jù)
人人都在談大數(shù)據(jù),到底新聞出版行業(yè)擁有哪些大數(shù)據(jù)?仁者見(jiàn)仁,智者見(jiàn)智,分類方法很多。我認(rèn)為,從業(yè)務(wù)來(lái)分,新聞出版大數(shù)據(jù)可分為七類:一是機(jī)構(gòu)數(shù)據(jù)。主要包括新聞出版政府機(jī)構(gòu)、事業(yè)單位、行業(yè)協(xié)會(huì),出版?zhèn)髅郊瘓F(tuán)、出版社、報(bào)社、期刊社、音像電子社、印刷廠、發(fā)行集團(tuán)、書店等企業(yè)和機(jī)構(gòu)的名稱、地址、法定代表人、網(wǎng)址、規(guī)模、業(yè)務(wù)范圍、收入、利潤(rùn)等數(shù)據(jù)。二是人員數(shù)據(jù)。主要包括公務(wù)員、企業(yè)管理人員、編輯、記者、發(fā)行、技術(shù)、作者、專家等新聞出版行業(yè)從業(yè)人員的基本數(shù)據(jù),如姓名、性別、地區(qū)、行業(yè)、專長(zhǎng)、職務(wù)、職稱、主要作品、發(fā)表文章、教育經(jīng)歷、職業(yè)經(jīng)歷等數(shù)據(jù)。三是產(chǎn)品數(shù)據(jù)。包括圖書數(shù)據(jù)、報(bào)紙數(shù)據(jù)、期刊數(shù)據(jù)、音像制品數(shù)據(jù)和網(wǎng)絡(luò)出版物數(shù)據(jù)。既包括作者等元數(shù)據(jù),也包括選題數(shù)據(jù)、發(fā)稿數(shù)據(jù)、印刷數(shù)據(jù)、版權(quán)數(shù)據(jù)等。四是政務(wù)數(shù)據(jù)。指政府在綜合辦公、市場(chǎng)監(jiān)管、公共服務(wù)過(guò)程產(chǎn)生的數(shù)據(jù),包括人事信息、財(cái)務(wù)數(shù)據(jù)、政策法規(guī)、統(tǒng)計(jì)信息、規(guī)劃計(jì)劃、標(biāo)準(zhǔn)信息等。五是商務(wù)數(shù)據(jù)。指新聞出版企業(yè)主體在市場(chǎng)交易過(guò)程中產(chǎn)生的數(shù)據(jù),包括合同、供貨、采購(gòu)、發(fā)貨、退貨、結(jié)算、版權(quán)交易等數(shù)據(jù)。包括用戶人口屬性數(shù)據(jù)、用戶關(guān)系數(shù)據(jù)、用戶行為數(shù)據(jù)等。像評(píng)論、轉(zhuǎn)發(fā)、分享、下載、點(diǎn)贊、收藏?cái)?shù)據(jù),粉絲數(shù)、認(rèn)證信息、學(xué)習(xí)時(shí)段、閱讀工具、閱讀方式、閱讀時(shí)間段、閱讀時(shí)長(zhǎng)、閱讀偏好、閱讀能力、閱讀目的、閱讀范圍等用戶行為數(shù)據(jù)正是目前移動(dòng)互聯(lián)網(wǎng)出版所必須關(guān)注的。七是內(nèi)容數(shù)據(jù),包括信息和知識(shí)。一般將知識(shí)歸納為四種類型:事實(shí)知識(shí)、原理知識(shí)、技能知識(shí)和人力知識(shí)。中文百科知識(shí)體系把人類科學(xué)文化知識(shí)和實(shí)踐活動(dòng)領(lǐng)域分為24個(gè)類別,形成了中文百科分類目錄。這是我們新聞出版行業(yè)所特有的數(shù)據(jù)寶藏,也是知識(shí)服務(wù)的基礎(chǔ)。
五、了解一點(diǎn)大數(shù)據(jù)技術(shù)
要想不被IT企業(yè)神乎其神的大數(shù)據(jù)軟件和技術(shù)所忽悠,有必要對(duì)大數(shù)據(jù)技術(shù)略知一二。大數(shù)據(jù)關(guān)鍵技術(shù)一般包括大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)、大數(shù)據(jù)分析及挖掘技術(shù)、大數(shù)據(jù)展現(xiàn)及應(yīng)用技術(shù)等。
網(wǎng)絡(luò)爬蟲、ETL(Extract-Transform-Load)和數(shù)據(jù)眾包屬于大數(shù)據(jù)采集技術(shù)。我們所熟知的高德地圖則綜合采用情報(bào)搜集平臺(tái)LSE、API軌跡分析、衛(wèi)星影像自動(dòng)識(shí)別、UGC反饋以及浮動(dòng)車等多種數(shù)據(jù)采集技術(shù)。大數(shù)據(jù)存儲(chǔ)及管理關(guān)鍵技術(shù)則包括Hadoop的三大核心技術(shù),即分布式文件系統(tǒng)(HDFS)、分布式系統(tǒng)架構(gòu)(MapReduce)和分布式數(shù)據(jù)庫(kù)(NoSQL)。大數(shù)據(jù)分析及挖掘技術(shù)包括自然語(yǔ)言處理、語(yǔ)義分析、關(guān)聯(lián)挖掘分析、神經(jīng)網(wǎng)絡(luò)、話題檢測(cè)與追蹤、情感傾向分析、序列分析、機(jī)器學(xué)習(xí)、個(gè)性化推薦、文本智能處理技術(shù)、圖像識(shí)別、模式識(shí)別、語(yǔ)音識(shí)別等。個(gè)性化推薦又可以分別基于協(xié)同過(guò)濾、關(guān)聯(lián)規(guī)則、社交圈、用戶畫像、內(nèi)容來(lái)進(jìn)行推薦。文本智能處理技術(shù)包括文本分類、相似性檢測(cè)、自動(dòng)摘要、主題詞標(biāo)引、信息抽取、文本聚類、中文分詞。大數(shù)據(jù)展現(xiàn)及應(yīng)用技術(shù)值得一提的是數(shù)據(jù)可視化技術(shù),傳統(tǒng)的數(shù)據(jù)展示是單調(diào)、乏味的,多以餅圖、柱圖和線圖等形式展示,遠(yuǎn)遠(yuǎn)滿足不了多角度、多層次及交互性的要求,那么大數(shù)據(jù)數(shù)據(jù)可視化技術(shù)則可以提供標(biāo)簽云、聚類圖、流圖、熱圖、散點(diǎn)圖等更具表現(xiàn)力、更具交互性的數(shù)據(jù)可視化實(shí)現(xiàn)方案,將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,使人們能夠以更直觀的方式看到數(shù)據(jù)及其結(jié)構(gòu)關(guān)系,發(fā)現(xiàn)數(shù)據(jù)中隱含的信息,從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。最后,還要提一下云計(jì)算與大數(shù)據(jù)的關(guān)系。大數(shù)據(jù)和云計(jì)算是一枚硬幣的兩面,大數(shù)據(jù)必須云計(jì)算來(lái)處理,云計(jì)算的本質(zhì)就是大數(shù)據(jù)處理技術(shù)。云計(jì)算和大數(shù)據(jù)應(yīng)當(dāng)成為大型新聞出版?zhèn)髅郊瘓F(tuán)的標(biāo)配。
六、亟需建立新聞出版大數(shù)據(jù)標(biāo)準(zhǔn)體系
標(biāo)準(zhǔn)化是建設(shè)新聞出版大數(shù)據(jù)的基礎(chǔ)與關(guān)鍵,也是真正實(shí)現(xiàn)新聞出版大數(shù)據(jù)潛在價(jià)值的必要條件。2014年,工信部和國(guó)標(biāo)委成立了“全國(guó)信標(biāo)委大數(shù)據(jù)標(biāo)準(zhǔn)工作組”,負(fù)責(zé)制定和完善我國(guó)大數(shù)據(jù)領(lǐng)域標(biāo)準(zhǔn)體系。建設(shè)新聞出版大數(shù)據(jù)過(guò)程中,多源采集的數(shù)據(jù)存在格式混亂、對(duì)接困難等問(wèn)題,必然會(huì)降低數(shù)據(jù)挖掘、分析的效率,影響其價(jià)值的實(shí)現(xiàn)。因此,必須開展新聞出版大數(shù)據(jù)標(biāo)準(zhǔn)頂層設(shè)計(jì),從基礎(chǔ)、技術(shù)、產(chǎn)品、安全、管理、應(yīng)用等多個(gè)角度梳理新聞出版大數(shù)據(jù)標(biāo)準(zhǔn)需求,建立健全新聞出版大數(shù)據(jù)標(biāo)準(zhǔn)體系,重點(diǎn)突破一批涉及大數(shù)據(jù)的基礎(chǔ)性、方法性、應(yīng)用性標(biāo)準(zhǔn)的研制,指導(dǎo)新聞出版大數(shù)據(jù)的采集、共享、交換、加工、應(yīng)用和服務(wù),為新聞出版大數(shù)據(jù)發(fā)展夯實(shí)基礎(chǔ)。在研究國(guó)家大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)體系框架的基礎(chǔ)上,結(jié)合出版數(shù)據(jù)自身的特點(diǎn),以及未來(lái)出版大數(shù)據(jù)發(fā)展的趨勢(shì),新聞出版大數(shù)據(jù)標(biāo)準(zhǔn)體系框架可以包括基礎(chǔ)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)、產(chǎn)品和平臺(tái)標(biāo)準(zhǔn)、安全標(biāo)準(zhǔn)、應(yīng)用和服務(wù)標(biāo)準(zhǔn)等五大類。其中,基礎(chǔ)標(biāo)準(zhǔn)包括總則、術(shù)語(yǔ)、技術(shù)參考模型、元數(shù)據(jù)等標(biāo)準(zhǔn)。技術(shù)標(biāo)準(zhǔn)包括數(shù)據(jù)治理、數(shù)據(jù)質(zhì)量等標(biāo)準(zhǔn)。產(chǎn)品和平臺(tái)類標(biāo)準(zhǔn)主要包括智能工具、可視化工具、大數(shù)據(jù)平臺(tái)、測(cè)試規(guī)范等標(biāo)準(zhǔn)。數(shù)據(jù)安全標(biāo)準(zhǔn)主要包括通用要求、隱私保護(hù)等標(biāo)準(zhǔn)。應(yīng)用和服務(wù)標(biāo)準(zhǔn)包括開放數(shù)據(jù)集、數(shù)據(jù)服務(wù)平臺(tái)、領(lǐng)域應(yīng)用數(shù)據(jù)等標(biāo)準(zhǔn)。
七、建立新聞出版行業(yè)大數(shù)據(jù)共享交換機(jī)制和平臺(tái)至關(guān)重要
正如英特爾中國(guó)研究院院長(zhǎng)吳甘沙所說(shuō),數(shù)據(jù)之于數(shù)據(jù)社會(huì),就如同水之于城市或者血液之于身體一樣。要真正盤活新聞出版大數(shù)據(jù)資源,讓散落在各處的新聞出版數(shù)據(jù)真正流動(dòng)起來(lái),建立新聞出版政府主管部門、新聞出版企業(yè)和社會(huì)之間的大數(shù)據(jù)共享交換機(jī)制和平臺(tái)就顯得格外必要。一是政府統(tǒng)籌規(guī)劃、全面部署。倡導(dǎo)通過(guò)市場(chǎng)化、社會(huì)化方式匯聚和優(yōu)化配置社會(huì)資源,避免出現(xiàn)新的“信息孤島”。二是開辟多種數(shù)據(jù)采集渠道。綜合行政收集、自愿提供、有償購(gòu)買、協(xié)議交換、網(wǎng)絡(luò)抓取、傳感收集等方式建立新聞出版大數(shù)據(jù)采集機(jī)制。尤其要加強(qiáng)對(duì)新聞出版企業(yè)信息化規(guī)劃與行業(yè)大數(shù)據(jù)采集需求的融合指導(dǎo),鼓勵(lì)新聞出版企業(yè)加強(qiáng)對(duì)其生產(chǎn)經(jīng)營(yíng)活動(dòng)中數(shù)據(jù)的采集。三是創(chuàng)造多種數(shù)據(jù)共享模式。鼓勵(lì)各級(jí)新聞出版主管機(jī)構(gòu)率先推進(jìn)政務(wù)數(shù)據(jù)資源的集中與開放,與社會(huì)聯(lián)動(dòng);鼓勵(lì)新聞出版企業(yè)通過(guò)商業(yè)行為創(chuàng)新數(shù)據(jù)共享機(jī)制,探索既確保多方數(shù)據(jù)所有權(quán)又實(shí)現(xiàn)數(shù)據(jù)整合應(yīng)用的商業(yè)模式;鼓勵(lì)民間資本參與新聞出版大數(shù)據(jù)共享交換體系的建立。四是解決信息安全和隱私保護(hù)等。只有對(duì)涉及隱私保護(hù)和商業(yè)秘密的數(shù)據(jù)進(jìn)行合理化處理,才能最大化發(fā)揮數(shù)據(jù)共享交換各方的積極性,才能實(shí)現(xiàn)新聞出版大數(shù)據(jù)的有序共享。
八、加快建設(shè)行業(yè)大數(shù)據(jù)重大工程,構(gòu)建新聞出版大數(shù)據(jù)體系
新聞出版大數(shù)據(jù)體系應(yīng)該包括基礎(chǔ)設(shè)施、數(shù)據(jù)、技術(shù)、平臺(tái)、應(yīng)用、標(biāo)準(zhǔn)、安全、機(jī)構(gòu)、機(jī)制等方面。重大工程對(duì)構(gòu)建大數(shù)據(jù)體系起著核心作用?!笆濉逼陂g,應(yīng)該從政府監(jiān)管、公共服務(wù)和產(chǎn)業(yè)發(fā)展三個(gè)層面啟動(dòng)若干重大工程。在政府監(jiān)管層面,啟動(dòng)新聞出版及掃黃打非大數(shù)據(jù)監(jiān)管工程,建設(shè)新聞出版信息資源數(shù)據(jù)庫(kù),提升政府決策支撐、風(fēng)險(xiǎn)防范、市場(chǎng)監(jiān)管、重大事件預(yù)警能力。在公共服務(wù)層面,啟動(dòng)出版發(fā)行信息公共服務(wù)平臺(tái),建成全國(guó)出版可供書目數(shù)據(jù)庫(kù),形成基于國(guó)家標(biāo)準(zhǔn)的支撐出版、發(fā)行、采購(gòu)、編目、決策于一體的新型公共服務(wù)模式。在產(chǎn)業(yè)發(fā)展層面,啟動(dòng)新聞出版大數(shù)據(jù)應(yīng)用工程,包括國(guó)家知識(shí)服務(wù)大數(shù)據(jù)應(yīng)用工程、國(guó)家出版發(fā)行大數(shù)據(jù)應(yīng)用工程、ISLI標(biāo)準(zhǔn)大數(shù)據(jù)應(yīng)用工程等。
對(duì)于新聞出版人來(lái)說(shuō),大數(shù)據(jù)完全不同于云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng),后者都是技術(shù),而懂技術(shù)、關(guān)心技術(shù)的總是少數(shù),而數(shù)據(jù)、信息、知識(shí)則不同,它們是內(nèi)容,是我們生存的根本,我們應(yīng)該具有信息視角、數(shù)據(jù)思維,我們的重點(diǎn)應(yīng)該放在數(shù)據(jù)、信息的采集、處理和應(yīng)用上,扎扎實(shí)實(shí)、一點(diǎn)一滴做好數(shù)字化轉(zhuǎn)型工作,開創(chuàng)新聞出版業(yè)創(chuàng)新、協(xié)調(diào)、綠色、開放、共享發(fā)展之路,因?yàn)槲覀兌际邱R歇爾·麥克盧漢所說(shuō)的“采集信息為生的人”。
九、數(shù)字化轉(zhuǎn)型仍然是大數(shù)據(jù)的基礎(chǔ)
應(yīng)用大數(shù)據(jù)首先要擁有大數(shù)據(jù)??墒牵髷?shù)據(jù)在哪兒呢?目前,出版?zhèn)髅狡髽I(yè)自己擁有大數(shù)據(jù)平臺(tái)和大數(shù)據(jù)采集能力的很少,大多沒(méi)有用戶多方位屬性和行為數(shù)據(jù),難以對(duì)用戶行為和個(gè)性化需求進(jìn)行深入分析。而擁有用戶大數(shù)據(jù)的社交網(wǎng)站、電商、互聯(lián)網(wǎng)公司也不會(huì)把大數(shù)據(jù)給出版企業(yè)使用。即使是出版企業(yè)內(nèi)部的小數(shù)據(jù),也散落在網(wǎng)站、ERP、協(xié)同編輯系統(tǒng)等不同的系統(tǒng)平臺(tái),沒(méi)有統(tǒng)一整合。因此,出版企業(yè)大數(shù)據(jù)建設(shè)頂層設(shè)計(jì)要統(tǒng)籌大數(shù)據(jù)與小數(shù)據(jù)、內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。首先,要全面進(jìn)行ERP建設(shè),加強(qiáng)對(duì)選題、生產(chǎn)、營(yíng)銷、發(fā)行、服務(wù)、財(cái)務(wù)、管理等全過(guò)程的管理信息化,完整收集過(guò)程中的內(nèi)部數(shù)據(jù),這是大數(shù)據(jù)的基礎(chǔ)之基礎(chǔ)。臨淵羨魚,不如退而結(jié)網(wǎng)。其次,全面推進(jìn)數(shù)字化轉(zhuǎn)型,國(guó)家數(shù)字復(fù)合出版系統(tǒng)工程研發(fā)的新聞內(nèi)容選題與評(píng)價(jià)系統(tǒng)、圖書選題及發(fā)行分析系統(tǒng)、出版信息采集與策劃服務(wù)系統(tǒng)、全文相似性分析系統(tǒng)、內(nèi)容動(dòng)態(tài)重組系統(tǒng)、發(fā)布管理系統(tǒng)、出版機(jī)構(gòu)運(yùn)營(yíng)服務(wù)與支撐系統(tǒng)、多形態(tài)廣告發(fā)布系統(tǒng)、在線學(xué)習(xí)平臺(tái)、數(shù)字資源標(biāo)準(zhǔn)管理與解析服務(wù)系統(tǒng)、復(fù)合出版數(shù)據(jù)傳遞系統(tǒng)、全國(guó)出版內(nèi)容交換系統(tǒng)等眾多系統(tǒng)和平臺(tái),全方位支持新聞出版企業(yè)的創(chuàng)意、生產(chǎn)、營(yíng)銷和經(jīng)營(yíng)管理活動(dòng),讓新聞出版企業(yè)充分擁抱大數(shù)據(jù)和互聯(lián)網(wǎng),希望能在不久的將來(lái)全面應(yīng)用在所有新聞出版企業(yè),否則大數(shù)據(jù)就是無(wú)源之水,無(wú)本之本。
十、不能神化大數(shù)據(jù)
撥開對(duì)大數(shù)據(jù)紙上談兵和美好理想的迷霧,對(duì)大數(shù)據(jù)專家所強(qiáng)調(diào)的全樣本、相關(guān)性和混雜性需要保持清醒的認(rèn)識(shí),不要神化大數(shù)據(jù)。首先,大數(shù)據(jù)不能代替小數(shù)據(jù),全樣本分析依然不能代替抽樣調(diào)查。原因是大數(shù)據(jù)技術(shù)本身以及現(xiàn)實(shí)的條件遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到全體樣本的水平,存在一定偏差。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)最主要的不同在于,大數(shù)據(jù)的采集過(guò)程更多是生產(chǎn)經(jīng)營(yíng)等各類活動(dòng)的未經(jīng)處理的附屬產(chǎn)品,數(shù)據(jù)反映的信息可能只是總體的一部分。何況總體取決于人們關(guān)心的問(wèn)題,總體是會(huì)變化的。另外,過(guò)度追求全樣本可能造成建設(shè)模式復(fù)雜度升高、成本增加而導(dǎo)致事實(shí)上不可能。不能片面追求大數(shù)據(jù)。不是所有企業(yè)都必須考慮大數(shù)據(jù)戰(zhàn)略,大數(shù)據(jù)分析有其門檻。規(guī)模不夠大的企業(yè)可以考慮購(gòu)買服務(wù)。第二,即使在使用抽樣數(shù)據(jù)時(shí),我們也從未奢望過(guò)數(shù)據(jù)的精確性。我們從來(lái)都要在信息混雜的情況下做出大多數(shù)的決策。百分百的數(shù)據(jù)決策、科學(xué)決策是做不到的,否則還要?jiǎng)?chuàng)意干什么呢?恐怕在相當(dāng)長(zhǎng)的時(shí)間,我們都要數(shù)據(jù)決策和經(jīng)驗(yàn)決策并重。第三,強(qiáng)調(diào)相關(guān)關(guān)系而忽視因果關(guān)系是讓人無(wú)法接受的,尤其是以知識(shí)傳承為使命的新聞出版行業(yè),大數(shù)據(jù)不能代替理性思考、邏輯演繹。甚至《大數(shù)據(jù)時(shí)代》一書的譯者周濤都公開表示:如果放棄了對(duì)因果的追求,就是放棄了人凌駕計(jì)算機(jī)之上的智力優(yōu)勢(shì),是人類自身的放縱和墮落。其實(shí),因果關(guān)系也是相關(guān)關(guān)系的一種。 (作者系新聞出版總署信息中心副主任)
聯(lián)系客服