大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新服務媒體
——聚焦數(shù)據(jù) · 改變商業(yè)
IDC認為百分點科技將知識圖譜作為認知智能解決方案的關(guān)鍵能力,當前已在應急、公共安全、媒體出版等行業(yè)構(gòu)建了對應的知識圖譜,構(gòu)建的實體數(shù)達到數(shù)千萬的量級,關(guān)系數(shù)達到幾十億的量級,服務了眾多的政府和企業(yè)客戶。
此前,百分點科技“基于融合數(shù)據(jù)治理的動態(tài)知識圖譜技術(shù)”的創(chuàng)新實踐,在“2021中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會”上從眾多參賽項目中脫穎而出,榮獲“2021領(lǐng)先科技成果優(yōu)秀項目”。
我們知道,百分點科技曾經(jīng)作為推薦引擎及精準營銷的代表公司,早期服務了眾多電商類企業(yè),而如今,隨著數(shù)據(jù)智能產(chǎn)業(yè)的升級,百分點科技再次站在科技推動社會進步的前沿,為企業(yè)和政府構(gòu)建端到端的數(shù)智化解決方案,助力客戶的智能化轉(zhuǎn)型。
近日,數(shù)據(jù)猿專訪了百分點科技CTO劉譯璟,從知識圖譜談起,到端到端的價值閉環(huán),以及在應用領(lǐng)域的切入點,管中窺豹,希望對這家公司的創(chuàng)新戰(zhàn)略能有更全面的了解。
有人要問,現(xiàn)在經(jīng)常談到的“知識圖譜”到底是什么?其實“知識”和“圖譜”都不是新名詞,前者屬于人類認知加工過程的一部分,認知心理學早就有所研究,而以“知識圖譜(Knowledge Graph)”作為完整概念,是Google在2012年提出的。我們都知道Google是一家搜索公司,由于每個網(wǎng)站的結(jié)構(gòu)不同,信息也并非按知識來構(gòu)造,會讓Google搜索造成很多不便,當時目的是為了更好地檢索信息,所以Google便自己構(gòu)建了一個知識庫,并且提供結(jié)構(gòu)化及詳細的關(guān)于主題的信息。其目標是用戶足不出Google,利用知識庫就可以完成搜索。后來逐步發(fā)展成為多關(guān)系網(wǎng)狀結(jié)構(gòu)圖,并融入了多個學科和多個行業(yè)。
如今的知識圖譜,越來越不神秘,我們用一個非常簡單的公式就可以講明白:本體 + 數(shù)據(jù) = 知識圖譜
“本體”可以理解成為一個數(shù)據(jù)模型,它的主要目的是用來還原世界的本來面目。我們需要把人們可以認知的“實體”、“概念”、“屬性”以及它們之間的“從屬”、“關(guān)系”搭建起來,就構(gòu)成了一個“本體”。舉個簡單的例子,比如講一本書,這就是實體,然后書有作者、出版社、出版日期,這就是屬性,那么它們之間是有關(guān)系的,畫好了就像這樣:
來源:enterprise-knowledge.com
然后我們加上“數(shù)據(jù)”,比如我們填入狄更斯的《殺死一只知更鳥》的內(nèi)容,就變成如下這樣:
來源:enterprise-knowledge.com
知識必須經(jīng)過合理的表示才能被計算機處理,它是對現(xiàn)實世界的一種抽象表達。機器必須要掌握大量的知識,特別是常識知識才能實現(xiàn)類人的智能。知識不只是表示,而且還需要做推理,甚至要做貝葉斯網(wǎng)絡因果推斷,需要可解釋性、邏輯性,所以要加入以認知為核心的多語言自然語言處理、動態(tài)知識圖譜,以及智能交互增強分析。
知識融合也是需要投入大量精力去實現(xiàn),“我們會通過先同構(gòu)再融合的方式,先把多源異構(gòu)數(shù)據(jù)轉(zhuǎn)變成同一種模型,然后再進行語義融合,”劉譯璟談到知識圖譜要解決的核心問題時說,“最近談得比較多的是多模態(tài)的數(shù)據(jù)融合,不同介質(zhì)、不同結(jié)構(gòu)的數(shù)據(jù)融合在一起可以產(chǎn)生更大的價值。比如新聞中不僅僅是文字,還常常有圖片、視頻,那我們就要考慮把新聞中的文本、圖片、人臉、語音這樣的數(shù)據(jù)融合到一個知識圖譜中,這樣的圖譜信息量更大,應用價值更高”。
當形成了這種“知識圖譜”,有三類事情就可以實現(xiàn):第一類是人主動去分析,比如主動搜索;第二類是自然語言交互,比如問答;第三類是機器自主進行知識挖掘。這還沒完,根據(jù)清華大學人工智能研究院的報告,知識大致可以分為“通用知識圖譜”和“領(lǐng)域知識圖譜應用”,后者與行業(yè)結(jié)合更緊密,實現(xiàn)更多的商業(yè)價值。
因此作為一家技術(shù)公司的CTO,劉譯璟也更加關(guān)注后者?!捌鋵嵨覀円恢痹谒伎?,如何與行業(yè)相結(jié)合,要跟這些數(shù)據(jù)來源的行業(yè)結(jié)合在一起,不僅需要獲取蘊藏在其中的數(shù)據(jù),還要用人們可以理解更自然的方式進行交互?!?/span>
以技術(shù)創(chuàng)新為導向的百分點科技更加關(guān)注建立在知識圖譜上的數(shù)據(jù)智能體系。在這個數(shù)據(jù)智能技術(shù)體系里,百分點科技著重打造了兩個閉環(huán),其中“小閉環(huán)”構(gòu)建了從感知到認知,再到?jīng)Q策、行動的過程;“大閉環(huán)”則是從數(shù)據(jù)一端,把它作為來源,用數(shù)據(jù)轉(zhuǎn)化為知識去解釋現(xiàn)實世界,另一端是應用價值,包括企業(yè)的高效運行、社會精細治理的過程。
其中小閉環(huán)價值過程的四個階段中,“感知”是通過數(shù)據(jù)真實反映出物理世界和現(xiàn)實世界的模型;“認知”是把它轉(zhuǎn)化成為知識,人可以去理解,能夠互相溝通;再下一步是去做“決策”,最后轉(zhuǎn)化成為“行動”。
從大閉環(huán)來看,以“數(shù)據(jù)”為起步,如今數(shù)據(jù)處理技術(shù)是比較泛化、開源的,互聯(lián)網(wǎng)數(shù)據(jù)也浩如煙海。大數(shù)據(jù)重點解決的是生命周期的管理問題,如從數(shù)據(jù)接入、加工、整理一直到存儲,直至產(chǎn)生數(shù)據(jù)治理的結(jié)果,這些數(shù)據(jù)都可以作為知識圖譜構(gòu)建的一個來源。而當“數(shù)據(jù)”轉(zhuǎn)換成為“知識”后,用戶只需關(guān)注業(yè)務知識,不必再了解什么數(shù)據(jù)結(jié)構(gòu)、什么字段、什么存儲類型等。
IT時代已經(jīng)變成一個數(shù)據(jù)時代,這是個大趨勢。過去IT時代的特點是流程驅(qū)動,很多企業(yè)的IT系統(tǒng)通常會做得很復雜,而且成本很高,但這個趨勢在被改變,“我們直接面對現(xiàn)實世界,用大數(shù)據(jù)相關(guān)技術(shù)把現(xiàn)實世界數(shù)據(jù)化,先建立大數(shù)據(jù)對世界的刻畫,在這個基礎(chǔ)上再把它變成智能。在智能化的基礎(chǔ)上,原來所有業(yè)務系統(tǒng)可能都會被改變,已有的業(yè)務系統(tǒng)可能都得被重塑一遍。重塑的核心是它的流程跟分析、洞察、決策、行動,將會綁得更緊?!?/span>
重塑之后,大數(shù)據(jù)與流程也變得更加融合。大數(shù)據(jù)一開始是分析型業(yè)務,不是業(yè)務流程型的,是由分析驅(qū)動,而非流程驅(qū)動。到了知識圖譜時代,需要認知之后的決策和行動,意味著從分析(認知)轉(zhuǎn)向流程實現(xiàn)(行動),所以,現(xiàn)在的一個趨勢是,原本以分析主導的大數(shù)據(jù)業(yè)務會與流程主導的各種系統(tǒng)如CRM、OA融合起來,你中有我,我中有你。
舉例而言,用戶在使用CRM系統(tǒng)的時候,會看到標簽、篩選、推薦等以分析為主的功能模塊,而同時用戶在使用系統(tǒng)之后的日志等數(shù)據(jù),又會成為訓練、分析的數(shù)據(jù)來源。
另外,要形成具有端到端的數(shù)據(jù)智能的技術(shù)戰(zhàn)略,業(yè)內(nèi)普遍欠缺的是能與行業(yè)緊密地結(jié)合,即“應用”環(huán)節(jié)。具有知識圖譜的數(shù)據(jù)智能應用通常會進入到某幾個領(lǐng)域,如電信、政府、制造,去做特定的收集、治理,用專門的技術(shù),像實時計算、數(shù)據(jù)安全、隱私保護、人工智能等。
來源:IDC
初創(chuàng)于2009年的百分點科技,在經(jīng)過十幾年的積累,在應用領(lǐng)域現(xiàn)在已經(jīng)稱得上國內(nèi)數(shù)據(jù)智能領(lǐng)域的頭部企業(yè),目前已服務一萬多家政府和企業(yè)客戶。
在政府級服務方面,擁有豐富的國家級和國內(nèi)省市級數(shù)字政府建設經(jīng)驗,做社會治理,收集需求,深入調(diào)研之后落地執(zhí)行,形成一個小閉環(huán),助推政府治理能力提升和治理體系現(xiàn)代化。目前已服務于公安部、應急管理部、中國環(huán)境監(jiān)測總站、國家市場監(jiān)管總局等部委單位,并參與多個省市級數(shù)字政府建設。
在企業(yè)級服務方面,積淀了豐富的行業(yè)知識及數(shù)據(jù)中臺構(gòu)建經(jīng)驗,主要做消費者大數(shù)據(jù),從市場洞察、用戶運營、 精準營銷, 再到生產(chǎn), 這也是一個小閉環(huán),提升企業(yè)數(shù)字化運營能力和效率。服務了包括中免集團、洋河股份、王府井集團、聯(lián)合利華、歐萊雅、星巴克、百事、新華社、中國日報、科技日報、南方報業(yè)、人民出版社、華潤置地、金地集團等客戶。
我們可能有所耳聞,百分點科技早期的核心產(chǎn)品是個性化推薦,積累了比較完整的標簽管理系統(tǒng),隨著不斷深入到更多行業(yè),只刻畫一個人或者一個物品已經(jīng)難以滿足客戶的需求,實體之間的關(guān)系尤為重要。于是,百分點科技在實體、屬性的基礎(chǔ)上又加入了關(guān)系、事件,從標簽化逐步轉(zhuǎn)到知識圖譜化。
“百分點提出的動態(tài)知識圖譜仍是源自項目需求”,百分點科技首席架構(gòu)師黃偉表示,“知識圖譜需要納入更多的數(shù)據(jù)形成更大規(guī)模的知識體系,客戶在使用知識圖譜應用時,會逐步協(xié)調(diào)新的數(shù)據(jù)納入系統(tǒng),但此時系統(tǒng)已經(jīng)在線上使用,需要系統(tǒng)在不停止服務的情況下將數(shù)據(jù)動態(tài)融入當前的知識體系。”
原先的知識圖譜技術(shù)拋開時間維度去研究實體之間的關(guān)系,但在實際的場景中,時間維度是一項重要指標,很多場景下只有在特定時間段內(nèi),實體關(guān)系才是有價值的信息。另外我們知道數(shù)據(jù)庫有不同的來源,有些場景下,緊急情況發(fā)生了,數(shù)據(jù)庫不會通知知識圖譜就自己更新了,知識圖譜卻沒有得到共享,這就會出現(xiàn)很大的偏差,所以就需要將知識圖譜動態(tài)化。
劉譯璟從實現(xiàn)角度對此做了進一步闡釋,“當不同來源數(shù)據(jù)都要融合到一起的時候,是一種軟融合,不同數(shù)據(jù)來源的A、B、C,融合成D,一般情況下,原有數(shù)據(jù)源A、B、C就沒有了,只存儲D,但當A發(fā)生改變成為A’,能不能映射到D中,以前需要定期導入,做不到實時看到數(shù)據(jù)變化,我們把A、B、C同時記錄它們的融合規(guī)則,并沒有存D,這樣融合起來就是實時的?!?/span>
隨著通信、互聯(lián)網(wǎng)、大數(shù)據(jù)產(chǎn)業(yè)的深入發(fā)展,現(xiàn)在用戶對實時交互的要求越來越高。一方面是設備的升級,從電腦到手機,再到汽車和其他設備,另一方面是可視化、可操作,針對數(shù)據(jù)的可探索、自然交互,要求都比原來要高得多。
百分點科技提出的這一套動態(tài)知識圖譜解決方案,放在業(yè)內(nèi)也是比較先進的?!拔覀冊谶@方面是對標國際巨頭Palantir的,我們對這個行業(yè)的認知和看法落實到技術(shù)戰(zhàn)略上,會變成一個很基礎(chǔ)的技術(shù)”。順便提一下,百分點科技目前擁有數(shù)百項大數(shù)據(jù)及人工智能領(lǐng)域軟著與專利,也有中國領(lǐng)先的行業(yè)應用模型庫及行業(yè)知識圖譜庫。
“用數(shù)據(jù)智能推動社會進步是我們的使命。”百分點科技總裁高體偉如是說。百分點科技成立之初,當時電商與網(wǎng)絡媒體蓬勃興旺,帶來明顯的消費價值;而如今,國家進入“十四五”時期,政府強烈的數(shù)字化轉(zhuǎn)型需求則給了百分點科技建設部、省、市、區(qū)級平臺的新機遇,讓百分點科技能夠更大限度地發(fā)揮數(shù)據(jù)智能、知識圖譜的價值。近幾年,百分點科技逐步深耕政府級應用服務,尤其側(cè)重在數(shù)字城市、應急管理、生態(tài)環(huán)境和公共安全等領(lǐng)域。
其中,應急管理作為上述重點推進的行業(yè)之一,是國家治理體系和治理能力的重要組成部分。隨著疫情、國家安全等重大事件發(fā)生,變得越來越關(guān)鍵。應急管理是依托大數(shù)據(jù)全棧技術(shù)和多維數(shù)據(jù)融合分析能力,構(gòu)建應急大數(shù)據(jù)治理和智能應用體系,是面向自然災害、安全生產(chǎn)等應用場景,為應急事件的事前、事發(fā)、事中和事后四個階段提供科學決策支持。
作為應急管理的核心部分,數(shù)字化預案雖然比紙質(zhì)文檔更進一步,但是幾千份繁復文檔,包括相關(guān)法律法規(guī)、緊急情況處置方法等等,并沒有形成可利用的“知識”,人看起來費勁,機器更加閱讀不了。比如一個組織架構(gòu),分為現(xiàn)場指揮部和總指揮部,現(xiàn)場指揮部又得有一個總指揮等等,在冗長的文本里,機器根本無法理解?!皺C器能夠理解的就必須用一種知識表示的方式去做?!?劉譯璟說道。
知識圖譜化的預案,則可有效建立各類實體之間和事件之間的空間關(guān)系、時間關(guān)系及擴展關(guān)系等,實現(xiàn)歷史災害事件相似分析、災害影響關(guān)聯(lián)分析,為應急指揮提供最優(yōu)指揮方案。
因此百分點科技要將文檔知識圖譜化,首先要基于此構(gòu)建一個本體,還能把它“翻譯”成相應的語言,再經(jīng)過一版一版地打磨,一遍一遍地學習,與客戶不同部門討論,不斷反復地循環(huán),摸索如何從文本里把屬性標簽抽取出來,才支撐了專門算法的構(gòu)建,形成了若干主題庫和數(shù)據(jù)標準,以便規(guī)范整個領(lǐng)域行業(yè)。
來源:百分點科技
劉譯璟認為這種摸索也是完善產(chǎn)品的過程?!靶枰忍幚硪恍?shù)據(jù),然后在業(yè)務里面去試探,如果對業(yè)務有正向的效果, 這方面很可能是對的, 我們就繼續(xù)往前進, 否則就重新?lián)Q。這是不斷去調(diào)整的過程,純理性去推導在實踐中是不可能的。整個項目過程, 我們是跟客戶不斷地進行磨合、溝通,不斷理解需求的過程。”
這期間有個分支項目令劉譯璟印象深刻,“當時提出一個'災害鏈’的概念, 災害之間其實也有相互的關(guān)系, 當發(fā)生一個火災,有可能引發(fā)爆炸, 爆炸會引起?;沸孤?,整個園區(qū)可能都要出事,這是一系列災害強化的關(guān)系。下雨引發(fā)泥石流, 泥石流又引發(fā)什么相關(guān)的破壞。我們就做了這么一個知識圖譜,并且能和我們已經(jīng)完成應急知識圖譜做很好的銜接?!?/span>
來源:百分點科技
這個過程之中,劉譯璟也有了些新思考。“預案原來大家都按照公文稿件在寫, 那后續(xù)它會不會轉(zhuǎn)變成寫程序?,F(xiàn)在的文本是非結(jié)構(gòu)化,沒有精確的語義內(nèi)涵,但程序有精確的語義”,劉譯璟認為組織也是一個執(zhí)行單元,“所有業(yè)務流程本質(zhì)上就是程序,現(xiàn)實中都是由組織去執(zhí)行這個程序, 跟計算機執(zhí)行程序沒有本質(zhì)差別。預案里的指令就好比計算機芯片支持的指令集,我們需要的是提供一系列智能工具,將文本迅速翻譯成指令,可以想象成預案的'編譯器’。再往后發(fā)展,我們還可以研發(fā)針對預案的'單元測試’,把新編制的預案在歷史案例上測試一下,看看預案是否有效。”
具有很強的工程師色彩的劉譯璟本身是學數(shù)學的,取得了北京大學應用數(shù)學專業(yè)博士,可謂是學霸級選手。畢業(yè)以后就加入了百分點科技,十年過去了,從一個普通的程序員,到技術(shù)副總裁兼首席架構(gòu)師,再到如今公司的CTO。此外,劉譯璟2015年還入選了北京市“科技新星”,獲得2019年度北京市科學技術(shù)獎二等獎。而且他并非是技術(shù)人的刻板形象,還組建過一支搖滾樂隊,據(jù)說打游戲也是高手。
對于跨界達人的他,現(xiàn)在更希望找到工作中“跨界”的同行者,而這種跨界并非出自興趣,更多是業(yè)務的實際需要。盡管之前的“本體”都由團隊通過學習來獲得,但時間成本太大,以及收效都不是最好的,仍然需要某些綜合性人才,既懂計算機、人工智能,也懂行業(yè)知識。他認為,在這個時間里能不能快速造就出一個一流團隊,恰好能把行業(yè)知識跟數(shù)據(jù)智能得以貫通,這個“時間點”會成為競爭門檻。
文:陸易斯 / 數(shù)據(jù)猿
●上一篇精彩好文:
數(shù)據(jù)猿專訪華大基因靳大衛(wèi):以火眼實驗室為“根據(jù)地”,我們要打造數(shù)字化抗疫新標桿
聯(lián)系客服