通用的知識圖譜構(gòu)建10大步驟:
1. 明確業(yè)務(wù)和專家要求:確定收集數(shù)據(jù)的目標(biāo)并定義想要回答的問題。
2. 收集和分析相關(guān)數(shù)據(jù):發(fā)現(xiàn)哪些數(shù)據(jù)集、分類法和其他信息(專有的、開放的或商業(yè)可用的)最適合實(shí)現(xiàn)領(lǐng)域、范圍、來源、維護(hù)等方面的目標(biāo)。
3. 清理數(shù)據(jù)以確保數(shù)據(jù)質(zhì)量:糾正任何數(shù)據(jù)質(zhì)量問題,使數(shù)據(jù)最適合的任務(wù)。這包括刪除無效或無意義的條目、調(diào)整數(shù)據(jù)字段以適應(yīng)多個值、修復(fù)不一致等。
4. 創(chuàng)建語義數(shù)據(jù)模型:徹底分析不同的數(shù)據(jù)模式,為協(xié)調(diào)數(shù)據(jù)做好準(zhǔn)備。重用或設(shè)計本體、應(yīng)用程序配置文件、RDF 形狀或其他一些關(guān)于如何一起使用它們的機(jī)制。使用 RDF Schema 和 OWL 等標(biāo)準(zhǔn)形式化數(shù)據(jù)模型。
5. 將數(shù)據(jù)與ETL或虛擬化集成:應(yīng)用ETL工具將數(shù)據(jù)轉(zhuǎn)換為RDF或使用數(shù)據(jù)虛擬化通過NoETL、OBDA、GraphQL Federation等技術(shù)訪問它。生成語義元數(shù)據(jù),使數(shù)據(jù)更容易更新、發(fā)現(xiàn)和重用。
6. 通過協(xié)調(diào)、融合和對齊來協(xié)調(diào)數(shù)據(jù):在具有重疊范圍的數(shù)據(jù)集中匹配同一個實(shí)體的描述,處理它們的屬性以合并信息并映射它們的不同分類法。
7. 構(gòu)建數(shù)據(jù)管理和搜索層:使用 RDF 數(shù)據(jù)模型完美地合并不同的圖。對于本地存儲的數(shù)據(jù),GraphDB? 可以通過推理、一致性檢查和驗(yàn)證有效地強(qiáng)制執(zhí)行數(shù)據(jù)模型的語義。它可以在集群中擴(kuò)展并與 Elasticsearch 等搜索引擎同步,以匹配預(yù)期的使用和性能要求。
8. 通過推理、分析和文本分析來擴(kuò)充圖表:豐富數(shù)據(jù),從文本中提取新的實(shí)體和關(guān)系。應(yīng)用推理和圖形分析來發(fā)現(xiàn)新信息?,F(xiàn)在圖表包含的數(shù)據(jù)比其組成數(shù)據(jù)集的總和還多。它還具有更好的互連性,從而帶來更多內(nèi)容并實(shí)現(xiàn)更深入的分析。
9. 最大化數(shù)據(jù)的可用性:開始通過不同的知識發(fā)現(xiàn)工具(例如強(qiáng)大的 SPARQL 查詢、易于使用的 GraphQL 界面、語義搜索、分面搜索、數(shù)據(jù)可視化等)為原始問題提供答案。此外,確保數(shù)據(jù)是公平的(可查找、可訪問、可互操作和可重用)。
10. 使 KG 易于維護(hù)和發(fā)展:最后,在制作知識圖譜并且人們開始使用它之后,通過設(shè)置維護(hù)程序來保持它的活力——它的發(fā)展方式和來自不同來源的更新將是消耗的同時保持高數(shù)據(jù)質(zhì)量。
知識圖譜系統(tǒng)主要可以分為:
· 知識構(gòu)建
· 知識管理
· 知識應(yīng)用
構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識構(gòu)建的邏輯不同,具體的構(gòu)建思路和順序也存在差異,但大體上是以下幾個階段的迭代:
1. 知識的表示
通常我們將知識圖譜劃分為兩個層次:數(shù)據(jù)層和模式層(個人喜歡稱之為抽象層)
數(shù)據(jù)層:存儲真實(shí)的數(shù)據(jù)
模式層:在數(shù)據(jù)層之上,是知識圖譜的核心,存儲經(jīng)過提煉的知識(概念定義、屬性定義、約束/規(guī)則定義等),通常通過本體庫來管理(本體庫可以理解為面向?qū)ο罄锏摹邦悺边@樣一個概念,本體庫就儲存著知識圖譜的類)
2. 知識的獲取
知識的獲取可以理解成從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提?。▽?shí)體抽取、關(guān)系抽取和事件抽取等),形成知識存入到知識圖譜的過程。
從結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行知識抽取,其核心便是按模式層所設(shè)計的schema將結(jié)構(gòu)化數(shù)據(jù)映射到當(dāng)前的知識圖譜中,簡單地映射可以通過工具D2RQ完成,但復(fù)雜的映射關(guān)系或涉及知識融合的映射則需要專人編寫算法來解決。
從半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)中獲取知識本質(zhì)上其實(shí)是爬蟲工程,大多時候便是針對爬取的網(wǎng)站,編寫相應(yīng)的包裝器
從文本中獲取知識對應(yīng)的便是自然語言處理中的信息抽取技術(shù),這一部分也是目前學(xué)術(shù)研究的熱點(diǎn),主要涉及命名實(shí)體識別任務(wù)、關(guān)系抽取任務(wù)、事件抽取任務(wù)等
3. 知識的融合
知識圖譜的構(gòu)建經(jīng)常需要融合多種不同來源的數(shù)據(jù),在進(jìn)行知識融合的過程中,常涉及到以下幾個任務(wù):
· 本體 | 概念提取和融合
· 實(shí)體對齊和實(shí)體鏈接
· 屬性融合
· 屬性值范化
4. 知識的評估
· 人工驗(yàn)證:眾包驗(yàn)證、抽樣驗(yàn)證和批量驗(yàn)證
· 算法評估:三元組置信度
5. 知識的更新
· 知識補(bǔ)全
· 知識糾錯
· 同步更新
2.2 知識管理
知識管理主要涉及知識存儲問題,一般有兩種選擇:
通過RDF(資源描述框架)這樣的規(guī)范存儲格式來進(jìn)行存儲,比較常用的數(shù)據(jù)庫有Jena等
通過圖數(shù)據(jù)庫來進(jìn)行存儲,常用的有Neo4j、JanusGraph等
知識圖譜系統(tǒng)能夠提供認(rèn)知能力,包括語言理解、認(rèn)知服務(wù)、推理引擎
聯(lián)系客服