午夜免费美女视频,杨幂的吻戏视频,大胸泳装美女视频

知識圖譜構(gòu)建

2023.05.09 河南

一、通用的知識圖譜構(gòu)建步驟

通用的知識圖譜構(gòu)建10大步驟：

1. 明確業(yè)務(wù)和專家要求：確定收集數(shù)據(jù)的目標(biāo)并定義想要回答的問題。

2. 收集和分析相關(guān)數(shù)據(jù)：發(fā)現(xiàn)哪些數(shù)據(jù)集、分類法和其他信息（專有的、開放的或商業(yè)可用的）最適合實(shí)現(xiàn)領(lǐng)域、范圍、來源、維護(hù)等方面的目標(biāo)。

3. 清理數(shù)據(jù)以確保數(shù)據(jù)質(zhì)量：糾正任何數(shù)據(jù)質(zhì)量問題，使數(shù)據(jù)最適合的任務(wù)。這包括刪除無效或無意義的條目、調(diào)整數(shù)據(jù)字段以適應(yīng)多個值、修復(fù)不一致等。

4. 創(chuàng)建語義數(shù)據(jù)模型：徹底分析不同的數(shù)據(jù)模式，為協(xié)調(diào)數(shù)據(jù)做好準(zhǔn)備。重用或設(shè)計本體、應(yīng)用程序配置文件、RDF 形狀或其他一些關(guān)于如何一起使用它們的機(jī)制。使用 RDF Schema 和 OWL 等標(biāo)準(zhǔn)形式化數(shù)據(jù)模型。

5. 將數(shù)據(jù)與ETL或虛擬化集成：應(yīng)用ETL工具將數(shù)據(jù)轉(zhuǎn)換為RDF或使用數(shù)據(jù)虛擬化通過NoETL、OBDA、GraphQL Federation等技術(shù)訪問它。生成語義元數(shù)據(jù)，使數(shù)據(jù)更容易更新、發(fā)現(xiàn)和重用。

6. 通過協(xié)調(diào)、融合和對齊來協(xié)調(diào)數(shù)據(jù)：在具有重疊范圍的數(shù)據(jù)集中匹配同一個實(shí)體的描述，處理它們的屬性以合并信息并映射它們的不同分類法。

7. 構(gòu)建數(shù)據(jù)管理和搜索層：使用 RDF 數(shù)據(jù)模型完美地合并不同的圖。對于本地存儲的數(shù)據(jù)，GraphDB? 可以通過推理、一致性檢查和驗(yàn)證有效地強(qiáng)制執(zhí)行數(shù)據(jù)模型的語義。它可以在集群中擴(kuò)展并與 Elasticsearch 等搜索引擎同步，以匹配預(yù)期的使用和性能要求。

8. 通過推理、分析和文本分析來擴(kuò)充圖表：豐富數(shù)據(jù)，從文本中提取新的實(shí)體和關(guān)系。應(yīng)用推理和圖形分析來發(fā)現(xiàn)新信息?，F(xiàn)在圖表包含的數(shù)據(jù)比其組成數(shù)據(jù)集的總和還多。它還具有更好的互連性，從而帶來更多內(nèi)容并實(shí)現(xiàn)更深入的分析。

9. 最大化數(shù)據(jù)的可用性：開始通過不同的知識發(fā)現(xiàn)工具（例如強(qiáng)大的 SPARQL 查詢、易于使用的 GraphQL 界面、語義搜索、分面搜索、數(shù)據(jù)可視化等）為原始問題提供答案。此外，確保數(shù)據(jù)是公平的（可查找、可訪問、可互操作和可重用）。

10. 使 KG 易于維護(hù)和發(fā)展：最后，在制作知識圖譜并且人們開始使用它之后，通過設(shè)置維護(hù)程序來保持它的活力——它的發(fā)展方式和來自不同來源的更新將是消耗的同時保持高數(shù)據(jù)質(zhì)量。

二、知識圖譜系統(tǒng)

知識圖譜系統(tǒng)主要可以分為：

· 知識構(gòu)建

· 知識管理

· 知識應(yīng)用

2.1 知識構(gòu)建

構(gòu)建知識圖譜是一個迭代更新的過程，根據(jù)知識構(gòu)建的邏輯不同，具體的構(gòu)建思路和順序也存在差異，但大體上是以下幾個階段的迭代：

1. 知識的表示

通常我們將知識圖譜劃分為兩個層次：數(shù)據(jù)層和模式層（個人喜歡稱之為抽象層）

數(shù)據(jù)層：存儲真實(shí)的數(shù)據(jù)
模式層：在數(shù)據(jù)層之上，是知識圖譜的核心，存儲經(jīng)過提煉的知識（概念定義、屬性定義、約束/規(guī)則定義等），通常通過本體庫來管理（本體庫可以理解為面向?qū)ο罄锏摹邦悺边@樣一個概念，本體庫就儲存著知識圖譜的類）

2. 知識的獲取

知識的獲取可以理解成從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提?。▽?shí)體抽取、關(guān)系抽取和事件抽取等），形成知識存入到知識圖譜的過程。

從結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行知識抽取，其核心便是按模式層所設(shè)計的schema將結(jié)構(gòu)化數(shù)據(jù)映射到當(dāng)前的知識圖譜中，簡單地映射可以通過工具D2RQ完成，但復(fù)雜的映射關(guān)系或涉及知識融合的映射則需要專人編寫算法來解決。

從半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)中獲取知識本質(zhì)上其實(shí)是爬蟲工程，大多時候便是針對爬取的網(wǎng)站，編寫相應(yīng)的包裝器
從文本中獲取知識對應(yīng)的便是自然語言處理中的信息抽取技術(shù)，這一部分也是目前學(xué)術(shù)研究的熱點(diǎn)，主要涉及命名實(shí)體識別任務(wù)、關(guān)系抽取任務(wù)、事件抽取任務(wù)等

3. 知識的融合

知識圖譜的構(gòu)建經(jīng)常需要融合多種不同來源的數(shù)據(jù)，在進(jìn)行知識融合的過程中，常涉及到以下幾個任務(wù)：

· 本體 | 概念提取和融合

· 實(shí)體對齊和實(shí)體鏈接

· 屬性融合

· 屬性值范化