中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
知識圖譜與機器學習|KG入門 -- Part1 Data Fabric

語義和Data Fabric的新進展如何幫助我們更好地進行機器學習

介紹

如果你在網(wǎng)上搜索機器學習,你會找到大約20500萬個結(jié)果。確實是這樣,但是要找到適合每個用例的描述或定義并不容易,然而會有一些非常棒的描述或定義。在這里,我將提出機器學習的另一種定義,重點介紹一種新的范式——Data Fabric[1]。

1 什么是Data Fabric?

討論Data Fabric時,我們應(yīng)該提到幾個詞:圖(graphs)、知識圖譜(knowledge-graph)、本體(ontology)、語義(semantics)、鏈接數(shù)據(jù)(linked-data)。在你對這些定義有所了解后,我們可以說:

Data Fabric是支持企業(yè)所有數(shù)據(jù)的平臺,它作為一個統(tǒng)一的框架來管理、描述、組合和訪問數(shù)據(jù)。該平臺由企業(yè)知識圖譜構(gòu)成以創(chuàng)建統(tǒng)一的數(shù)據(jù)環(huán)境。

我們把這個定義拆分成幾部分。我們首先需要的是一個知識圖譜。

知識圖譜由數(shù)據(jù)和信息組成,還包含大量不同數(shù)據(jù)之間的鏈接。這里的關(guān)鍵是,在這個新模型下,我們不是在尋找可能的答案,而是在尋找確定的答案。我們想要的是事實——這些事實來自哪里并不那么重要。這里的數(shù)據(jù)可以代表概念、對象、事物、人,以及你頭腦中的任何東西。圖中填充了概念之間的關(guān)系和聯(lián)系。

知識圖譜還允許你為圖中的關(guān)系創(chuàng)建結(jié)構(gòu)。有了它,就可以建立一個框架來研究數(shù)據(jù)及其與其他數(shù)據(jù)的關(guān)系。

在這種情況下,我們可以向我們的數(shù)據(jù)湖(Data Lake)提出這個問題:這里存在什么?

數(shù)據(jù)湖的概念也很重要,因為我們需要一個地方來存儲數(shù)據(jù)、管理數(shù)據(jù)并運行我們的任務(wù)。但我們需要一個智能數(shù)據(jù)湖,一個能理解我們擁有什么以及如何使用它的地方,這是擁有Data Fabric的好處之一。

Data Fabric應(yīng)該是統(tǒng)一的,這意味著我們應(yīng)該努力將組織中的所有數(shù)據(jù)組織在一個地方并真正地管理它。

2 什么是機器學習?

機器學習已經(jīng)存在很長時間了,有很多關(guān)于它的描述、書籍、文章和博客,所以我不會用太多的章節(jié)來描述它,而只是把一些觀點說清楚。

  • 機器學習不是魔法
  • 機器學習是數(shù)據(jù)科學工作流程的一部分
  • 機器學習需要數(shù)據(jù)的存在,至少現(xiàn)在是這樣。

在這之后,讓我給機器學習一個有點像借用來的和個性化的定義:

機器學習是一種自動的過程,通過使用算法來理解數(shù)據(jù)中的模式和一些數(shù)據(jù)表示,這些算法能夠提取那些模式,而無需專門為此編寫程序,從而創(chuàng)建能夠解決特定(或多個)問題的模型。

你可以同意也可以不同意這個定義,現(xiàn)在的文獻中有很多很好的定義,我只是覺得這個很簡單,對我想表達的東西很有用。

3 在Data Fabric中進行機器學習

在愛因斯坦的引力理論(廣義相對論)中,他從數(shù)學上提出質(zhì)量可以使時空變形,而這種變形就是我們所理解的引力。我知道如果你不熟悉這個理論,聽起來會很奇怪。我來解釋一下。

在沒有引力的狹義相對論的平行時空中,力學定律呈現(xiàn)出一種特別簡單的形式:只要沒有外力作用于一個物體上,它將沿著一條直線通過時空:沿著一條直線,以一個恒定的速度(牛頓力學第一定律)。

但是當我們有質(zhì)量和加速度時,我們可以說我們處于重力之下。像Wheeler所說:

Spacetime tells matter how to move; matter tells spacetime how to curve.(時空告訴物質(zhì)如何運動;物質(zhì)告訴時空如何彎曲。)

在上圖中,“立方體”是時空結(jié)構(gòu)的一種表現(xiàn),當物體在其中移動時,它會變形,“線”移動的方式會告訴我們,一個靠近的物體會如何靠近那個物體。所以重力像是下面這樣的:

所以當我們有質(zhì)量時,我們可以在時空中做一個“凹痕”,在那之后,當我們接近那個凹痕時,我們看到的是重力。我們必須離物體足夠近才能感覺到它。

這正是我所提到的機器學習在Data Fabric中的作用。我知道聽起來很瘋狂,所以讓我解釋一下。

假設(shè)我們創(chuàng)建了一個Data Fabric,對我來說,最好的工具是Anzo。

你可以使用Anzo構(gòu)建所謂的“企業(yè)知識圖譜”,當然也創(chuàng)建了你的Data Fabric。

圖的節(jié)點和邊靈活地捕獲了每個數(shù)據(jù)源的高分辨率孿生體——結(jié)構(gòu)化或非結(jié)構(gòu)化。該圖可以幫助用戶快速、交互式地回答任何問題,允許用戶與數(shù)據(jù)進行對話,從而發(fā)現(xiàn)問題的“洞察力”(insights)。

順便說一下,我是這樣描繪一個“洞察力”(insight)的:

如果我們有Data Fabric:

我所建議的是一種“洞察力”(insight)可以被認為是它的一個凹痕。而發(fā)現(xiàn)這種“洞察力”(insight)的自動過程,就是機器學習。

所以現(xiàn)在我們可以說:

機器學習是一種自動發(fā)現(xiàn)Data Fabric中隱藏的“洞察力”(insight)的過程,它使用的算法能夠發(fā)現(xiàn)這些“洞察力”(insight),而無需專門為此編寫程序,從而創(chuàng)建模型來解決特定(或多個)問題。

使用fabric生成的“洞察力”(insight)本身就是新數(shù)據(jù),作為fabric的一部分而變得明確。也就是說“洞察力”(insight)可以擴增圖,可能會產(chǎn)生進一步的“洞察力”(insight)。

在Data Fabric中,我們遇到了一個問題,試圖在數(shù)據(jù)中找到那些隱藏的“洞察力”(insight),使用機器學習我們可以發(fā)現(xiàn)它們。這在現(xiàn)實生活中會是什么樣子?

Cambridge Semantics研究人員也用Anzo給出了答案,使用Anzo進行機器學習的解決方案用一個現(xiàn)代化的數(shù)據(jù)平臺取代了這種單調(diào)乏味、容易出錯的工作,該數(shù)據(jù)平臺旨在快速集成、協(xié)調(diào)和將來自所有相關(guān)數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為優(yōu)化的機器學習特性數(shù)據(jù)集。

Data Fabric提供了高級數(shù)據(jù)轉(zhuǎn)換功能,這是快速有效的特性工程所必需的,可以幫助將關(guān)鍵的業(yè)務(wù)信號從無關(guān)的噪聲中分離出來。

記住,數(shù)據(jù)是第一位的,這個新的范示使用內(nèi)置的圖形數(shù)據(jù)庫和語義數(shù)據(jù)層集成和協(xié)調(diào)所有相關(guān)的數(shù)據(jù)源——結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都是如此。Data Fabric傳遞數(shù)據(jù)的業(yè)務(wù)上下文和含義,使業(yè)務(wù)用戶更容易理解和正確使用數(shù)據(jù)。

重現(xiàn)性(reproducibility)對于數(shù)據(jù)科學和機器學習非常重要,因此我們需要通過管理數(shù)據(jù)集目錄以及數(shù)據(jù)集成等方面,像數(shù)據(jù)質(zhì)量處理,來輕松地重用和協(xié)調(diào)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這就是Data Fabric所提供的。它還保留了包含機器學習數(shù)據(jù)集的數(shù)據(jù)的端到端的起源,因此在生產(chǎn)中使用模型時很容易找出所需的數(shù)據(jù)轉(zhuǎn)換。

在接下來的文章中,我將給出一個關(guān)于如何在這個新框架中進行機器學習的具體例子。

4 總結(jié)

機器學習并不新鮮,但它有一個新的范式,也許這就是這個領(lǐng)域的未來(這么說可能有點樂觀)。在Data Fabric內(nèi)部,提出了本體、語義、層次、知識圖譜等新概念;但所有這些都可以改善我們思考和進行機器學習的方式。

在這個范式中,我們通過使用算法來發(fā)現(xiàn)Data Fabric中隱藏的“洞察力”(insight),這些算法能夠發(fā)現(xiàn)這些“洞察力”(insight),而無需專門為此編寫程序,從而創(chuàng)建模型來解決特定(或多個)問題。

下一篇我們將為大家介紹Data Fabric上的深度學習。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Data Fabric,下一個風口?
數(shù)據(jù)編織,大數(shù)據(jù)的新風口?
一文搞懂數(shù)據(jù)編織(Data Fabric)
Hi-C Data Browser:Hi-C數(shù)據(jù)瀏覽器
CB Insights:2017全球AI企業(yè)100強(附報告下載)
CB Insights:全球人工智能領(lǐng)域最具發(fā)展?jié)摿?00家創(chuàng)業(yè)企業(yè)(AI 100)
更多類似文章 >>
生活服務(wù)
熱點新聞
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服