SOA 不僅僅是 Web 服務(wù)
圖 1 展示了信息管理提供的服務(wù)分類邏輯視圖,這些服務(wù)是基于以下方面進行分類的:
安全性
協(xié)作
可用性
可管理性
信息消耗
雖然沒有哪種單獨的產(chǎn)品能提供以上所有的服務(wù),但將這些服務(wù)合在一起就可以創(chuàng)建 SOA 的完整信息管理框架。特別值得注意的是,某些文章將元數(shù)據(jù)管理置于信息管理棧的底部,在本文中我們認為,元數(shù)據(jù)管理是滲入其他服務(wù)并與其他服務(wù)緊密聯(lián)系的。事實上,SOA 是元數(shù)據(jù)驅(qū)動的構(gòu)架。
圖 1:SOA 中的信息管理
元數(shù)據(jù)管理
元數(shù)據(jù)、元模型以及元-元模型
最常見的元數(shù)據(jù)定義是關(guān)于數(shù)據(jù)的數(shù)據(jù)——其實并不然。根據(jù)規(guī)范的不同,元數(shù)據(jù)所指的含義也將不同?;旧希獢?shù)據(jù)是關(guān)于數(shù)據(jù)的結(jié)構(gòu)(語法)和含義(語義)的信息。元數(shù)據(jù)結(jié)構(gòu)化方法的例子有關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)目錄、Java 庫目錄和 XML DTD 和 schema。這些每個都定義了數(shù)據(jù)是如何表示和使用的。從語義的角度來說,元數(shù)據(jù)提供了數(shù)據(jù)的含義。例子包括用數(shù)據(jù)字典、注釋或本體論(ontology)來描述。
此外,還有用于內(nèi)容管理的實例和類的元數(shù)據(jù)。實例元數(shù)據(jù)只是儲存在內(nèi)容管理元數(shù)據(jù)儲存庫中的數(shù)據(jù),并引用存儲在別處的對象,例如文檔、Web 頁面、音頻和視頻文件。分類和索引中的條目也同樣被認為是實例元數(shù)據(jù)。類元數(shù)據(jù),從某種角度來說,和 RDBMS 目錄和 XML schema 意義相同,用來描述實例元數(shù)據(jù)的結(jié)構(gòu)。
元模型(也稱元-元數(shù)據(jù))定義了元數(shù)據(jù)的結(jié)構(gòu)和語義。標準元模型的例子包括 Unified Modeling Language(UML)和 Common Warehouse Meta-model(CWM)。元-元模型層由元-元數(shù)據(jù)的結(jié)構(gòu)和語義描述組成。目前正試圖提供一種可以描述所有其他信息模型的通用語言。Meta Object Facility(MOF)是元-元模型的一個標準。
圖 2:MOF 元數(shù)據(jù)構(gòu)架
對元數(shù)據(jù)的生產(chǎn)者來說,遵循元模型、元數(shù)據(jù)接口、元-元模型和查詢語言方面的標準是非常重要的。通過這些標準,才能實現(xiàn)最大限度的互操作性,并可以服務(wù)于更多的元數(shù)據(jù)消費者,例如數(shù)據(jù)倉庫、分析和建模工具。SOA 正是依靠這些標準來實現(xiàn)生產(chǎn)者和消費者之間的動態(tài)匹配、監(jiān)控 BPEL 流,以及增強對 IT 資源和業(yè)務(wù)流程的跟蹤能力。
元數(shù)據(jù)管理注意事項
當我們重新設(shè)計元數(shù)據(jù)管理時,由于 XML 的普及,它顯然是元數(shù)據(jù)的缺省數(shù)據(jù)格式。對于單個供應(yīng)商或是組織來說,通常首選是集中方式,用來實現(xiàn)元數(shù)據(jù)資產(chǎn)的重用,并減少開發(fā)的工作量,避免出現(xiàn)混亂。同樣,標準就是這個首選的方法。例如,IBM® 使用開放源代碼的 Eclipse Modeling Framework(EMF)作為通用的元數(shù)據(jù)集成技術(shù)。EMF 為工具和運行時提供了元數(shù)據(jù)集成。因此,在 EMF 基礎(chǔ)上開發(fā)的所有軟件都可以共享其它應(yīng)用程序的通用方法。在理想的環(huán)境中(在短期內(nèi)實現(xiàn)可能比較困難),元數(shù)據(jù)儲存庫可以儲存所有的元數(shù)據(jù)構(gòu)件。服務(wù)由信息管理體構(gòu),例如在需要時,可以調(diào)用信息管理提供的服務(wù)(比如 SSO、ETL、聯(lián)合、質(zhì)量、搜索、版本控制和工作流)以獲取數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理。
對于 XML 儲存庫而言,有兩種常用的用來儲存 XML 元數(shù)據(jù)的儲存機制。分別為 RDBM 和固有的 XML 儲存庫。每種儲存機制都有優(yōu)缺點。起決定作用的因素包括性能、靈活性、帶寬、互操作性、用戶定義數(shù)據(jù)類型的支持以及數(shù)據(jù)質(zhì)量的保證等。
無論對于供應(yīng)商、企業(yè)或是行業(yè)級別而言,在進行元數(shù)據(jù)管理時,聯(lián)合的方法都是更加實用的。虛擬的元數(shù)據(jù)儲存庫允許應(yīng)用程序通過單個 API 訪問并聚集不同種類的元數(shù)據(jù)源。物理元數(shù)據(jù)構(gòu)件可以被儲存在其初始的位置,也可以通過 ETL/replication/cache 方法來改進性能和元數(shù)據(jù)安置。在不同元數(shù)據(jù)源之間進行自動發(fā)現(xiàn)、映射和轉(zhuǎn)換對改進元數(shù)據(jù)的可管理性都是非常重要。
數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理之間的關(guān)系
一方面,元數(shù)據(jù)使程序間可以互相對話(實際上,供應(yīng)商可調(diào)用它的元數(shù)據(jù)儲存庫 SuperGlue)。另一方面,元數(shù)據(jù)管理的需求與數(shù)據(jù)和內(nèi)容管理是十分類似的。元數(shù)據(jù)管理需要提供關(guān)于安全性、協(xié)作、 QoS 和可管理性的相同的服務(wù)類型。元數(shù)據(jù)管理還要將 SSO、ETL、聯(lián)合、質(zhì)量、搜索、版本控制、工作流和儲存持久性結(jié)合在一起。元數(shù)據(jù)管理在自動操作和編制(orchestration)方面的需求比數(shù)據(jù)和內(nèi)容管理更多,因為元數(shù)據(jù)所服務(wù)的對象主要是計算機程序。
不管怎樣,資產(chǎn)重用和服務(wù)編制可以通過在基于 SOA 且架構(gòu)完善的信息管理基礎(chǔ)上構(gòu)建元數(shù)據(jù)管理來實現(xiàn)。這就證明了將信息管理重新設(shè)計為基于 SOA 的可重用構(gòu)件的重要性。
元數(shù)據(jù)集成的難題
前面已經(jīng)說過,集成元數(shù)據(jù)比集成數(shù)據(jù)和內(nèi)容更加復(fù)雜。許多因素都增加了元數(shù)據(jù)集成的難度。這些因素包括:
元數(shù)據(jù)無處不在,且在許多情況下對用戶是不可見的。
許多產(chǎn)品中的元數(shù)據(jù)和元模型都有其專有格式,特別是內(nèi)容管理。
在內(nèi)容管理中,向內(nèi)容中添加元數(shù)據(jù)。許多內(nèi)容都缺乏元數(shù)據(jù)來進行集成和搜索。
元數(shù)據(jù)集成相對數(shù)據(jù)和內(nèi)容集成來說,需要更高級別的自動化和編制。這就依次需要更高級別的自動發(fā)現(xiàn)、轉(zhuǎn)換、映射和語義理解。
為了避免失去當前客戶,供應(yīng)商還可以選擇保持客戶的專有元數(shù)據(jù)格式。
轉(zhuǎn)換到元數(shù)據(jù)標準(例如 MOF)需要時間和工作量。
元數(shù)據(jù)集成的業(yè)務(wù)價值
SOA 在很大程度上是元數(shù)據(jù)驅(qū)動的構(gòu)架。要理解元數(shù)據(jù)集成的高級別業(yè)務(wù)價值,讓我們先進行全方位的概覽。圖 3 闡明了隨需應(yīng)變業(yè)務(wù)上下文中元數(shù)據(jù)集成的重要性。基于信息標準,元數(shù)據(jù)可以實現(xiàn)無縫信息交換。給出良好集成的元數(shù)據(jù)后,信息可以在由操作系統(tǒng)、編程語言、位置和數(shù)據(jù)格式組成的邊界之間自由流動。因此元數(shù)據(jù)可以被認為是信息集成的“大腦”。此外,信息集成使得可以進行業(yè)務(wù)集成,業(yè)務(wù)集成既可以是跨企業(yè)中各部門的,也可以是跨企業(yè)邊界的。它提供以下內(nèi)容:
通過數(shù)據(jù)倉庫或聯(lián)合的方式,提供單一且完整的客戶、伙伴、產(chǎn)品和業(yè)務(wù)視圖。
通過使用分析服務(wù),使業(yè)務(wù)性能管理更加便利。
通過廣泛的信息訪問來增強業(yè)務(wù)應(yīng)用程序。
通過持續(xù)的信息服務(wù)實現(xiàn)業(yè)務(wù)流程轉(zhuǎn)換。
最后,業(yè)務(wù)集成是隨需應(yīng)變業(yè)務(wù)的基礎(chǔ)之一。通過使用 IT 技術(shù)服務(wù)于業(yè)務(wù)目標(而不是相反),使業(yè)務(wù)集成與之前的 Enterprise Application Integration(EAI)區(qū)別開來。因此,說元數(shù)據(jù)集成是隨需應(yīng)變業(yè)務(wù)的“大腦”一點都不夸張。
圖 3:元數(shù)據(jù)集成是隨需應(yīng)變業(yè)務(wù)集成的大腦
高級元數(shù)據(jù)集成價值的例子包括:
有助于來自不同源的數(shù)據(jù)/內(nèi)容集成。
縮短新應(yīng)用程序的上市時間,并允許更快速的應(yīng)用程序集成
改善企業(yè)內(nèi)部或企業(yè)之間的業(yè)務(wù)集成流程
通過完整的集成信息分析,提供了全新的認識
通過變更管理和預(yù)測分析,進行結(jié)果分析
數(shù)據(jù)和內(nèi)容聯(lián)合:分散式方法
聯(lián)合的概念是指將資源集看作單個資源來進行查看和操作,且保持其自治(對當前的應(yīng)用程序或系統(tǒng)影響極少或沒有影響)和完整性(不會破壞當前應(yīng)用程序或系統(tǒng)中的數(shù)據(jù)或內(nèi)容)。不用說,自治和完整性是聯(lián)合的兩個重要前提。
自 20 世紀 90 年代后期,數(shù)據(jù)聯(lián)合已經(jīng)作為與集中方法截然不同的一種方法而出現(xiàn)了。在分散方法中,使用了數(shù)據(jù)市場(mart)和倉庫。數(shù)據(jù)聯(lián)合力圖將數(shù)據(jù)放在其原始位置上,并創(chuàng)建虛擬數(shù)據(jù)庫。類似地,最近出現(xiàn)的內(nèi)容聯(lián)合可以用來訪問并聚集不同的內(nèi)容源。這些分散的方法相比集中化方法而言,減少了數(shù)據(jù)和內(nèi)容冗余、帶寬、儲存、實時同步以及額外的管理費用。對分布式信息源的實時訪問同樣為業(yè)務(wù)智能帶來了新的性能,這應(yīng)該遵循法定和管理需求。對于開發(fā)人員來說,數(shù)據(jù)聯(lián)合減少了為不同的數(shù)據(jù)源編寫和維護自定義 API 的需求,以及對高度專門技能的需求。
對于數(shù)據(jù)聯(lián)合而言,最需要關(guān)注的就是其性能。要改進性能,聯(lián)合需要經(jīng)常使用緩存、物理查詢表(MQT)以及分布式查詢優(yōu)化和執(zhí)行。高速緩存和 MQT 在聯(lián)合的服務(wù)器上創(chuàng)建并管理表,這些服務(wù)器可以是目標聯(lián)合數(shù)據(jù)源的全部或是其中的一部分。作為一種 cutting-edge 工具,IBM WebSphere® Information Integrator 考慮了以下方面:
源數(shù)據(jù)(例如基數(shù)或是索引)的標準統(tǒng)計
數(shù)據(jù)服務(wù)器性能(例如連接特性和內(nèi)置功能)
數(shù)據(jù)服務(wù)器容量
I/O 容量
網(wǎng)速(請參閱參考資料部分的 IBM Redbook,“DB2II: Performance Monitoring, Tuning and Capacity Planning Guide”)
ETL:集中方法
提取-轉(zhuǎn)換-加載(Extract-transform-load,ETL)是用于數(shù)據(jù)集成的最古老的技術(shù)之一,且和數(shù)據(jù)儲存和業(yè)務(wù)智能緊密結(jié)合。該方法可以用于數(shù)據(jù)合并、遷移和傳播。ETL 工具從一個或是多個數(shù)據(jù)源中提取、轉(zhuǎn)換和加載數(shù)據(jù)至其它目標。ETL 曾經(jīng)一段時間是信息集成的主要方法且至今仍舊運用十分廣泛。與直接的提取和加載操作不同,轉(zhuǎn)換是最復(fù)雜的部分。因為在此過程中需要對數(shù)據(jù)進行理解、轉(zhuǎn)換、聚集和計算。由于高費用、較慢的周轉(zhuǎn)周期以及數(shù)據(jù)源中不完整的信息集而使 ETL 和數(shù)據(jù)倉庫的優(yōu)勢大打折扣。
集中式和分散式方法互補,將兩者結(jié)合在一起會產(chǎn)生很多的優(yōu)勢。
集中式方法包含了以下一些方面:
訪問性能或可用性需求需要集中數(shù)據(jù)。
當前需求要求時間點一致性,例如業(yè)務(wù)關(guān)閉。
需要進行復(fù)雜轉(zhuǎn)換,以實現(xiàn)數(shù)據(jù)的語義一致性。
集中化方法通常用于生產(chǎn)應(yīng)用程序、數(shù)據(jù)倉庫和操作數(shù)據(jù)存儲庫。
集中化方法通常由 ETL 或是復(fù)制技術(shù)來管理。
分散式方法包含了以下需要考慮的事項:
源系統(tǒng)的訪問性能和負載的提高可以降低整體實現(xiàn)的費用。
當前需求需要數(shù)據(jù)的最新副本。
數(shù)據(jù)安全性、許可限制或行業(yè)規(guī)則限制了數(shù)據(jù)傳輸。
分散化方法可以結(jié)合復(fù)合格式數(shù)據(jù),例如客戶 ODS 與相關(guān)的契約文檔或是圖象相結(jié)合。
查詢需要實時數(shù)據(jù),例如股票報價、現(xiàn)有存貨目錄
數(shù)據(jù)復(fù)制和事件發(fā)布
數(shù)據(jù)復(fù)制使數(shù)據(jù)的副本從一個位置移到另一個位置。目標位置可以是集中的位置,例如數(shù)據(jù)倉庫,也可以是網(wǎng)絡(luò)上另一個分布式位置。在網(wǎng)格環(huán)境中,復(fù)制和緩存服務(wù)用來創(chuàng)建 Placement Management Service 以滿足服務(wù)質(zhì)量 (QoS) 目標。根據(jù)訪問模式和消費應(yīng)用程序位置的不同,Placement Management Service 通過創(chuàng)建緩存或是副本來提高相應(yīng)時間以及信息可用性。在 Web 應(yīng)用程序環(huán)境中,當數(shù)據(jù)或是內(nèi)容已經(jīng)準備好被發(fā)布用于公共消費時,數(shù)據(jù)和內(nèi)容復(fù)制通常用來將數(shù)據(jù)或內(nèi)容從分段服務(wù)器(通常只是管理員使用的服務(wù)器)轉(zhuǎn)移到生產(chǎn)服務(wù)器。分段數(shù)據(jù)管理使組織能夠更好的控制信息流和信息的生命周期。例如,一個 Web 站點支持多國語言。當一段數(shù)據(jù)或內(nèi)容元素需要在網(wǎng)站上發(fā)布之前被翻譯,則首先需要將其傳給分段服務(wù)器。只有在被翻譯完并被管理員許可以后,才可以復(fù)制給生產(chǎn)服務(wù)器并進行發(fā)布。
復(fù)制可以與集中式或分散式方法共同使用。ETL 和數(shù)據(jù)復(fù)制間主要的區(qū)別是, ETL 通常在應(yīng)用了數(shù)據(jù)過濾和轉(zhuǎn)換規(guī)則后,將數(shù)據(jù)移動到集中位置,這要花費更長的時間,并移動更多的數(shù)據(jù)。數(shù)據(jù)復(fù)制移動的數(shù)據(jù)集就小很多,可以更自動化的方式移動到集中的或是分散的位置。數(shù)據(jù)復(fù)制可以對數(shù)據(jù)進行實時或是近實時訪問。ETL 的主要目的是分析并監(jiān)控數(shù)據(jù),并生成業(yè)務(wù)智能。但數(shù)據(jù)復(fù)制的目標更多的與性能、數(shù)據(jù)管理和數(shù)據(jù)可用性相關(guān)。最后,ETL 和數(shù)據(jù)復(fù)制可以互補,換句話說,可以使用數(shù)據(jù)復(fù)制功能更快地將數(shù)據(jù)移動到數(shù)據(jù)市場或是存儲庫,ETL 中的數(shù)據(jù)轉(zhuǎn)換功能可以提供數(shù)據(jù)復(fù)制領(lǐng)域更大的靈活性和更高的數(shù)據(jù)質(zhì)量。為了重用不同工具的邏輯,需要有易于調(diào)用且松耦合的信息服務(wù)。
和 ETL 以及數(shù)據(jù)復(fù)制不同,事件發(fā)布并不清楚數(shù)據(jù)的去向以及如何使用數(shù)據(jù)。源表的變更將以 XML 格式或是其它數(shù)據(jù)格式發(fā)布到消息隊列。應(yīng)用程序負責檢索已發(fā)布的事件并采取適當?shù)牟僮?,例如觸發(fā)業(yè)務(wù)流程或在將數(shù)據(jù)應(yīng)用到目標數(shù)據(jù)源之前對數(shù)據(jù)進行轉(zhuǎn)換。松耦合架構(gòu)將服務(wù)提供者和消費者分離,并允許數(shù)據(jù)事件獨立于應(yīng)用程序。
邏輯數(shù)據(jù)和語義信息建模
邏輯數(shù)據(jù)建模是軟件開發(fā)的最佳實踐之一,也是當開發(fā)組織在時間和預(yù)算壓力之下很容易被忽視的地方。雖然在內(nèi)部開發(fā)過程中經(jīng)常忽略邏輯數(shù)據(jù)建模,但組織經(jīng)常購買獲得 企業(yè)資源規(guī)劃(Enterprise Resource Planning,ERP)、客戶關(guān)系管理(Customer Relationship Management,CRM)或是其他類型的包。結(jié)果是,許多版本的數(shù)據(jù)模型引用了組織內(nèi)的同一個事物,且每個數(shù)據(jù)源都有自己的數(shù)據(jù)模型和元模型。例如,引用了客戶的不同的項,CRM 稱其為 customer,記賬系統(tǒng)中稱其為 client,而銷售系統(tǒng)中稱之為 buyer,這種情況并不少見。教科書和理論家力圖從邏輯企業(yè)數(shù)據(jù)模型開始,再轉(zhuǎn)至物理數(shù)據(jù)模型(例如實體關(guān)系圖)、代碼生成和開發(fā),但是在實際中順序卻經(jīng)常顛倒過來。
在實踐中,組織常分階段構(gòu)建、購買或是獲取數(shù)據(jù)庫,且數(shù)據(jù)保持被隔離的狀態(tài)。有時這些組織認識到需要對數(shù)據(jù)進行集成。那么接下來要怎樣實現(xiàn)呢?通常會鉆研大堆的文檔、成千上萬的代碼行以及海量的數(shù)據(jù),來發(fā)現(xiàn)其生產(chǎn)和消費的信息類型,更不用說這些組織要發(fā)現(xiàn)和記錄各種數(shù)據(jù)模型和業(yè)務(wù)流程之間的相互關(guān)系了。在這種情況下,自動數(shù)據(jù)發(fā)現(xiàn)和概要工具可以加快這些流程,并減輕執(zhí)行這些任務(wù)的復(fù)雜性。許多組織在最后將得到邏輯企業(yè)數(shù)據(jù)模型,這樣單獨的系統(tǒng)就可以被映射到公共邏輯模型上。轉(zhuǎn)換在一些案例中需要用到,例如貨幣間的轉(zhuǎn)換。最終,物理數(shù)據(jù)模型被映射到企業(yè)數(shù)據(jù)模型——即企業(yè)共享的公共邏輯數(shù)據(jù)模型。如果企業(yè)數(shù)據(jù)模型在一開始就被設(shè)計為模型驅(qū)動架構(gòu)(Model Driven Architecture)的一部分,那么該模型就可以最大限度的發(fā)揮其優(yōu)勢。不過,逆向的工程步驟也是非常有價值的。企業(yè)數(shù)據(jù)模型的主要優(yōu)勢在于:
提供企業(yè)信息資產(chǎn)的概覽。
增強使用 IT 技術(shù)來支持業(yè)務(wù)流程的實踐。
減少企業(yè)信息集成(Enterprise Information Integration,EII)、企業(yè)應(yīng)用程序集成(Enterprise Application Integration,EAI)以及數(shù)據(jù)存儲的費用和風險。
提供對數(shù)據(jù)、元數(shù)據(jù)和元模型的基于資產(chǎn)的重用。
提高數(shù)據(jù)和元數(shù)據(jù)質(zhì)量。
便于業(yè)務(wù)分析員、數(shù)據(jù)建模者、開發(fā)人員和數(shù)據(jù)庫管理員之間的通信。
語義信息建模(本體)不屬于邏輯數(shù)據(jù)建模,它對數(shù)據(jù)的語義(含義)和關(guān)系建模。它合并了多個知識領(lǐng)域的詞匯(術(shù)語和概念)。語義信息建??梢猿錾亟鉀Q許多難題,例如以下問題:
信息集成
模型轉(zhuǎn)換
解釋
數(shù)據(jù)凈化
搜索
導航
文本理解
文檔準備
語音理解
問答
數(shù)據(jù)概要(Data profiling)
數(shù)據(jù)概要是發(fā)現(xiàn)以下方面的流程:
數(shù)據(jù)格式
模式
特性
規(guī)則
隱含關(guān)系
數(shù)據(jù)概要同樣提供了很多的優(yōu)點,包括:
改善組織對數(shù)據(jù)的理解。
有助于電子數(shù)據(jù)管理(Electronic Data Management,EDM)。
便于數(shù)據(jù)映射和轉(zhuǎn)換。
提高數(shù)據(jù)質(zhì)量。
構(gòu)建性能調(diào)整的基線。
協(xié)助語義建模。
數(shù)據(jù)概要旨在更好的理解信息并創(chuàng)建關(guān)于對象的更多元數(shù)據(jù)。
數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量將影響企業(yè)信息管理策略的成功與否,企業(yè)信息管理策略決定了其業(yè)務(wù)集成策略的成敗。數(shù)據(jù)質(zhì)量問題被認為是數(shù)據(jù)儲存項目失效的主要原因之一。低質(zhì)量的數(shù)據(jù)會導致誤傳的決策、無效的操作和錯失機遇,并且有時還會受到來自組織或市場的懲罰。 數(shù)據(jù)質(zhì)量并非華而不實,它已經(jīng)成為業(yè)務(wù)的關(guān)鍵操作要素。
數(shù)據(jù)質(zhì)量問題的例子如下:
丟失所需域的數(shù)據(jù)
不一致的數(shù)據(jù)條目
不正確或不準確的數(shù)據(jù)條目
由于數(shù)據(jù)質(zhì)量工作固有的復(fù)雜性,一些組織選擇將這些工作外包給第三方服務(wù)提供商。我們將在本文后面部分的案例學習中看到。
內(nèi)容質(zhì)量經(jīng)常被部分忽視,這是因為評估內(nèi)容質(zhì)量比評估數(shù)據(jù)質(zhì)量更困難。畢竟內(nèi)容是非結(jié)構(gòu)化的,且質(zhì)量標準更加主觀和隨意。內(nèi)容質(zhì)量通常不包含在技術(shù)項目范圍之內(nèi)。從組織的角度來說內(nèi)容質(zhì)量并未得到重視。但是,在 SOA 環(huán)境中,因為 SOA 不固定的特性而使內(nèi)容質(zhì)量變得更加重要。如果錯誤數(shù)據(jù)或是質(zhì)量次的內(nèi)容沒有及時發(fā)現(xiàn),就會到處傳播。內(nèi)容質(zhì)量標準由于內(nèi)容類型的不同而有所區(qū)別,但是評估內(nèi)容質(zhì)量還是有一些共同的標準,如以下所示:
關(guān)聯(lián)
及時
截止時間
內(nèi)容確認
等級
副本
鏈接檢查
由于對元數(shù)據(jù)管理能力需求的增長,元數(shù)據(jù)質(zhì)量最近受到更多的關(guān)注。改進數(shù)據(jù)質(zhì)量的技術(shù),例如標準化、概要、審查、凈化、轉(zhuǎn)換和確認,都可用來改進元數(shù)據(jù)質(zhì)量。
強數(shù)據(jù)類型是跨不同的編程語言和硬件確保 XML 數(shù)據(jù)值一致性的關(guān)鍵。但是,當前 XML 技術(shù)只允許單個文檔的 schema 確認,卻沒有一種有效的方法來跨不同的 schema 和數(shù)據(jù)源(比如在關(guān)系數(shù)據(jù)庫和 OO 數(shù)據(jù)類型工具之間)驗證數(shù)據(jù)類型(包括用戶定義的數(shù)據(jù)類型)并實施語義強類型。僅僅 XML 文檔類型定義(DTD)或 schema 的標準化(許多行業(yè)試圖用這種標準化來作為該問題的解決方案)是不夠的,因為當需要在多個行業(yè)之間集成數(shù)據(jù)時(這是隨需應(yīng)變業(yè)務(wù)的一個基本需求。),XML DTD 或 schema 驗證、語義一致性和兼容性方面的問題仍舊存在。
搜索和查詢
在企業(yè)搜索中,搜索分許多類型:關(guān)鍵字、布爾值、范圍、多層面元數(shù)據(jù)(faceted metadata)、語義、自然語言和參數(shù)化。不論用哪種搜索,目的都是為了提供統(tǒng)一、相關(guān)并排序的結(jié)果集,從而可以快速且方便的訪問信息。為便于搜索,可以使用索引(indexing,請不要與關(guān)系數(shù)據(jù)庫中的索引混淆)來索引非結(jié)構(gòu)化內(nèi)容(例如 Web 頁面、電子郵件數(shù)據(jù)庫或是文件系統(tǒng))的關(guān)鍵字、概念和實例元數(shù)據(jù),使這些內(nèi)容可以被搜索和檢索。關(guān)系數(shù)據(jù)庫也可以被編入索引,以進行更快和更靈活的搜索。
雖然許多組織認識到集成結(jié)構(gòu)化和非結(jié)構(gòu)化信息的重要性,但目前的搜索結(jié)果仍舊互不相干。用戶想要的是指向潛在相關(guān)信息的一系列鏈接。用戶不得不對搜索結(jié)果慢慢的瀏覽檢驗,以找到所需的信息并與其最初的查詢目的聯(lián)系在一起。這基本上是手動的流程。我們認為迫切需要研究使用搜索和查詢在數(shù)據(jù)和內(nèi)容之間實現(xiàn)一項查詢,一組結(jié)果集。
數(shù)據(jù)庫通常都自帶搜索功能。最常見的搜索功能是使用 SQL 和 XQuery 之類的查詢語言。用數(shù)據(jù)庫搜索來檢索結(jié)構(gòu)化且嚴格匹配的數(shù)據(jù)十分管用,但這需要對查詢結(jié)構(gòu)和數(shù)據(jù)模型十分熟悉和了解才行。數(shù)據(jù)庫搜索的用戶大都是開發(fā)人員或是數(shù)據(jù)庫管理員。另外,數(shù)據(jù)庫搜索不適合于相關(guān)排序、模糊搜索和多關(guān)鍵字。因此,數(shù)據(jù)庫搜索的使用受到了很多限制。為實現(xiàn)高性能、靈活性以及相關(guān)排序等,一些搜索引擎與數(shù)據(jù)庫直接相連,從數(shù)據(jù)庫提取數(shù)據(jù)并生成索引。一個例子就是 IBM WebSphere OmniFind。
分析
在先前 ETL 部分我們已經(jīng)闡明,數(shù)據(jù)倉庫將數(shù)據(jù)合并到中央位置以確保更好的進行決策、跨部門報告和數(shù)據(jù)挖掘。傳統(tǒng)的分析包括報告、數(shù)據(jù)挖掘、儀表板(dashboard)、記分卡和業(yè)務(wù)性能管理。隨著競爭日趨激烈,操作變得越來越復(fù)雜,規(guī)則也隨著更加嚴格。組織需要實時訪問不同的數(shù)據(jù)源來做以下改進:
使用集成信息預(yù)測市場趨勢。
更好的了解客戶。
提高操作效率。
確保遵循規(guī)則。
獲取新知識。
所有這些趨勢使得對信息管理分析能力的需求不斷增加。分析變得越來越重要。例如,如果銷售商知道現(xiàn)有客戶的合同、服務(wù)經(jīng)驗和其行業(yè)趨勢、其競爭者和客戶,他(或她)就可以更好地為客戶定制專門的銷售建議。最近,分析經(jīng)常需要在不同的信息源間進行信息集成。例如,要評估質(zhì)量,汽車制造商需要將事故報告(存在文檔管理系統(tǒng)內(nèi))、經(jīng)銷商的修理記錄(存在關(guān)系數(shù)據(jù)庫內(nèi))、司機的風險因素以及環(huán)境因素(存在知識管理系統(tǒng)內(nèi))相關(guān)聯(lián)。在未來,通過分析將能夠更加智能化的訪問并關(guān)聯(lián)不同的信息源的信息,從而提供新的市場洞察和業(yè)務(wù)決策。
相關(guān)服務(wù)
以下服務(wù)被稱為“相關(guān)”服務(wù),并不是因為它們對于信息管理而言不重要,而是因為他們對于業(yè)務(wù)流程和應(yīng)用集成來說十分常見。
SSO、訪問控制和審查
單點登錄(SSO)到不同信息源、訪問控制、審查對信息的查看和修改,這些共同構(gòu)建了信息管理安全環(huán)境的基礎(chǔ)。SSO 對用戶提出您是誰的問題,訪問控制則提出您可以做什么,審查隨時跟蹤您已完成的操作。SSO 的優(yōu)點很多:減少用戶受挫的可能、降低開發(fā)工作量并提高效率。訪問控制確保只有擁有正確權(quán)限的用戶才能訪問數(shù)據(jù)和內(nèi)容。一些業(yè)務(wù)需要非常復(fù)雜的訪問權(quán)限管理,例如 Digital Rights Management。審查服務(wù)為數(shù)據(jù)和內(nèi)容提供了額外的保障。查看、插入、修改和刪除信息操作都能被審查并被報告。隨著對安全性和規(guī)則靈活性的需求不斷增長,SSO、訪問控制和審查服務(wù)的結(jié)合為企業(yè)信息管理打下堅實的基礎(chǔ)。
工作流和版本控制
工作流和版本控制都設(shè)計為促進團隊環(huán)境中的協(xié)作。在通過版本控制建立一致點時,數(shù)據(jù)、內(nèi)容和元數(shù)據(jù)管理、應(yīng)用程序代碼開發(fā)和流程都需要工作流,從而允許人們進行協(xié)作,以便之后將這些一致點返回給版本控制。工作流將用戶、流程和信息鏈接在一個系統(tǒng)中。系統(tǒng)的每個部分——人、流程和信息——都是高度交互的,且它們之間的交互甚至更加動態(tài)。例如,一家公司編寫了一個程序使每個雇員都可以提交自己對任何主題的建議。根據(jù)建議類別的不同(信息),這些建議將被不同的人發(fā)送、評審和處理(流程,人)。因此,需要一個高度健全且合適的工作流來處理不能預(yù)料的情況。一旦開發(fā)了這樣的工作流服務(wù),不用的應(yīng)用程序可以對其進行調(diào)用,這些應(yīng)用程序包括文檔管理、HR 系統(tǒng)或者知識管理。
門戶
業(yè)界分析家預(yù)測,結(jié)合了 Web 服務(wù)的企業(yè)門戶將未來的十二個月內(nèi)實現(xiàn)。門戶集成了應(yīng)用程序和信息,并通過統(tǒng)一的視圖將其呈現(xiàn)給最終用戶。由于 EII 提供了抽象層,開發(fā)人員可以訪問并匯集不同的信息源、維護代碼并實現(xiàn)性能和安全性需求,而無需編寫自定義適配器。因此,應(yīng)用程序開發(fā)可以節(jié)省大量的時間、花費和技能需求,且門戶用戶可以輕松訪問各種廣泛的信息。最重要的是,可以對端到端業(yè)務(wù)流程進行輕松且快速的集成。
案例學習:數(shù)據(jù)質(zhì)量服務(wù)實例
信息管理棧中的企業(yè)搜索、數(shù)據(jù)質(zhì)量與驗證,以及分析等服務(wù)通常是外購的不錯選擇。SOA 下的信息管理框架確立了一個新的業(yè)務(wù)模型,該業(yè)務(wù)模型越來越受到使用者的歡迎。讓我們看一個案例學習,該案例通過 SOA 提供了數(shù)據(jù)驗證服務(wù),這種服務(wù)也是一種數(shù)據(jù)質(zhì)量服務(wù)。
為了防止出錯和欺詐行為,或是為了遵循相關(guān)法律和規(guī)定(比如 Sarbanes-Oxley),許多電子商務(wù)公司需要實時檢驗地址、電話號碼以及社會安全號碼等識別信息。由于數(shù)據(jù)質(zhì)量確認的復(fù)雜性,一些公司訂購了由第三方提供的數(shù)據(jù)驗證服務(wù),而不是開發(fā)內(nèi)部解決方案。一些公司提供數(shù)據(jù)驗證和質(zhì)量服務(wù),并提供網(wǎng)上的實時地址和電話號碼驗證。在客戶填寫了電子商務(wù)應(yīng)用程序并在線提交后,電子商務(wù)公司將客戶信息封裝至 XML 文檔并通過 Web 服務(wù)、簡單對象訪問協(xié)議(Simple Object Access Protocol,SOAP)和 Web 服務(wù)描述語言(Services Description Language,WSDL)將其發(fā)送到數(shù)據(jù)驗證公司。數(shù)據(jù)驗證公司將在相同的客戶事務(wù)中,對數(shù)據(jù)進行實時驗證。對于客戶而言,他們將獲得及時的反饋,并能夠糾正或取消事務(wù)。
在過去,如果在流程中數(shù)據(jù)出錯,電子商務(wù)要在數(shù)天甚至數(shù)月以后才能收到不能投遞的地址或是電子郵件。同時,客戶還不明白他們的帳戶出了什么問題。使用 SOA 進行數(shù)據(jù)驗證服務(wù),使電子商務(wù)公司從維護和更新數(shù)十億字節(jié)的數(shù)據(jù)庫信息的重擔中解脫出來,這些數(shù)據(jù)庫信息包含數(shù)百萬來自不同城市和地域的用戶姓名、電話號碼和有效地址。
結(jié)束語
作者闡述了信息管理提供的每個服務(wù),并特別關(guān)注元數(shù)據(jù)管理和集成。雖然服務(wù)的種類有很多,但這些是至關(guān)重要的,如果您還記得下列價值取向,可以參閱信息管理的要點:
安全性
協(xié)作
服務(wù)質(zhì)量
可管理性
消費
希望本文可以使您意識到信息管理的重要性和其涉及的廣泛領(lǐng)域。通過掌握單個部分和它們之間交互的知識,您將能更有效的利用信息管理的優(yōu)勢,以構(gòu)建健全且均衡的 SOA。
聯(lián)系客服