上周我在在上討論了ORM,在那以后有人希望我澄清我的意思。事實上,我曾經(jīng)寫文章討論過ORM, 但那是在一場關于SQL的大討論的上下文中,我不應該把這將兩件事情混為一談。 因此,在本文中我將關注ORM本身。同時,我盡力保持簡略,因為從我的SQL文章中顯而易見的是:人們傾向于一旦讀到讓他們發(fā)怒的內(nèi)容就會離開(同時留下一句留言,而不論他們所關注的東西是否在后面會討論到)。
我很高興地發(fā)現(xiàn)Wikipedia有一個相當全面的關于反模式的列表,包括來自編程界及其之外的內(nèi)容。我之所以稱ORM為反模式的原因是因為,反模式的作者定義了用來區(qū)分反模式和普通的壞習慣的兩個條件,而ORM完全符合這些條件:
由于第一個因素導致了ORM令人抓狂(對我來說)的流行性:它第一眼看上去像是個好主意,但是當問題更加明顯的時候,已經(jīng)很難離開了。
我想說的主要問題在于 ActiveRecord,它由于 Ruby on Rails 而著名, 從那以后已經(jīng)移植到了許多其他語言。然而,這些問題同樣存在于其他的ORM層,比如Java的Hibernate和PHP的Doctrine。
ORM的優(yōu)點
1. 不充分的抽象
ORM最明顯的問題是它并不能完全從實現(xiàn)細節(jié)中抽象出來。所有主流ORM的文檔中到處都引用了SQL的概念。其中一些介紹的時候并不會表明其在SQL中的等價物,而其他一些則將庫看作用來生成SQL的過程函數(shù)。
抽象的要點在于它應該使問題得以簡化。對SQL進行抽象,同時又要求你懂得SQL,這使得你需要學習的東西成倍增加了:首先,你必須理解你正在試圖執(zhí)行的SQL是什么,然后你還要學習ORM的API,來讓它為你編寫這些SQL。在Hibernate中,為了完成復雜的SQL你甚至需要學第三種語言:HQL,它幾乎就是SQL(但又不完全是),其在幕后被翻譯成SQL。
ORM的支持者會辯解說并非每個項目都是如此,并非每個人都需要復雜的join,并且ORM是一個"80/20"解決方案,其中80%的用戶只需要SQL中20%的功能,ORM可以處理這些問題。我能說的是,我15年來編寫web應用的數(shù)據(jù)庫后端的經(jīng)歷表明,事實并非如此。只有在項目剛開始的時候你不需要join和本地join。在那之后,你就要優(yōu)化和鞏固你的查詢。即使80%的用戶只用到SQL中30%的功能,可是100%的用戶都需要打破ORM的抽象才能夠完成工作。
2. 不正確的抽象
如果你的項目確實不需要任何關系數(shù)據(jù)功能,那么ORM可以非常完美地為你工作。但是接下來你又遇到另外一個問題:你用錯了了數(shù)據(jù)存儲。關系存儲的額外付出是非常高的;這就是為什么NoSQL數(shù)據(jù)要快得多的重要原因之一。然而,如果你的數(shù)據(jù)是關系型的,那么額外的付出就是值得的:你的數(shù)據(jù)庫不僅存儲數(shù)據(jù),它還表達了你的數(shù)據(jù),并且可以基于關系概念回答關于它的問題,這比你用過程代碼能夠做到的要快速得多。
但是,如果你的數(shù)據(jù)不是關系型的,那么你就是在不適當?shù)膱龊鲜褂肧QL,這為你增加了巨大且不必要的負擔;為了讓問題更加嚴重,你在其上又增加了一重額外的抽象。
另一方面,如果你的數(shù)據(jù)是關系型的,那么你的對象映射最終會失敗。SQL是關于關系代數(shù)的:SQL的輸出不是對象,而是對于某個問題的解答。如果你的對象“是一個”X的實例,并且“擁有一些”Y,且每個Y“屬于”Z,那么對象在內(nèi)存中正確的表達形式是什么? 它應該是X的屬性,或者全部包含在Y中,或者/并且全部包含在Z中?如果你只得到X的屬性,那么何時你運行查詢來獲得Y呢?而且,你是想要其中一個還是全部?現(xiàn)實中,答案是依賴于條件的:這就是為什么我說SQL是對于問題的回答。對象在內(nèi)存中的表達形式取決于你的意圖,然而面向?qū)ο笤O計沒有依賴于上下文的表達這樣的功能。關系不是對象;對象也不是關系。
3. 多個查詢導致失敗
這自然的引出了ORM的另一個問題:效率低下。當你獲取一個時,你需要哪些屬性?ORM并不知道,所以它總是取得全部(或者它要求你告訴它,但是這又打破了抽象)。開始的時候這不成問題,但是當你一次取出上千條紀錄的時候,如果你只需要3個屬性卻不得不取出全部30列,這時就產(chǎn)生了嚴重的性能問題。許多ORM層非常不善于推斷join,從而不得不使用分離的查詢來獲取關聯(lián)數(shù)據(jù)。如前所述,許多ORM層明確聲明效率將會有所犧牲,其中一些提供了某些機制來調(diào)整引起問題的查詢。我從過去的經(jīng)歷中發(fā)現(xiàn)的問題表明,很少有只需要調(diào)整單個“銀彈”查詢的情況:應用的數(shù)據(jù)庫后端之所以死掉不是因為其中某一條查詢,而是眾多的查詢引起的。ORM缺少上下文敏感的性質(zhì)意味著它無法鞏固查詢,相反必須借助cache或其他機制來進行一定程度的補償。
希望到這里我已經(jīng)澄清ORM在設計上的一些缺陷。但是要作為一個反模式,還需要存在替代的解決辦法。事實上有兩個取代方法:
1. 使用對象
如果你的數(shù)據(jù)是對象,那么停止使用關系數(shù)據(jù)庫。編程界當前正在出現(xiàn)鍵-值對存儲的浪潮,它允許你以閃電般的速度訪問優(yōu)雅的、自我包含的海量數(shù)據(jù)。沒有法律規(guī)定編寫Web應用的第一步必須安裝MySQL。對于對象的每一種表達方式都使用關系數(shù)據(jù)庫是一種過度使用,這也是近幾年SQL的名稱不太好的原因之一。事實上,問題在于偷懶的設計。
2. 在模型中使用SQL
編程中作任何事情都只有一種正確的方式,這是一種危險的說法。然而根據(jù)我的實踐,在面向?qū)ο蟮拇a中表達關系模型的最佳方法仍然是模型層:將你的所有數(shù)據(jù)表示封裝在一個單獨的區(qū)域是一個好注意。然而,記住模型層的工作簿在于表達對象,而在于回答問題。提供一個可以回答你的應用程序所包含的問題的API,盡量保持簡潔高效。有時候,這些回答顯得格格不入,以致于看上去是“錯誤的”,甚至對于資深的OO開發(fā)者也是如此。但是,你可以根據(jù)經(jīng)驗來更好地找到其中的普遍性,從而允許你將多個查詢方法重構為單個。
類似的,有時候輸出會是單個對象X,它很容易表達。 但是也有時候輸出是聚合的對象表格,或者單個整數(shù)值。你要忍住將這些內(nèi)容用過多抽象來包裝的誘惑,用對象自身的術語來描述。首要的是,不要相信OO能夠表達任何對象和所有對象。OO本身是一種優(yōu)美和靈活的抽象,但關系數(shù)據(jù)在其范圍之外,把它不能表達的東西偽裝成對象是ORM的核心與真正的問題。
聯(lián)系客服