阿里云飛天系統(tǒng)之上,提供了離線的結(jié)構(gòu)化數(shù)據(jù)存儲和計算服務(wù)平臺ODPS,半結(jié)構(gòu)化數(shù)據(jù)的實時隨機(jī)讀寫服務(wù)OTS(Open Table Service),實時流數(shù)據(jù)處理服務(wù)OSPS等等。通過這些服務(wù),阿里巴巴內(nèi)部或第三方都可以通過阿里云享受這些資源。InfoQ采訪了阿里云事業(yè)部高級專家,云產(chǎn)品產(chǎn)品經(jīng)理湯子楠,他介紹了阿里云飛天、ODPS的演進(jìn)過程,以及ODPS、天池未來的發(fā)展和價值,以下為采訪全文:
InfoQ:湯子楠你好,介紹一下自己吧。
湯子楠:大家好,我叫湯子楠,我是阿里云的一名產(chǎn)品經(jīng)理。簡單的介紹一下自己,我畢業(yè)后先在微軟中國做了一段時間,做Program Manager,國內(nèi)翻譯成產(chǎn)品經(jīng)理或項目經(jīng)理,當(dāng)時主要做前端產(chǎn)品。在2010年前后,我希望積累在后端的產(chǎn)品經(jīng)驗,當(dāng)時正好阿里云剛剛成立,我蠻認(rèn)可阿里云的這種公有云服務(wù)的模式,希望探索云計算未來的發(fā)展道路,就加入了阿里云。首先做飛天底層的產(chǎn)品經(jīng)理,后來阿里巴巴成立大數(shù)據(jù)事業(yè)部后,我加入其中做了很多跟大數(shù)據(jù)相關(guān)的東西。最近回到阿里云開始負(fù)責(zé)云產(chǎn)品,像負(fù)載均衡,內(nèi)容分發(fā)網(wǎng)絡(luò)等產(chǎn)品。
InfoQ:阿里云在做ODPS這樣一個開放數(shù)據(jù)平臺,給第三方用戶提供計算和數(shù)據(jù)服務(wù),這個平臺和飛天之間的關(guān)系是什么?我的理解是飛天更多是在基礎(chǔ)架構(gòu)層面做支持,ODPS在上層對用戶的數(shù)據(jù)和計算提供服務(wù)的接口,是這樣的嗎?
湯子楠:你的理解非常對,實際上ODPS和飛天都是阿里云飛天團(tuán)隊研發(fā)的。飛天是一個類似操作系統(tǒng)的基礎(chǔ)平臺,它主要負(fù)責(zé),在集群上將最基礎(chǔ)的數(shù)據(jù)存儲和計算的模型通過C++的接口對外暴露出來,讓上層的應(yīng)用基于飛天做更多的事情。阿里云在飛天上開發(fā)了很多產(chǎn)品,比如ODPS,它是一個離線的結(jié)構(gòu)化數(shù)據(jù)存儲和計算服務(wù),主要是做海量的結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘。常見的使用場景,包括云端的數(shù)倉,云端的BI分析、日志分析等。除了ODPS,阿里云有其他基于飛天的產(chǎn)品,OTS(Open Table Service)是半結(jié)構(gòu)化數(shù)據(jù)的實時隨機(jī)讀寫服務(wù);OSPS是實時流數(shù)據(jù)處理服務(wù)。總的來說,可以把飛天理解成操作系統(tǒng),上面的ODPS、OTS就像操作系統(tǒng)上的各個應(yīng)用,這些應(yīng)用分別滿足阿里云的客戶對于不同的使用場景的需求。
InfoQ:你剛才提到飛天用C++來寫的。Hadoop這套生態(tài)系統(tǒng),更多是用Java實現(xiàn)的,為什么飛天選擇C++?
湯子楠:我們可以討論很多C++和Java之間的區(qū)別,這兩個編程語言都有很多擁躉。可能很多人覺得,C++對于系統(tǒng)資源的控制更精準(zhǔn),Java的編程模型可能更好實現(xiàn)。但在我看來,最直接的一個理由就是當(dāng)年做飛天的創(chuàng)始人是一群C++的Programer,很自然的選擇了自己最擅長的語言來寫程序。
InfoQ:我們知道互聯(lián)網(wǎng)、云計算這幾年的發(fā)展速度是非??斓模w天、ODPS這樣的產(chǎn)品,在整個開發(fā)迭代過程當(dāng)中有沒有遇到比較大的門檻,有沒有重新推倒重做的狀況?
湯子楠:這種情況在飛天和ODPS研發(fā)過程中是都有。阿里云剛剛成立時就在研發(fā)飛天,到現(xiàn)在四年多了,在這四年多走了很多彎路。我可以舉幾個小例子,實際都是蠻有意思的經(jīng)歷,現(xiàn)在回想起來很好玩兒,但當(dāng)時真的是血淋淋的教訓(xùn)。
比如,當(dāng)時飛天在做底層服務(wù)的時候,就已經(jīng)考慮到未來上層肯定會出現(xiàn)很多像ODPS、OTS這樣的應(yīng)用,在底層基礎(chǔ)存儲層方面做一些附加的模塊。對于結(jié)構(gòu)化數(shù)據(jù)的存儲,也已經(jīng)在核心系統(tǒng)層考慮這個問題了。當(dāng)時的想法是希望能夠用一種存儲格式同時解決在線和離線兩種場景,那我們知道實際上在線的優(yōu)化方向主要是低延遲,離線更多是高吞吐,數(shù)據(jù)量要大,所以說這兩者的優(yōu)化方向很難統(tǒng)一起來。但當(dāng)時飛天的工程師花了大量的精力去研究,怎么樣能夠把這兩者統(tǒng)一起來,這應(yīng)該是研究性的命題了,設(shè)想了很多場景,怎樣通過算法或統(tǒng)一架構(gòu)的手段讓兩者的代碼復(fù)用更高效,但是從工程的角度來講,這件事情做的太早了。在產(chǎn)品發(fā)展的初期,可能更多應(yīng)該考慮實際的用戶需求,同時還需要考慮團(tuán)隊當(dāng)時具有的工程能力。大概做了三、四個月,很快做了決定,把這個團(tuán)隊一拆為二,一部分人做離線,一部分人做在線。到今天為止,這兩個團(tuán)隊已經(jīng)是完全兩個方向?,F(xiàn)在又開始有一種思路,把兩個團(tuán)隊合起來,原因是許多時候離線的場景需要去讀在線的數(shù)據(jù),同時還有很多產(chǎn)品在線的數(shù)據(jù),希望能夠沉淀到離線,做離線分析,所以說他們會有些交叉。但現(xiàn)在再來做這種統(tǒng)一,跟最早想做的統(tǒng)一完全不是一種心態(tài)了,現(xiàn)在這種統(tǒng)一更加實際,這是一個例子。
另外,飛天的很多核心模塊,比如它的存儲模塊叫盤古,計算模塊叫伏羲,網(wǎng)絡(luò)通信模塊叫夸父,可能多的已經(jīng)經(jīng)過了三版左右的重構(gòu)。在剛剛開始設(shè)計的時候,我們沒有想到分布式的發(fā)展速度這么快,機(jī)群的規(guī)模增長這么多。記得我2010年加入阿里巴巴的時候,當(dāng)時集群最大能力可以跑30臺機(jī)器,無論存儲、計算都運(yùn)行的很好。但設(shè)計者并沒有考慮到,如果30臺變成3000臺或30000臺會發(fā)生什么,大概去年我們突破了單集群5000臺的限制,相比之前有一百倍提升。當(dāng)?shù)搅?000臺的規(guī)模,就發(fā)現(xiàn)很多之前的設(shè)計這些假設(shè)已經(jīng)完全不工作,被迫將一些核心技術(shù)模塊重寫??赡芙裉煸趩渭?000臺規(guī)模運(yùn)行的很好,誰也說不準(zhǔn)明年到了20000臺的時候,是不是還OK。所以我覺得核心系統(tǒng)一定不斷的在迭代,不斷在重寫?,F(xiàn)在很多飛天的創(chuàng)始人已經(jīng)離開阿里云了,今天飛天的代碼可能跟他們之前寫的代碼相比已經(jīng)面目全非了,這應(yīng)該是大規(guī)模分布式系統(tǒng)演變的必然趨勢,不斷重構(gòu),不斷的代碼重寫,來適應(yīng)更多的應(yīng)用場景和更大規(guī)模的挑戰(zhàn)。
InfoQ:阿里云提供很多不同類型的服務(wù),包括服務(wù)于內(nèi)部的業(yè)務(wù)和公有的服務(wù),那如何做好系統(tǒng)平臺和應(yīng)用模塊的測試,新業(yè)務(wù)不影響老業(yè)務(wù),同時讓新業(yè)務(wù)快速的上線?
湯子楠:分布式測試有個很大的挑戰(zhàn),你很難去模擬真實的情況。比如我們在單集群5000臺上線的時候,要做壓力測試,看一看當(dāng)這個集群的資源利用率很高的時候,系統(tǒng)是不是工作正常,但這勢必涉及到能夠在把5000臺機(jī)器跑滿的測試場景。這樣的場景很難設(shè)計且不談,測試團(tuán)隊也很難有機(jī)會奢侈的找到5000臺機(jī)器去真實的跑測試。所以要解決這個問題,大概是兩條路:
首先,在小一到兩個數(shù)量級的集群模擬更大的集群規(guī)模行為,是不是可以在500臺機(jī)器上模擬5000臺機(jī)器的行為。
第二,要求測試工程非??焖佟1热?,我們在5000臺規(guī)模的集群交付的時候,讓集群不歇,人歇。機(jī)器到位的時候,負(fù)責(zé)運(yùn)維和采購?fù)?,先給了測試的同事三周時間,他們可以在集群上把測試跑完。三周以后,集群正式上線。在這三周內(nèi),測試的同事要把所有要做的測試以及上線所做的驗收全部做完。在這個過程中,如果發(fā)生了問題,開發(fā)團(tuán)隊要去解決,當(dāng)時的團(tuán)隊采取三班倒的方式,有些人白天跑完了測試,就可以脫離集群做分析,然后晚上回去休息。另一波晚上上班,把集群晚上的時間利用起來,盡可能最大化集群的使用率來保證開發(fā)和測試團(tuán)隊復(fù)用。
另外,現(xiàn)在我們也在做一些探索,如何在5000臺的分布式集群上,在線上跑一些測試,讓測試任務(wù)跟生產(chǎn)任務(wù)同時跑在一個集群上,并且通過各種各樣的技術(shù)來保證測試的任務(wù)不會影響到生產(chǎn),在去年的幾次發(fā)布中做了嘗試,效果蠻好。我覺得這種方式未來可能也是一個思路,當(dāng)找不到這么大規(guī)模的測試集群的時候,干脆就在現(xiàn)場跑一跑。
InfoQ:我記得以前你曾經(jīng)分享過ODPS上的準(zhǔn)時計算,你怎么看像Spark這樣的內(nèi)存計算框架。大家現(xiàn)在談Spark,談內(nèi)存計算談比較多,認(rèn)為它是一個未來的一個方向,你怎么看?
湯子楠:我同意Spark是一個未來的方向,Hadoop這個技術(shù)發(fā)展非常迅速,現(xiàn)在的應(yīng)用場景也非常多,這兩年的Hadoop China Summit大會上看到越來越多的企業(yè),甚至包括一些傳統(tǒng)行業(yè)都開始嘗試在使用Hadoop。這也說明,Map Reduce的這種離線的數(shù)據(jù)處理技術(shù)受歡迎的程度。但是,無論是軟件技術(shù),還是硬件技術(shù),包括我們的業(yè)務(wù)場景都在往前走,在這個過程中發(fā)現(xiàn)Hadoop有一些不足,以及可改進(jìn)的地方:
第一,硬件成本大幅下降,我記得10年的時候,我們的機(jī)器的主流內(nèi)存配置大概是24G,現(xiàn)在大概漲到了128G,翻了5倍。有更低廉的內(nèi)存可以使用的時候,是不是很多計算可以把它從硬盤把它遷移到內(nèi)存當(dāng)中去,因而獲取到性能的收益是非??陀^的。
第二,從業(yè)務(wù)場景來講,很多的業(yè)務(wù)場景已經(jīng)不接受Hadoop這種分鐘級或小時級的離線統(tǒng)計,他希望能夠?qū)崟r或準(zhǔn)實時的看到統(tǒng)計結(jié)果。我舉幾個簡單的例子,比如淘寶的數(shù)倉每天擔(dān)負(fù)著對淘寶交易記錄做離線統(tǒng)計的職責(zé),統(tǒng)計出來的BI報表,第二天會供高管或運(yùn)營人員來做運(yùn)營決策。但像雙十一當(dāng)天,一整天運(yùn)營的同學(xué)都在密集的工作,他們需要實時的了解交易情況,包括在各個類目的分布。大家都有印象,雙十一當(dāng)天天貓的微博上會放出照片,一個很大的屏幕上面數(shù)字不斷的往上漲,這就是純粹的內(nèi)存計算。所有前端數(shù)據(jù)來了之后,在內(nèi)存中做匯總后直接輸出結(jié)果,這種計算相比Map Reduce延遲大大縮短了,類似這樣的業(yè)務(wù)場景會越來越多。這就逼迫我們?nèi)ニ伎迹鯓涌s短數(shù)據(jù)采集、數(shù)據(jù)運(yùn)行的時間,Spark從出現(xiàn)到今天發(fā)展速度非???,在阿里巴巴集團(tuán)內(nèi)部也開始有團(tuán)隊去探索Spark可以怎么用,如何基于內(nèi)存做計算,或者把內(nèi)存當(dāng)成文件存儲架構(gòu),ODPS這個準(zhǔn)時計算已經(jīng)有一點(diǎn)點(diǎn)這樣的味道,但基本上沒有完全脫離Hadoop架構(gòu)。
我們現(xiàn)在有一個團(tuán)隊專門在做內(nèi)存計算平臺的調(diào)研,希望未來完全脫離Hadoop架構(gòu),單獨(dú)設(shè)計一套純粹基于內(nèi)存和網(wǎng)絡(luò)的計算模式,這樣的話,可能把這個海量數(shù)據(jù)分析的時間下降一到兩個數(shù)量級。
InfoQ:阿里會自己來做一套,還是直接用Spark?
湯子楠:我們自己在做,同時我知道內(nèi)部也有團(tuán)隊在Spark上做技術(shù)調(diào)研和探索,因為自己研發(fā)的時間非常漫長,有時很多的業(yè)務(wù)團(tuán)隊在技術(shù)選型的時候,會考慮業(yè)務(wù)要求的時間點(diǎn),內(nèi)部有合適的技術(shù)用當(dāng)然更好,如果沒有,開源如果能滿足要求,也是OK的。今天在阿里巴巴集團(tuán)內(nèi)部有ODPS這樣的自己開發(fā)的離線處理的平臺,同時也有一個很大的Hadoop集群支持了各種各樣的集團(tuán)離線處理業(yè)務(wù)。在一段時間里面可能是百花齊放的狀態(tài)。
InfoQ:我們知道阿里現(xiàn)在有一個天池的項目,就是一個開放數(shù)據(jù)的接口,第三方可以通過這個接口訪問阿里內(nèi)部的一些數(shù)據(jù),做一些算法或者推薦系統(tǒng)。從國外來看,像Twitter、Netflix都有類似的針對第三方的接口?,F(xiàn)在問題是,把數(shù)據(jù)開放給第三方,數(shù)據(jù)的審計怎么來做?對于一個普通用戶來講,我關(guān)心在淘寶、支付寶上的數(shù)據(jù)是不是會被拿去他用,就是用戶隱私的問題。第二,從生態(tài)系統(tǒng)上來講,如何吸引第三方把他的數(shù)據(jù)上傳到這個平臺上去,讓天池的數(shù)據(jù)量更大,阿里巴巴也能夠獲益。
湯子楠:天池項目是技術(shù)發(fā)展部啟動的一個創(chuàng)新項目,最早的想法實際蠻簡單,希望集團(tuán)內(nèi)部的數(shù)據(jù)有更多的人來去挖掘價值,可以應(yīng)用于商業(yè)、科研很多方面,在科研、經(jīng)濟(jì)學(xué)、心理學(xué)、數(shù)據(jù)挖掘領(lǐng)域可以有一些樣本數(shù)據(jù)做一些測試。因此,最開始設(shè)計天池的時候,希望面向高校做數(shù)據(jù)方面的合作,實際上天池基于ODPS搭建,即底層是ODPS的計算平臺, ODPS上提供存儲計算能力,并開放API和客戶端工具。在建設(shè)天池過程中有一個插曲,天貓想在內(nèi)部搞一次算法比賽,起源是因為天貓對于線上的一些數(shù)據(jù)預(yù)測算法不是特別滿意,所以想看看有沒有可以優(yōu)化的空間。后來他們找到天池團(tuán)隊,在天池平臺上做了這個比賽。天貓算法大賽動員了大概阿里巴巴內(nèi)部幾百名算法工程師,組了一百多個隊PK。他們拿到的是天貓內(nèi)部的真實數(shù)據(jù),預(yù)測的是線上真實場景,比賽持續(xù)了大概兩個月,最后的結(jié)果蠻鼓舞人心的。我們發(fā)現(xiàn),排名前幾名算法的效果,可能比天貓線上算法的效果還要更好。我們看到,當(dāng)我們把數(shù)據(jù)開放出去,吸引那些懂?dāng)?shù)據(jù),并樂意分析數(shù)據(jù)的人去對數(shù)據(jù)加工,就可以創(chuàng)造出很大很大的價值。因此,我們希望把這種模式推廣出去,現(xiàn)在天池平臺就是在做兩件事情:
一方面,他們跟全國各地的高校合作,通過科研手段把阿里的數(shù)據(jù)利用起來。如果哪一天能夠有中國的科學(xué)家通過分析阿里巴巴的數(shù)據(jù)得一次諾貝爾經(jīng)濟(jì)學(xué)獎,那算是阿里巴巴為中國社會做出很大的貢獻(xiàn),我們相信以阿里巴巴數(shù)據(jù)的含金量,這是完全可能的一件事,因為他解釋了很多在社會行為和商業(yè)購買上的規(guī)律。
另一方面,由于天貓算法大賽非常成功,技術(shù)發(fā)展部希望面向全國所有高校來搞一次大數(shù)據(jù)的競賽,現(xiàn)在已經(jīng)進(jìn)入到了預(yù)熱的階段,在4月到7月會正式開始。
回到剛才你談到的,數(shù)據(jù)開放面臨兩個非常大的挑戰(zhàn),第一個是數(shù)據(jù)的隱私和安全問題,這是全世界所有做數(shù)據(jù)生意的公司都躲不過的一道砍。國外很多做大數(shù)據(jù)的公司都非常重視這件事,包括Google,F(xiàn)acebook。在國內(nèi),隨著各個公司社會責(zé)任感的提高,以及消費(fèi)者的隱私意識慢慢覺醒,國內(nèi)的公司也開始慢慢的在重視這件事情。對于我們而言,數(shù)據(jù)隱私和安全通過以下兩個方面保證:
第一,技術(shù)層面。我們要最大化的保證用戶數(shù)據(jù)在平臺上是安全的,所有的數(shù)據(jù)存儲是加密的,數(shù)據(jù)流通過程中是加密的,數(shù)據(jù)不能夠越權(quán)訪問,數(shù)據(jù)是不能丟失的,不能夠泄露,不能篡改,也不能越權(quán)訪問。所有的這些都可以通過技術(shù)手段解決,這是一個很難的問題,如何在大數(shù)據(jù)的場景下解決安全問題,但這是可解的。ODPS在這方面也做了相當(dāng)多的探索,目前ODPS上已經(jīng)在跑支付寶的業(yè)務(wù),支付寶是按照銀行的數(shù)據(jù)保密標(biāo)準(zhǔn)要求底層技術(shù)架構(gòu),這說明ODPS的安全水平已經(jīng)達(dá)到了一個高度。
第二,數(shù)據(jù)流轉(zhuǎn)的商業(yè)模式,怎樣保證數(shù)據(jù)既能夠發(fā)揮它的價值,又不至于泄露,又不至于讓用戶覺得自己的隱私受到危害,這是相當(dāng)難的問題。這也就是為什么在2012年年底,阿里巴巴成立了大數(shù)據(jù)部門。但我們在探索數(shù)據(jù)交換業(yè)務(wù)是非常謹(jǐn)慎的,沒有像Twitter、Netflix做的直接,他們通過簽屬授權(quán)協(xié)議后就把數(shù)據(jù)開放出去,讓第三方公司在上面直接做分析和挖掘。我們希望找到一條合適的道路,跟第三方數(shù)據(jù)公司和第三方數(shù)據(jù)分析公司一起把數(shù)據(jù)利用起來,可能這個模式比較困難,我相信未來可能有更好的有商業(yè)價值的模式。
至于怎樣讓其他人把數(shù)據(jù)搬到阿里巴巴的平臺上來,這也是蠻有意思的一件事,阿里巴巴在談大數(shù)據(jù)的時候,經(jīng)常把自己定義為數(shù)據(jù)交換平臺,我們更希望的不是把我們的數(shù)據(jù)分散出去來掙錢,而是希望把我們的數(shù)據(jù)拿給需要數(shù)據(jù)的人去使用,并且把有數(shù)據(jù)的人也吸引到這個平臺上,讓數(shù)據(jù)變成一件流通的產(chǎn)品,方便更多的人。今天在做這件事情的時候,一方面我們跟懂?dāng)?shù)據(jù)分析的人去談,讓他們基于阿里巴巴的平臺上構(gòu)建更豐富的數(shù)據(jù)分析應(yīng)用,提供更多的數(shù)據(jù)使用場景,這樣可以吸引有數(shù)據(jù)的人來。另一方面,我們也在設(shè)計一些新的業(yè)務(wù)模式,讓第三方公司在滿足安全的前提下,讓他的數(shù)據(jù)在阿里巴巴的平臺上發(fā)揮價值。
這里舉一個例子,大概在去年,阿里巴巴的廣告部門做了一個叫做DMP的新業(yè)務(wù),這個業(yè)務(wù)在美國已經(jīng)有很多的公司在探索,比如像BlueKai這樣的公司,在國內(nèi)還處在剛起步的階段。DMP主要的使用場景是這樣的,今天的互聯(lián)網(wǎng)廣告大部分都是數(shù)據(jù)驅(qū)動,每當(dāng)來一個客戶的時候,通過實時競價的模式把用戶的屬性告訴廣告主,估計用戶的年齡,性別,來自什么地方,有什么喜好,廣告主決定是否把廣告投給這個客戶,這種時時競價的廣告模式的根本是基于用戶屬性的大量原始數(shù)據(jù),很多人沒有這些數(shù)據(jù),但是他在做廣告的生意,也有很多人有數(shù)據(jù),但并不擅長做廣告,DMP構(gòu)建平臺,讓那些有數(shù)據(jù)但不會做廣告的人,把數(shù)據(jù)拿給想做廣告的人使用,當(dāng)數(shù)據(jù)的流轉(zhuǎn)產(chǎn)生了價值后,廣告主會對結(jié)果付錢,由數(shù)據(jù)的所有者和廣告方共同分享數(shù)據(jù)的價值。
我們正在跟國內(nèi)的第三方數(shù)據(jù)持有者談合作,現(xiàn)在已經(jīng)應(yīng)用到淘寶直通車廣告平臺里,這是商業(yè)模式上的探索,通過這種模式可以讓更多的人愿意把他的數(shù)據(jù)搬到這個平臺上面來。
聯(lián)系客服