360docimg_0_
亞馬遜的云BI服務(wù)QuickSight,旨在讓他們的企業(yè)用戶更加便捷、快速低成本的分析數(shù)據(jù)。在這款直接面向企業(yè)商業(yè)決策人員的工具發(fā)布之前,AWS上已經(jīng)擁有了一整套大數(shù)據(jù)的解決方案——開發(fā)了數(shù)據(jù)從采集、存儲(chǔ)到分析的全部工具,不僅有離線計(jì)算方案,也有流數(shù)據(jù)處理方案。
其大數(shù)據(jù)服務(wù)的整體架構(gòu)如下:
數(shù)據(jù)采集(Collect)方面:AWS Direct Connect / AWS Import/Export / Amzon Kinesis
數(shù)據(jù)存儲(chǔ)(Store)方面:Amazon S3 / Amazon RDS/Aurora / Amazon Glacier / Amazon DynamoDB / Amazon CloudSearch / Amazon Elasticsearch
數(shù)據(jù)分析(Analyze)方面:Amazon EMR / Amazon EC2 / Amazon Redshift / Amazon Machine / Amazon kinesis Analytics
這些服務(wù)能夠解決企業(yè)大數(shù)據(jù)分析中的大部分問題:
Amazon RDS 解決管理數(shù)據(jù)庫(kù)的困難與苦楚;
Amazon DynamoDB 解決SQL類數(shù)據(jù)庫(kù)在大數(shù)據(jù)量下性能的問題;
Amazon EMR 解決Hadoop集群部署和管理的難題;
Amazon Redshif 大幅降低了數(shù)據(jù)倉(cāng)庫(kù)部署和使用的復(fù)雜度、減少了花費(fèi)而且提升了效率;
Amazon Aurora 讓用戶可以低成本的享受擁有商用數(shù)據(jù)速度和可用性的數(shù)據(jù)庫(kù)產(chǎn)品;
Amazon Kinesis 讓實(shí)時(shí)數(shù)據(jù)的捕捉與分析變得不再困難。
應(yīng)該說,亞馬遜的AWS的大數(shù)據(jù)服務(wù)已經(jīng)是非常的齊全,生態(tài)也很完善。那么這個(gè)時(shí)候推出Amazon QuickSight,是出于什么樣的目的呢?
數(shù)據(jù)的采集和生產(chǎn)最終是為了決策
提到數(shù)據(jù)分析和可視化的BI工具,很多朋友可能會(huì)想到對(duì)用戶非常友好的Tableau和QlikView。這兩款產(chǎn)品直接面向決策段用戶,讓不懂底層數(shù)據(jù)邏輯,沒有任何代碼基礎(chǔ)的用戶,可以高效的用大數(shù)據(jù)分析業(yè)務(wù),做出商業(yè)決策。它們解決了大數(shù)據(jù)的“最后一公里”問題——結(jié)果數(shù)據(jù)的整理、可視化和Insight共享。
大家可以再回頭去看看剛才我列舉的AWS的大數(shù)據(jù)服務(wù),就會(huì)發(fā)現(xiàn),現(xiàn)有的所有服務(wù)全部在數(shù)據(jù)采集、存儲(chǔ)和計(jì)算端——均為工程師們處理海量數(shù)據(jù)提供服務(wù)的。然而這些都讓數(shù)據(jù)變成成本,我的數(shù)據(jù)越多,我需要花費(fèi)的錢越多。那么如何讓數(shù)據(jù)產(chǎn)生價(jià)值呢?數(shù)據(jù)產(chǎn)生自業(yè)務(wù),自然也得回歸業(yè)務(wù)、驅(qū)動(dòng)業(yè)務(wù)創(chuàng)造價(jià)值,從成本轉(zhuǎn)變?yōu)樯a(chǎn)資料,這才是產(chǎn)生數(shù)據(jù)、挖掘數(shù)據(jù)的唯一目標(biāo)。
之前很多企業(yè)內(nèi)部數(shù)據(jù)的使用方式一般有這幾種:
1.產(chǎn)品/運(yùn)營(yíng)/市場(chǎng)將需求提給數(shù)據(jù)分析師/數(shù)據(jù)分析工程師/數(shù)據(jù)挖掘工程師/ETL工程師——統(tǒng)稱人肉SQL手,由這些熟練操作數(shù)據(jù)庫(kù)的人員完成數(shù)據(jù)的提取工作,之后結(jié)果數(shù)據(jù)反饋回業(yè)務(wù)方,業(yè)務(wù)方再對(duì)數(shù)據(jù)進(jìn)行整理、制表、繪圖并分析產(chǎn)生Bussiness Insight。
2.產(chǎn)品/運(yùn)營(yíng)/市場(chǎng)將需求提給公司的數(shù)據(jù)平臺(tái)/數(shù)據(jù)中心,數(shù)據(jù)平臺(tái)/數(shù)據(jù)中心的接口人/數(shù)據(jù)產(chǎn)品經(jīng)理將需求統(tǒng)一整理和拆分,制作成固定的報(bào)表,定期發(fā)送郵件或者展示到前端中,供大家日常查詢和使用。臨時(shí)需求?請(qǐng)抽象成報(bào)表需求,否則請(qǐng)排期,謝謝合作!
3.產(chǎn)品/運(yùn)營(yíng)/市場(chǎng)將需求自己消化,實(shí)踐人人都是數(shù)據(jù)分析師的偉大理念。人人都有Hive或者M(jìn)ySQL權(quán)限,人人都是SQL小能手,自力更生,豐衣足食。
這些方法,都可以生產(chǎn)數(shù)據(jù)進(jìn)行決策,但是各有利弊:
第一種方式會(huì)產(chǎn)生大量的冗余需求,降低決策效率。實(shí)際工作情況中,特別是業(yè)務(wù)比較復(fù)雜、產(chǎn)品線較多的公司,因?yàn)闃I(yè)務(wù)人員對(duì)數(shù)據(jù)不清楚,SQL工程師對(duì)業(yè)務(wù)不了解,雙方的信息差會(huì)讓整體的數(shù)據(jù)提取效率變得非常低。在這種情況下,提需求的成本非常低——轉(zhuǎn)腦袋的速度可比跑SQL的速度要快上許多。結(jié)果就是需求冗余,產(chǎn)生Insight的周期通常以天,周甚至月來計(jì)算。
第二種方式在產(chǎn)品初期有很好的效果,但是到產(chǎn)品中后期進(jìn)入精細(xì)化運(yùn)營(yíng)的時(shí)候,效率就會(huì)急速下降。后期,大量的報(bào)表冗余,無(wú)人使用,卻每天消耗服務(wù)器資源。在數(shù)據(jù)平臺(tái)/數(shù)據(jù)中心的組織架構(gòu)下,臨時(shí)需求的解決流程長(zhǎng)、速度慢,導(dǎo)致決策效率低下。業(yè)務(wù)方出于無(wú)奈,只能通過不斷建報(bào)表的方式,滿足自己的臨時(shí)需求。
第三種方式非常適合創(chuàng)業(yè)型公司,但是不適合高速成長(zhǎng)和大型公司。有產(chǎn)品設(shè)計(jì)能力同時(shí)有商業(yè)Sence,不僅能做日常決策,還能自己從數(shù)據(jù)庫(kù)直接提取數(shù)據(jù)來輔助自己做決策——這種人才請(qǐng)聯(lián)系我!這種人很難規(guī)?;呐囵B(yǎng)和招聘,而且在知識(shí)繼承上非常的低效。導(dǎo)致公司在快速成長(zhǎng)和精細(xì)化運(yùn)營(yíng)階段,因?yàn)樾枰鰶Q策的地方過多,而產(chǎn)生大量的精英人力浪費(fèi),最終拖累整個(gè)公司的決策效率和發(fā)展速度。
于是QuickSight應(yīng)運(yùn)而生。
Quicksight是整個(gè)AWS生態(tài)中離商業(yè)決策最近的服務(wù),直接解決大數(shù)據(jù)應(yīng)用的“最后一公里”問題。其在整個(gè)生態(tài)中的定位如下:
它不需要用戶有代碼能力,自動(dòng)識(shí)別和整合各種不同的數(shù)據(jù)源,提供實(shí)時(shí)交互式的數(shù)據(jù)查詢方式,并且自動(dòng)進(jìn)行數(shù)據(jù)可視化。最大程度降低了商業(yè)決策端用戶使用大數(shù)據(jù)的成本,也有望解決業(yè)務(wù)方和數(shù)據(jù)中心方一直存在矛盾。
作為一項(xiàng)服務(wù),QuickSight并不是傳統(tǒng)的產(chǎn)品形態(tài)。它將數(shù)據(jù)作為一項(xiàng)服務(wù),交付給使用方,使用方可以按需使用。這與提供整個(gè)解決方案的整合型產(chǎn)品完全不同,成本低、使用方便,而這也是云服務(wù)的特點(diǎn)和優(yōu)勢(shì)。
整個(gè)QuickSight服務(wù)分為QuickSight API和QuickSight UI兩個(gè)部分——前者負(fù)責(zé)數(shù)據(jù)的連接、準(zhǔn)備、轉(zhuǎn)化和計(jì)算的工作,后者負(fù)責(zé)用戶端的數(shù)據(jù)可視化與決策分享。與傳統(tǒng)BI的內(nèi)部循環(huán)不同,QuickSight的數(shù)據(jù)連接、準(zhǔn)備、轉(zhuǎn)化和計(jì)算的服務(wù)不僅可以連接AWS體系內(nèi)的數(shù)據(jù)系統(tǒng),也可以通過JDBC、Oauth等方式連接其他的數(shù)據(jù)源。在數(shù)據(jù)輸出方面,除了QuickSight自帶的UI進(jìn)行可視化與分析之外,還可以連接Tableau、DOMO、TIBC與QlickView等數(shù)據(jù)分析和可視化產(chǎn)品,非常靈活。
官方給出的整體框架如下:
這些API中,Connectors,Data Prep和SPICE是核心。Connectors能夠自動(dòng)識(shí)別不同數(shù)據(jù)源并進(jìn)行連接;Data Prep能夠快速的將不同數(shù)據(jù)源的數(shù)據(jù)高效的準(zhǔn)備好;SPICE則是一個(gè)基于內(nèi)存的數(shù)據(jù)查詢引擎,提供實(shí)時(shí)交互式的快速查詢能力。
亞馬遜官方對(duì)其的總結(jié)和描述如下:QuickSight是一個(gè)高效的、易用的、低成本的和基于云的商業(yè)決策服務(wù)。它可以讓毫無(wú)代碼基礎(chǔ)的用戶方便的進(jìn)行可視化和高效的Ad-hoc查詢功能進(jìn)行數(shù)據(jù)分析,從海量數(shù)據(jù)快速獲取商業(yè)決策。QuickSigh完美整合了AWS的數(shù)據(jù)存儲(chǔ)系統(tǒng)、單獨(dú)的數(shù)據(jù)文件和第三方數(shù)據(jù)源,同時(shí)能夠在海量數(shù)據(jù),高并發(fā)查詢的情況下快速的得出分析結(jié)果。
下面我將會(huì)對(duì)QuickSight API和QuickSight UI的體驗(yàn)進(jìn)行詳細(xì)解讀。
產(chǎn)品整體分為三個(gè)部分:
數(shù)據(jù)源整合工具Connector和Data Prep
基于內(nèi)存的快速分析引擎SPICE
可視化工具QuickSight UI
數(shù)據(jù)整合方面:Connector和Data Prep
Connector毫無(wú)懸念的提供了與自己云服務(wù)中的數(shù)據(jù)無(wú)縫對(duì)接的功能。同時(shí)提供直接上傳文件以及連接第三方數(shù)據(jù)應(yīng)用方的數(shù)據(jù),比如Salesforce、Google Analytics等。不過從之前體驗(yàn)PowerBI的第三方的數(shù)據(jù)連接功能來看,這類工具比較雞肋——一個(gè)是連接很容易出錯(cuò),其次是第三方應(yīng)用的數(shù)據(jù)只有部分可以接入,第三數(shù)據(jù)更新也是個(gè)大問題。
數(shù)據(jù)分析中難度最大、最耗費(fèi)資源的地方在于數(shù)據(jù)源的整合、數(shù)據(jù)的清洗與更新以及元數(shù)據(jù)管理,而QuickSIght使用自有體系內(nèi)的數(shù)據(jù)可控性高,管理成本低,因此,如果沒有使用亞馬遜的服務(wù),它后面提供的那些“炫酷”的能力,也許就只是鏡中水月了。
Data Prep提供數(shù)據(jù)預(yù)處理能力:
提供數(shù)據(jù)在內(nèi)聯(lián)變化(In-line transformation)和類型強(qiáng)制轉(zhuǎn)換(type coercions)之后的數(shù)據(jù)預(yù)覽;
提供對(duì)字符串、日期、數(shù)字和運(yùn)算邏輯的處理能力;
數(shù)據(jù)處理的每一步規(guī)則都可以保存為模版,以便重復(fù)操作;
支持Join、Filters、Hierarchies以及Attribute/Measures的操作;
直接對(duì)接S3文件。
這里的Data Prep,我理解上類似于一個(gè)ETL的過程,不過這個(gè)過程被模塊化、可視化,讓我想起了Tableau的數(shù)據(jù)連接過程。
數(shù)據(jù)分析方面:SPICE快速分析引擎
SPICE全稱是Supre-fast, Parallel, In-memmory optimized, Calculation Engine ——超快的、并行的、基于內(nèi)存優(yōu)化的計(jì)算引擎。
2-4倍壓縮列數(shù)據(jù);
Compiled queries with machine code generation(不會(huì)翻譯。。。);
Rich calculations(不會(huì)翻譯。。。);
類SQL查詢語(yǔ)法;
查詢速度非???;
全部自有產(chǎn)權(quán),不需要擔(dān)心任何軟件或者硬件的授權(quán)問題(只能編輯喝管理,并不開源)。
可視化工具QuickSight UI
QuickSight UI提供了一個(gè)類Tableau的可視化界面,從Demo中看,對(duì)用戶非常友好。為了讓用戶能快速對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化,它提供了一個(gè)AutoGraph的自動(dòng)繪圖功能。
AutoGraph能夠自動(dòng)識(shí)別數(shù)據(jù)類型——這里面Connector和Data Prep的功勞可能更大一些。借助SPICE的快速分析能力,它能快速的根據(jù)推薦的圖表把結(jié)果數(shù)據(jù)算完,然后根據(jù)數(shù)據(jù)類型進(jìn)行展示。用戶還可以根據(jù)計(jì)算結(jié)果,快速的切換圖表類型——從柱狀圖切到折線圖等。
筆者沒有體驗(yàn)過QuickSight UI的AutoGraph功能,但是接觸過Tableau和Power BI的Suggestion功能。目前的產(chǎn)品,在簡(jiǎn)單的二維數(shù)據(jù)戰(zhàn)線上表現(xiàn)不錯(cuò),但是一旦維度變多,推薦出來的圖表還是比較奇怪。如果繪圖速度不是特別的快,還不如自己直接做。
總體來看,AutoGraph是一個(gè)把QuickSight的數(shù)據(jù)源處理和分析引擎進(jìn)行了再包裝的一個(gè)可視化產(chǎn)品,我覺得這個(gè)產(chǎn)品能夠讓看不見的數(shù)據(jù)處理部分讓用戶可以直觀的感受到,是一個(gè)比較不錯(cuò)的特點(diǎn)。
為了迎合移動(dòng)辦公的趨勢(shì),QuickSight提供了iOS、Android雙平臺(tái)的Native應(yīng)用。同其他的閹割版移動(dòng)端不同,亞馬遜宣稱移動(dòng)端和PC端擁有一樣的體驗(yàn)(你想知道閹割版的話,可以去試試GA和Tableau的移動(dòng)端)。
在團(tuán)隊(duì)協(xié)作方面,QuickSight提供了一個(gè)可編輯的Dashboard功能,允許用戶直接將分析結(jié)果、截圖,甚至是整個(gè)分析邏輯分享給同事,讓同事不僅能夠看到靜態(tài)的保鏢,還能看到動(dòng)態(tài)的數(shù)據(jù)視圖。
End.
作者:劉洋(中國(guó)統(tǒng)計(jì)網(wǎng)特邀認(rèn)證作者)
本文為中國(guó)統(tǒng)計(jì)網(wǎng)原創(chuàng)文章,需要轉(zhuǎn)載請(qǐng)聯(lián)系中國(guó)統(tǒng)計(jì)網(wǎng)(小編微信:itongjilove),轉(zhuǎn)載時(shí)請(qǐng)注明作者及出處,并保留本文鏈接。
聯(lián)系客服