這篇文章講了數(shù)據(jù)可視化的來龍去脈,讀來很有意思,主要包括:
1、為什么要可視化:主要講了可視化對于決策的輔助作用,也提到了可視化的可能的誤導(dǎo)
2、什么是可視化:主要講了可視化發(fā)展歷程,從圖表萌芽、物理測量、圖形符號、數(shù)據(jù)圖形、多維數(shù)據(jù)、交互可視化再到可視分析學(xué),讓你對可視化的技術(shù)演變有了直觀的認識
3、怎么做數(shù)據(jù)可視化:講了可視化流程,從獲取并清洗數(shù)據(jù)、理解數(shù)據(jù)含義&明確目標(biāo)、選擇合適的展現(xiàn)形式再到可視化Check List
推薦你讀一讀!
John Snow(不是G.O.T.里那個“私生子”)大概永遠不會想到,自己在排查霍亂傳播途徑時,在地圖上標(biāo)記死于霍亂病人的“霍亂地圖”居然會被后人評為歷史上十佳數(shù)據(jù)可視化的案例,并且成為了醫(yī)藥地理學(xué)和傳染病學(xué)中一項基本的研究方法。約翰·斯諾(John Snow,1813年3月15日-1858年6月16日),英國內(nèi)科醫(yī)生,曾經(jīng)當(dāng)過維多利亞女王的私人醫(yī)師,因在1854年寬街霍亂爆發(fā)事件研究中作出重大貢獻,被認為是麻醉醫(yī)學(xué)和公共衛(wèi)生醫(yī)學(xué)的開拓者。
在斯諾生活的年代,對霍亂的起因的主流意見是空氣污染論(認為霍亂像黑死病一樣通過空氣傳播)。另一方意見是未被廣泛接受病菌學(xué)說。通過深入研究,在與當(dāng)?shù)鼐用竦臏贤ㄖ屑由虾嗬烟睾5碌膮f(xié)助,斯諾判斷出寬街的公共水泵是污染源,斯諾隨后使用點示圖去解釋霍亂案例爆發(fā)點是以水泵為中心。通過連接霍亂事件與地理信息的關(guān)聯(lián),創(chuàng)制了著名的 “霍亂地圖”。
他將該地區(qū)的每一個水泵,以及四周的水井都標(biāo)注到圖中。最后他發(fā)現(xiàn)最多的霍亂患者圍繞的水泵位于寬街。
新冠疫情肆虐期間,大家每天查看的疫情地圖,都得感謝祖師爺斯諾的貢獻。
回到本文的主題,關(guān)于數(shù)據(jù)可視化,數(shù)據(jù)玩家將按經(jīng)典的Why-What-How邏輯為大家逐步展開。
——Necessity for data visualization
先來舉個栗子,大家可以嘗試找出下圖中的“7”:
看累了?試試下面這張圖呢?
是不是容易太多了,這就是視覺的力量。
研究表明,人眼是一個高帶寬大量視覺信號并行GPU,帶寬在2.339G/s,相當(dāng)于一個兩萬兆網(wǎng)卡,具有超強的模式識別能力,且對可視符號的處理速度比數(shù)字或者文本快多個數(shù)量級,在大數(shù)據(jù)時代,數(shù)據(jù)可視化是人們洞察數(shù)據(jù)內(nèi)涵、理解數(shù)據(jù)蘊藏價值的有力工具。
因此,可視化常常被用來輔助決策,如上圖,中間的一張密密麻麻的客戶表,到底能得出什么有價值的信息指導(dǎo)決策呢?光看一行行一列列的數(shù)據(jù),可能需要很久才能得出一些結(jié)論,但是經(jīng)過可視化,我們可以輕松的以各種形式的可視化快速掌握結(jié)論,從而輔助決策。
這就是:可視分析,即將信息提煉為知識,起到“觀物至知”對作用,便于決策者從復(fù)雜、大量、多維度的數(shù)據(jù)中快速挖掘有效信息。
值得注意的是,并非所有的可視化都可以指導(dǎo)決策,甚至不當(dāng)?shù)目梢暬瘯`導(dǎo)判斷,以致做出錯誤的決策。
· 2004年前后,美國有線通信協(xié)會(NCTA)發(fā)布的報告中,用下圖聲稱美國政府的管制行為導(dǎo)致了企業(yè)投資下降,而在放開管制后,企業(yè)投資就大量增加。
· 乍看之下,管制的時候是左柱,投資只有140億美元,放開管制后,投資有560億美元貌似結(jié)論沒有錯誤。但這張圖有嚴重的誤導(dǎo)與邏輯的紕漏。
· 1996-1999年間三年的數(shù)據(jù)缺失。三年可以發(fā)生很多事情,在缺乏數(shù)據(jù)的情況下,強行將1999年后的投資增長歸結(jié)于去管制,是有邏輯欠缺的。
· 左柱只總結(jié)了3年的總投資,右柱則總結(jié)了4年的總投資,這更是故意誤導(dǎo)觀眾,讓觀眾認為去管制后企業(yè)投資大大增加,而游說政府放開行業(yè)管制。實際上很可能是其他因素造成的快速增長,而不僅僅是去管制。
真相到底是什么?
可以看到,事實上96年放開管制后,隨后的三年里企業(yè)投資并沒有顯著變化,99年以后的爆發(fā)式增長肯定是由于別的原因造成,而非單純的放開管制。
再看一個栗子:
這圖看起來,是不是16年比15年增加了特別多,實際看看坐標(biāo)軸,才從59增加到60,2%不到,把坐標(biāo)軸換一下:
這樣看起來就能體現(xiàn)出2%的增量其實沒多少了。不過,根據(jù)目的的不同,不排除有的場景也可以采用第一種展現(xiàn)方式。再比如前一段時間好多群都在轉(zhuǎn)的下面這張圖,縱坐標(biāo)從1100萬開始,顯得2020年的1200萬簡直快到底了,是不是沒人生孩子了……
我們換成從0開始的縱坐標(biāo)來看看:
這是不是正常多了,雖然也下降得不少,但是整個基數(shù)還是很大的。
不過,如果需要販賣焦慮,用上面那張圖就比較容易達到效果。
——Concept of data Visualization
利用人眼的感知能力對數(shù)據(jù)進行交互的可視表達以增強認知的技術(shù)稱為可視化,它將不可見或難以分析的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號、顏色、紋理等等,以提高數(shù)據(jù)識別和信息傳遞的效率。
我們拿到的原始數(shù)據(jù),可能是半結(jié)構(gòu)化,甚至非結(jié)構(gòu)化的,經(jīng)過數(shù)據(jù)清洗和ETL過程,我們得到規(guī)整的結(jié)構(gòu)化數(shù)據(jù)表,再通過視覺映射,我們得到需要展示的視覺結(jié)構(gòu),即按照什么維度,展示什么指標(biāo),最后,將視覺結(jié)構(gòu)通過圖像轉(zhuǎn)換,轉(zhuǎn)化為最終的可視化圖像,呈現(xiàn)給決策者。
我們可以將數(shù)據(jù)可視化的發(fā)展歷程分為七個歷程。
人類早在公元前6200年就掌握了觀測和繪制的能力,此后也一直通過手工的方式制作可視化作品。可視化萌芽出自地圖和一些簡單的圖表,數(shù)據(jù)也不是測量而來,目的大多是展示一些重要的信息。
公元950年,歐洲人畫出了基于時間變化的折線圖,用于展示太陽,月亮等行星的位置變化趨勢,開始出現(xiàn)如今的數(shù)據(jù)圖表的雛形。
17世紀以后,隨著對物理基本量(時間、距離等)的測量理論和設(shè)備的完善,制圖學(xué)理論也隨著分析幾何、概率論等學(xué)科迅速發(fā)展,17世紀末產(chǎn)生了基于真實測量數(shù)據(jù)的可視化作品。
這幅圖是誰畫的呢?Edmond Halley(1656-1742),埃德蒙·哈雷,是不是挺耳熟,沒錯,就是發(fā)現(xiàn)哈雷彗星的那個哈雷。
圖上繪制了信風(fēng)和季風(fēng)的方向,“一目了然地顯示了這些風(fēng)的所有不同地段和路線;據(jù)此,有可能比任何口頭描述都更容易理解”。[1].
進入18世紀,人類不再滿足于地圖上的幾何信息,隨著統(tǒng)計理論、實驗數(shù)據(jù)分析等學(xué)科的發(fā)展,現(xiàn)在我們所熟悉的函數(shù)圖、抽象圖被廣泛發(fā)明。
此圖來自威廉·普萊費爾(WilliamPlayfair,1759-1823),他是來自蘇格蘭的工程師和政治經(jīng)濟學(xué)家,今天我們使用的折線圖、條形圖、餅圖和面積圖都是他發(fā)明的。圖中,紅線是出口額,黃線是進口額,通過兩條折線可以很明顯的看出,1754年前,出口額小于進口額,之后出口額反超。
19世紀,統(tǒng)計圖、概念圖等迅猛爆發(fā),此時人們已經(jīng)掌握了眾多統(tǒng)計數(shù)據(jù)可視化工具,包括柱狀圖、餅圖、折線圖、時間線、輪廓線等。政府規(guī)劃和運營也越來越多的采用可視化方法,19世紀下半葉,迎來了數(shù)據(jù)可視化的黃金時期。這個時期的數(shù)據(jù)可視化代表作,除了上文中提到的“霍亂地圖”,還有下面這張拿破侖東征流圖。
這張圖的信息量極大,是1969年法國工程師Charles Joseph Minard制作的,描繪了拿破侖1812年率軍攻占莫斯科的行軍圖。
其中,最底層是地圖,深黃色圖形表示行軍規(guī)模,黑色圖形表示撤軍規(guī)模,線條寬度代表了軍隊的人數(shù),可以看出從出發(fā)時開始的42w大軍,行軍規(guī)模逐漸縮減,撤軍規(guī)模逐漸增加,到達莫斯科時只剩1w人。當(dāng)然,線條的走勢也是行軍/撤軍路線。
同時,底部既有橫向的時間軸,也有縱向的刻度標(biāo)識了當(dāng)時的氣溫。
此圖可以直觀的感受到,拿破侖的40萬大軍是如何在長途跋涉和寒冬中消耗殆盡,此次東征也稱為拿破侖由盛轉(zhuǎn)衰的轉(zhuǎn)折點。此外,還有南丁格爾玫瑰圖:
沒錯,就是那位護士弗羅倫斯·南丁格爾(Florence Nightingale),護理學(xué)的奠基人。
她的另一個身份是統(tǒng)計學(xué)家。“南丁格爾玫瑰圖”直觀展示了衛(wèi)生條件對死亡人數(shù)的影響,因而爭取到了更好的醫(yī)療條件。
進入20世紀,數(shù)據(jù)可視化的黃金時期終結(jié),主要原因是隨著數(shù)理統(tǒng)計的誕生,追求數(shù)理統(tǒng)計的數(shù)學(xué)基礎(chǔ)成為數(shù)據(jù)科學(xué)行業(yè)的首要目標(biāo),而圖形和可視化作為其輔助,沒有得到太多重視,多維數(shù)據(jù)可視化是這個時期可視化的重要特點。
隨著計算機的發(fā)明和應(yīng)用,人們開始采用計算機編程完成可視化過程。70年代以后,隨著人機交互界面、圖形顯示設(shè)備的普及,人們獲得了將更復(fù)雜、更高維數(shù)據(jù)的可視化能力。
自80年代末開始,Windows系統(tǒng)的問世使得人們能夠直接與信息交互,也極大的提升了人們對于可視化的熱情。同時,隨著高維數(shù)據(jù)和高性能計算的進一步普及,對于多維、時變、非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)和分析的需求也更加強烈,可交互的可視化產(chǎn)品開始登上歷史舞臺。
進入21世紀,人們并不滿足現(xiàn)有可視化技術(shù)對于數(shù)據(jù)的呈現(xiàn)和表示,開始將可視化和數(shù)據(jù)挖掘、圖形學(xué)結(jié)合起來,以輔助用戶從大尺度、復(fù)雜、矛盾甚至不完整的數(shù)據(jù)中快速挖掘出有用的信息,以便有效做出決策,這門學(xué)科就稱為可視分析學(xué)。
Excel、Python、Matlab和SAS等數(shù)據(jù)分析軟件經(jīng)常自帶數(shù)據(jù)可視化包或工具,科研人員或技術(shù)人員可借此對數(shù)據(jù)進行初步可視化,以繼續(xù)深入分析和挖掘,維度相對簡單,對視覺要求較低,適合技術(shù)人員初步分析或?qū)W者發(fā)表研究論文。下圖是針對16年美國大選選民學(xué)歷的可視化分析,未接受高等教育的白人比例越大(相比4年前),Trump的勝算越大,而這個比例在男性中更為明顯。
由設(shè)計人員根據(jù)清洗過的數(shù)據(jù),充分分析其含義后,利用illustrator、corel draw等平面設(shè)計軟件進行手動加工,同時加入注解信息獲得??勺x性趣味性很強,但相對數(shù)據(jù)準(zhǔn)確度不高,常出現(xiàn)于媒體資訊或者公司行業(yè)報告中,也就是大家經(jīng)常看到的“一圖看懂XXXX”。
可借由HTML5、JS等技術(shù)動態(tài)地、可交互地展示高維數(shù)據(jù),非技術(shù)背景的普通用戶也可以對自己感興趣的數(shù)據(jù)進行選取和下鉆。常由多個網(wǎng)頁構(gòu)成商業(yè)智能(BI)系統(tǒng),但近年來也被媒體廣泛采用展示熱點數(shù)據(jù)。
——How to visualize data
進入“大數(shù)據(jù)時代”后,復(fù)雜、異構(gòu)、大尺度的數(shù)據(jù)中經(jīng)過分析所得的知識和人類所掌握知識的差異是導(dǎo)致新知識發(fā)現(xiàn)的根源,但如此復(fù)雜的數(shù)據(jù)也往往會讓人感到困惑。利用人的強大視覺識別能力和推理分析智能來表達、分析、檢驗這些差異正是“大數(shù)據(jù)時代”數(shù)據(jù)可視化的新思路。這就要求我們在進行數(shù)據(jù)可視化時必須理解數(shù)據(jù)含義、目標(biāo)明確。
巧婦難為無米之炊,第一步當(dāng)然是要獲取結(jié)構(gòu)化的,干凈的數(shù)據(jù),否則:
再漂亮的可視化,沒有準(zhǔn)確的數(shù)據(jù)支撐,也是空中樓閣。不光是可視化,基于數(shù)據(jù)的分析,模型,支撐風(fēng)控、營銷和運營,在缺少數(shù)據(jù)質(zhì)量支撐的前提下幾乎都無從談起。
礙于篇幅,此處不再展開,后續(xù)會針對數(shù)據(jù)質(zhì)量專門撰文。
做可視化,最容易進入的誤區(qū)就是,拿到一堆數(shù)據(jù),還沒有理解數(shù)據(jù)有什么含義,直接就開始套用圖形進行展示,把大部分時間用在美化圖表上,而完全忽略數(shù)據(jù)本身傳達的意義。下面這張圖信息量很大,可以幫助大家評估一個可視化作品是否成功。比如,把數(shù)據(jù)按照一個故事線組織起來,那多半是一個研究文檔或者提綱,再加上特定的目標(biāo)和功能介紹,才可以畫出線框圖,最后加上視覺形式,才有可能變成一個成功的可視化作品。再比如,只有數(shù)據(jù)和視覺形式,那可能只是純粹的數(shù)據(jù)藝術(shù),看起來很美,其實沒有價值,就算加上一個故事,也沒有什么特定的用途,給不了任何啟發(fā),只有賦予它一個特定的目標(biāo),才有可能成為一個成功的可視化。所以,明確一個可視化作品的目標(biāo)是很重要的,知道了要傳達什么信息,達到什么目標(biāo),才知道要選擇什么展現(xiàn)形式。不同的圖表類型適合表達不同的含義,比如,要比較趨勢,折線圖就比柱狀圖更合適,比如,要表達占比,餅圖不一定比堆積柱狀圖好用。
那么,如何選擇合適的展現(xiàn)形式呢,畢竟,有那么多種類的圖形:
下面列舉了常用的各類圖表及適用場景:
過度設(shè)計影響信息表達
如下圖,其實只需要表現(xiàn)一個度量,但是卻用了三維圖形,扇面的高度不具有任何含義。
條形圖足以表達:
同樣,下圖想表現(xiàn)的信息過多:
看起來很美,但是看完以后完全不知所云,不如拆成幾張圖分別表達。
圖表類型不合適
想表現(xiàn)趨勢,卻用了柱狀圖:
換成折線圖更加直觀:
使用過多的色彩
顏色本身也傳遞了一定的信息量,過多的顏色也給人一頭霧水的感覺:
結(jié)合我們想要表現(xiàn)的重點,有針對性的突出一到兩種顏色即可:
避免信息過載
折線圖比較了太多系列,建議不超過三個:
同樣,和弦圖也有類似的情況:
少用3D效果
3D效果通常不能表現(xiàn)額外的信息,反而會造成不必要的遮擋和誤解:
改成2D的圖形效果反而更好:
瞇眼測試,突出重點
一套復(fù)雜的BI看板,常常讓觀看者無從看起:
通過瞇眼測試,可以看出表格中的什么元素更加突出,從而有針對性的找出重點并突出展示。
甚至可以采用動圖的形式,將不需要重點展現(xiàn)的圖形模糊化處理,最后突出重點:
可視化的核心還是傳達信息,如果你自己還沒想清楚要傳達什么信息,不用操之過急,想清楚以后再選擇合適的圖表進行展現(xiàn)即可。本文只是針對可視化的一般做法和常見圖表做了淺析,這里推薦大家一些材料和網(wǎng)站,可以更好的完成可視化展現(xiàn)。聯(lián)合國歐洲經(jīng)濟委員會出品的【讓數(shù)據(jù)有意義】,有兩部分,第一部分:數(shù)字故事寫作指南,第二部分:統(tǒng)計數(shù)據(jù)展示指南。
聯(lián)系客服