'可視化實(shí)際上是關(guān)于外部認(rèn)知,也就是說(shuō),如何利用心靈之外的資源來(lái)提升思維的認(rèn)知能力。'
本文重點(diǎn)介紹可視化與數(shù)據(jù)的重要性??茖W(xué),工程,商業(yè)和日常人類(lèi)活動(dòng)中產(chǎn)生的信息的數(shù)量和復(fù)雜性正以驚人的速度增長(zhǎng)。良好的可視化不僅呈現(xiàn)數(shù)據(jù)的視覺(jué)解釋,而且提高理解、溝通、決策效果。
可視化的重要性是幾乎所有數(shù)據(jù)科學(xué)家在大學(xué)入門(mén)級(jí)課程中教授的主題,但是很少有人掌握。由于其固有的主觀性質(zhì),它通常被認(rèn)為是顯而易見(jiàn)的或不重要的。本文希望消除其中的一些想法,并向您展示可視化非常重要,不僅僅是在數(shù)據(jù)科學(xué)領(lǐng)域,而是用于傳遞任何形式的信息。
通過(guò)多個(gè)示例向讀者展示精心設(shè)計(jì)的可視化對(duì)傳達(dá)想法或信息的影響。此外,討論制作有效可視化的最佳實(shí)踐,以及如何開(kāi)發(fā)自己的可視化以及可用于實(shí)現(xiàn)此目的的資源。
(1)心理視覺(jué)形象的形成。
形成心理視覺(jué)圖像,通過(guò)數(shù)據(jù)的圖形表示來(lái)傳達(dá)信息。
如果你正在從事數(shù)據(jù)科學(xué)職業(yè),這是你要掌握的最重要的技能之一,并且?guī)缀蹩梢赞D(zhuǎn)移到任何學(xué)科。讓我們想象一下,你試圖說(shuō)服你的經(jīng)理投資一家公司,并向他們提供一個(gè)包含數(shù)字的電子表格,向他們解釋為什么這是一個(gè)如此好的投資機(jī)會(huì)。如果你是經(jīng)理,你會(huì)如何回應(yīng)?
如果以視覺(jué)形式呈現(xiàn),信息通常更容易消化,特別是如果它利用人類(lèi)可以直觀地解釋的模式和結(jié)構(gòu)。如果想要快速簡(jiǎn)便的可視化,幾乎不需要任何努力,可以使用餅圖或條形圖。
阻礙我們使用可視化的另一個(gè)因素是我們可用的數(shù)據(jù)量。我如何知道可視化是否是傳達(dá)消息的合適方法?
這是一個(gè)難以回答的問(wèn)題。一項(xiàng)設(shè)計(jì)研究建議我們根據(jù)任務(wù)的清晰度和信息的位置來(lái)評(píng)估使用可視化的可行性。
設(shè)計(jì)研究方法論,Michael Sedlmair,Miriah Meyer和Tamara Munzner。IEEE Trans??梢暬陀?jì)算機(jī)圖形學(xué),2012年。
如果我們位于此圖的右上角,則開(kāi)發(fā)和編程交互式可視化變得可行,這是數(shù)據(jù)科學(xué)家現(xiàn)在進(jìn)入的領(lǐng)域,因?yàn)樾畔⒈▽?dǎo)致的數(shù)據(jù)規(guī)模持續(xù)增加。
信息爆炸
我們現(xiàn)在生活在一個(gè)數(shù)據(jù)驅(qū)動(dòng)的世界中,它很可能變得更加數(shù)據(jù)化。從多個(gè)領(lǐng)域可以清楚地看到這一點(diǎn),例如開(kāi)發(fā)大型傳感器網(wǎng)絡(luò)的重要進(jìn)展以及與世界互動(dòng)的人工智能代理,如自動(dòng)駕駛汽車(chē)。
在數(shù)據(jù)具有主權(quán)的世界中,擁有開(kāi)發(fā)清晰且有影響力的可視化的能力正在成為越來(lái)越必要的技能。
幾千年來(lái),人類(lèi)一直在創(chuàng)造可視化,雖然洞穴人的圖畫(huà)比我們現(xiàn)在的圖像稍微不那么引人注目,但仍然很高興欣賞一些早期可視化的強(qiáng)大程度,以及它們的影響力。在現(xiàn)代世界。
以達(dá)芬奇為例,他是一位意大利博學(xué)家,不僅是第一個(gè)提出令人難以置信的發(fā)明的人,如飛機(jī),直升機(jī)和坦克,而且還非常擅長(zhǎng)繪畫(huà)。他的工程和解剖學(xué)圖紙,如下圖所示,非常逼真,而且易于理解。
幾百年前,當(dāng)我們沒(méi)有計(jì)算機(jī)為我們繪制東西時(shí),熟練繪畫(huà)對(duì)于可視化的目的是非常必要的。花點(diǎn)時(shí)間欣賞伽利略在農(nóng)歷的不同階段的月亮草圖。
我們并不經(jīng)常盯著月球的古代繪畫(huà),所以在現(xiàn)代世界中是否真的需要這些類(lèi)型的可視化?
答案顯然是肯定的。即使在十年或十五年前,學(xué)習(xí)類(lèi)似化學(xué)的東西也是非常困難的,盡管能夠描繪腦中的分子,但仍然很難在復(fù)雜的科學(xué)詞匯和你正在發(fā)生的事物的心理圖像之間進(jìn)行轉(zhuǎn)換。如今,人們可以使用Youtube并輸入幾個(gè)字,觀看基本上任何化學(xué)方面的可視化或視覺(jué)演練。同樣的想法基本上適用于科學(xué)中的任何抽象概念。
所以現(xiàn)在我們已經(jīng)說(shuō)服自己,可視化對(duì)于傳達(dá)信息非常有用,并且還可以用于以更可解釋的方式解釋復(fù)雜的想法。
什么是良好可視化的例子?
在波士頓,我們有一個(gè)名為T(mén)的地下地鐵系統(tǒng)。與任何城市地鐵系統(tǒng)一樣,有許多不同的線路,它們向各個(gè)方向行進(jìn),由于距離較遠(yuǎn),一些線路比其他線路更長(zhǎng)。
以下可視化不僅捕獲以同心球形式從市中心到每個(gè)站點(diǎn)所花費(fèi)的時(shí)間,而且還遵循每條線路的正確方向。看一下這個(gè)圖表,可以很快找出要采取的線路,走向哪個(gè)方向,以及到達(dá)那里需要多長(zhǎng)時(shí)間。
第二個(gè)可視化顯示了上個(gè)世紀(jì)在馬薩諸塞州出生人的運(yùn)動(dòng)。我們看到,在1940年,82%出生在馬薩諸塞州的人預(yù)計(jì)住在馬薩諸塞州?,F(xiàn)在快進(jìn)到現(xiàn)代,我們看到這個(gè)數(shù)字已降至64%,我們可以合理地了解這些人移居的地方。
有史以來(lái)最著名的可視化之一是約瑟夫·米納德(Joseph Minard),它描繪了拿破侖向俄羅斯進(jìn)軍的旅程。
描繪了拿破侖的軍隊(duì)離開(kāi)波蘭與俄羅斯的邊界。一個(gè)厚厚的帶子說(shuō)明了他的軍隊(duì)在前進(jìn)和撤退期間在特定地理點(diǎn)的大小。它在兩個(gè)方面顯示六種類(lèi)型的數(shù)據(jù):拿破侖軍隊(duì)的數(shù)量; 旅行的距離; 溫度; 緯度和經(jīng)度; 旅行方向; 并且相對(duì)于特定日期的位置。米納德的興趣在于士兵們的辛苦和犧牲。
現(xiàn)在讓我們考慮將不良可視化轉(zhuǎn)換為更適合其目的的可視化。這對(duì)于地鐵地圖來(lái)說(shuō)是最容易的,所以我會(huì)考慮倫敦的地鐵地圖,我們將看到為什么它被改變以及它們的新設(shè)計(jì)如何在原始設(shè)計(jì)上得到改進(jìn)。
這是可以追溯到1927年的倫敦地鐵的原始地圖。該圖的主要問(wèn)題是由于它們非常接近而存在大量緊密間隔的地下車(chē)站。這源于地圖是根據(jù)臺(tái)站的地理位置繪制的。然而,當(dāng)遠(yuǎn)離城市時(shí),地圖上仍有大量空間未使用。
1933年,哈里貝克想出了倫敦地鐵地圖的新設(shè)計(jì)。貝克認(rèn)為乘客不關(guān)心地理準(zhǔn)確性,并且最感興趣的是如何從一個(gè)到另一個(gè)車(chē)站以及換乘火車(chē)的地點(diǎn)。他從電子圖表中汲取靈感,決定以單獨(dú)的顏色顯示每條線條,并在電氣圖上顯示它們與其他線條的連接。該圖保持每條線路的方向信息,但距離信息丟失,因?yàn)樨惪苏J(rèn)為不必要。
我們可以看到紐約地鐵地圖發(fā)生的非常類(lèi)似的爭(zhēng)論。你認(rèn)為哪個(gè)更好?
盡管我們已經(jīng)查看了幾個(gè)地鐵地圖,但顯然沒(méi)有明確的解決方案可以適用于所有情況。畢竟,這取決于哪些數(shù)據(jù)與受眾最相關(guān)。哈里貝克決定乘客不關(guān)心距離或地理信息,只知道他們知道如何從A站到B站以及有什么聯(lián)系。也許這個(gè)想法不適合紐約人,因?yàn)樗麄?比倫敦人更關(guān)心知道距離和地理位置。
數(shù)字可能令人難以置信的誤導(dǎo),正如現(xiàn)在著名的安斯科姆四重奏形式的格特魯?shù)掳菜箍颇匪C明的那樣。四重集是一組四個(gè)數(shù)據(jù)樣本,具有完全相同的均值,方差,相關(guān)性和線性回歸線。
Anscombe的四重奏以表格形式(Anscombe,1973)
然而,從結(jié)果的視覺(jué)表示中可以清楚地看出,四組數(shù)據(jù)的分布是完全不同的。
Anscombe的視覺(jué)形式的四重奏(Anscombe,1973)
為了強(qiáng)調(diào)這一點(diǎn),開(kāi)發(fā)了六個(gè)數(shù)據(jù)圖,所有這些圖都具有相同的均值,方差,相關(guān)性和線性回歸線。如下面看到的,這些也是完全不同的。
可視化可用于代替量化指標(biāo)以使數(shù)據(jù)結(jié)構(gòu)更清晰,更有意義的這種想法使我們自然地進(jìn)入誤導(dǎo)性可視化的領(lǐng)域。數(shù)字可以用來(lái)誤導(dǎo)我們數(shù)據(jù)的結(jié)構(gòu),它也可以反過(guò)來(lái)工作,可以巧妙地制作可視化以扭曲數(shù)據(jù)中的底層結(jié)構(gòu)。正如我們將要看到的,這是一種非常普遍的現(xiàn)象,特別是在易于發(fā)表話語(yǔ)的領(lǐng)域,如政治和科學(xué)辯論。
有許多人使用統(tǒng)計(jì)數(shù)據(jù)來(lái)誤導(dǎo)個(gè)人。實(shí)際上,這是一種在政治中使用的極為常見(jiàn)的策略。一個(gè)例子是與喬治·布什總統(tǒng)提出的減稅有關(guān),其中通過(guò)扭曲條形圖的軸線使得看起來(lái)幅度增加了5%。
左)可視化顯示給觀眾,(右)顯示較少的欺騙性可視化
這些欺騙性策略通常涉及測(cè)量軸的扭曲。這是與失業(yè)相關(guān)的軸失真的另一個(gè)例子。
實(shí)際上,情節(jié)應(yīng)該是這樣的。
通過(guò)使用可視化來(lái)欺騙人們的另一種方式是通過(guò)省略數(shù)據(jù)。
我們清楚人們可以通過(guò)精心設(shè)計(jì)的可視化來(lái)支持欺騙。這是一個(gè)顯示全球變暖是一個(gè)神話的一個(gè)典型例子,這個(gè)想法自20世紀(jì)90年代以來(lái)就沒(méi)有受到環(huán)境科學(xué)家的質(zhì)疑。
一個(gè)不那么具有欺騙性的圖表如下所示。
截至目前,我們剛剛討論了為欺騙我們而積極設(shè)計(jì)的可視化。
彩虹色地圖可能是我每天遇到的最煩人的可視化。這些不僅難以使用,因?yàn)樯と耍赡軙?huì)出現(xiàn)區(qū)分許多顏色的問(wèn)題,但將顏色分配給定量值則是荒謬的。
彩虹色圖在感知上是非線性的。誰(shuí)決定藍(lán)色代表的數(shù)量低于黃色或紅色?轉(zhuǎn)換何時(shí)發(fā)生,它們有多突然?
彩虹彩色地圖
解決這個(gè)問(wèn)題的最佳方法是堅(jiān)持使用兩種顏色并使用線性顏色變化來(lái)表示定量值。在這個(gè)意義上,繪圖可以著色,但繪圖的定量性質(zhì)由顏色的亮度描述,較暗的區(qū)域通常表示較高的值。這個(gè)想法如下所示。
這基本上使它們與熱圖或等值線圖相同,如下圖所示。
在2016年總統(tǒng)大選之后,美國(guó)投票就是一個(gè)很好的例子。
記住合理數(shù)量的人是色盲并避免使用可能對(duì)這些人有問(wèn)題的顏色組合這一事實(shí)總是好的。以下面的可視化為例。
該圖中使用的顏色對(duì)于患有紅綠色盲的人來(lái)說(shuō)是一種可怕的組合。最好注意至少使用紅色和綠色的組合,因?yàn)檫@種類(lèi)型的色盲是最普遍的。
邊緣捆綁背后的想法實(shí)質(zhì)上是圍繞從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)沿著相同路線的所有路徑纏繞彈性帶。這用于網(wǎng)絡(luò)圖,并且具有使可視化看起來(lái)不那么雜亂的毛球的優(yōu)點(diǎn),并且如我們?cè)谙旅婵吹降哪菢痈恿钊擞鋹偂?/p>
此方法的缺點(diǎn)是,在捆綁后您無(wú)法遵循確切的鏈接或路徑,這意味著我們的可視化不會(huì)反映基礎(chǔ)數(shù)據(jù),喪失一些圖形完整性。
現(xiàn)在我們已經(jīng)看了一堆可視化并理解好的和壞的可視化之間的區(qū)別,現(xiàn)在是討論什么樣的可視化好。
可視化目標(biāo)
· 數(shù)據(jù)探索 - 找到未知數(shù)
· 數(shù)據(jù)分析 - 檢查假設(shè)
· 演示 - 溝通和傳播
基本上就是這樣。然而,這些術(shù)語(yǔ)非常含糊,因此很容易理解為什么個(gè)人難以掌握通過(guò)可視化進(jìn)行交流的藝術(shù)。因此,有一個(gè)模型可以幫助我們實(shí)現(xiàn)這些目標(biāo)。
可視化通常被描述為以下五步模型,該過(guò)程遵循相當(dāng)合理的進(jìn)展。
首先,需要一個(gè)人將要作為評(píng)估對(duì)象的特定目標(biāo)或問(wèn)題隔離開(kāi)來(lái)。
接下來(lái)是數(shù)據(jù)爭(zhēng)論,這是數(shù)據(jù)科學(xué)家在處理數(shù)據(jù)時(shí)所做數(shù)據(jù)的90%。此過(guò)程涉及將數(shù)據(jù)轉(zhuǎn)換為可行的格式,執(zhí)行探索性數(shù)據(jù)分析以了解其數(shù)據(jù)集,這可能涉及匯總或繪制數(shù)據(jù)的各種方式。
第三階段是設(shè)計(jì)階段,涉及開(kāi)發(fā)一個(gè)您想要用數(shù)據(jù)講述的故事。這與我們定義的目標(biāo)緊密相關(guān)。我們想要傳達(dá)的信息是什么?這也可能取決于你的觀眾是誰(shuí),以及分析的客觀性水平。
第四步涉及可視化的實(shí)現(xiàn),例如使用基于交互式網(wǎng)絡(luò)的可視化編程。這是涉及一些編碼的過(guò)程的一部分,而設(shè)計(jì)階段涉及思考,繪畫(huà),構(gòu)思等。
第五階段基本上是一個(gè)審查階段,實(shí)現(xiàn)并決定它是否發(fā)送你要傳達(dá)的消息,或者回答你要回答的問(wèn)題。
實(shí)際上,這是一個(gè)非線性過(guò)程,盡管它通常表現(xiàn)為一個(gè)過(guò)程。這是一個(gè)更現(xiàn)實(shí)的模型形式。
看起來(lái)很簡(jiǎn)單吧?嗯,實(shí)際上有很多方法可以解決這個(gè)問(wèn)題,而且往往沒(méi)有意識(shí)到。以下是三個(gè)最常見(jiàn)的問(wèn)題:
領(lǐng)域情況 -?你是否正確了解用戶的需求?也許正在解決錯(cuò)誤的問(wèn)題。這是與目標(biāo)階段相關(guān)的問(wèn)題。
數(shù)據(jù)/任務(wù)抽象 -你是否正確地展示它們?也許正在使用錯(cuò)誤的抽象。這也是與目標(biāo)階段相關(guān)的問(wèn)題。
可視編碼/交互 -顯示數(shù)據(jù)的方式是否有效?也許正在使用錯(cuò)誤的習(xí)語(yǔ)或編碼。這是與設(shè)計(jì)階段相關(guān)的問(wèn)題。
算法 -你的代碼太慢嗎?它可擴(kuò)展嗎?這是實(shí)施階段的問(wèn)題。也許正在使用錯(cuò)誤的算法。
解決你的代碼破裂這一事實(shí)可能是顯而易見(jiàn)的,但是你如何評(píng)估我們剛剛解決的更主觀的問(wèn)題,比如領(lǐng)域情況或使用的可視編碼?我們可以傾向于評(píng)估指標(biāo)。
我們可以依賴定性和定量指標(biāo)。定性度量通常對(duì)可視化最有用,因?yàn)榭梢暬菫榱讼蛉藗儌鬟_(dá)信息而開(kāi)發(fā)的,要使用的度量的一些示例如下:
這些定性程序的想法是,個(gè)人應(yīng)該能夠看到可視化并理解您試圖傳達(dá)的信息,而無(wú)需任何其他信息。這些類(lèi)型的研究和指標(biāo)通常用于營(yíng)銷(xiāo)和網(wǎng)頁(yè)設(shè)計(jì)等領(lǐng)域,因?yàn)樗鼈兛梢远床靷€(gè)人如何解釋和回應(yīng)他們的想法或設(shè)計(jì)。
以下是Edward Tufte有效可視化的三條規(guī)則:
在討論誤導(dǎo)性可視化時(shí),我們已經(jīng)對(duì)此進(jìn)行了一些討論。一般來(lái)說(shuō),試圖誤導(dǎo)具有統(tǒng)計(jì)數(shù)據(jù)的個(gè)人是不好的做法,對(duì)社會(huì)有害。
這個(gè)經(jīng)驗(yàn)法則是關(guān)于清晰度和極簡(jiǎn)主義。一般來(lái)說(shuō),3D圖表往往不太清晰,在某些情況下可能會(huì)產(chǎn)生誤導(dǎo)。檢查下面兩個(gè)圖表之間的差異,并確定您認(rèn)為哪個(gè)更好。
無(wú)關(guān)的視覺(jué)元素會(huì)分散人們對(duì)傳達(dá)信息的注意力。
下面是你會(huì)喜歡的可視化。
權(quán)力的游戲中的地方
在權(quán)力的游戲傳奇中討論的位置名稱。
槍在美國(guó)死亡
槍在美國(guó)死亡
英國(guó)的道路安全
這種可視化建立在deck.gl上,非常有趣,可以玩這個(gè)網(wǎng)站 - 我建議您查看這個(gè)網(wǎng)站上有多個(gè)其他交互式可視化。
英國(guó)的道路安全
州首府的道路
這種可視化是美國(guó)的交互式和彩色編碼地圖,以及通往每個(gè)州首府的所有道路。
美國(guó)貿(mào)易逆差
這是一個(gè)美麗的可視化,可視化2001年至2013年美國(guó)的貿(mào)易逆差。
鏈接的爵士網(wǎng)絡(luò)圖
這張互動(dòng)圖表展示了爵士樂(lè)中的一些著名人物以及他們?nèi)绾斡绊懫渌囆g(shù)家。
聯(lián)系客服