疊嶂圖的前世今生_第1頁
疊嶂圖的前世今生_第2頁
疊嶂圖的前世今生_第3頁
疊嶂圖的前世今生_第4頁
疊嶂圖的前世今生_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、疊嶂圖的前世今生1979年,英國樂隊快樂小分隊(JoyDivision)發(fā)行了自己的首張唱片UnknownPleasuers,這張專輯發(fā)行兩周內(nèi)就賣了5000份,但問題是印了10000份。然而,當樂隊的單曲Transmission發(fā)布后,這張后朋克唱片很快銷售一空。作為一個樂盲,我是沒搞懂這歌的意思(好像對收音機很不滿)。整個70年代不斷衰落的英國社會使青少年群體對現(xiàn)實極度不滿,采取了一些很強烈的表現(xiàn)形式來抒發(fā)感情,這催生了朋克運動,至于后朋克運動,據(jù)說比朋克更具實驗性質(zhì)。有意思的是這個專輯在2017年又重新流行了,倒不是因為社會再度衰落,而是那個設計極為特殊的封面。UnknownPleasu

2、er封面(圖片來自隹基百科)這里說的封面流行是指在數(shù)據(jù)可視化領域里,其實它本就很流行在流行文化里。很多人用這個類似波譜的圖來指征一種波動、起伏的感受,恰恰應和UnknownPleasuers中那種迷茫而強烈的情感,同時封面設計師又開放了版權(quán),所以我們可以看到其在很多場景中的再現(xiàn)。例如3D打印版、服裝版、電影版等。甚至有人制作了一個網(wǎng)站來用鼠標生成類似風格的圖。不過這個圖仔細看是很有問題的:坐標軸是什么?線的間隔是固定的嗎?有什么意義?這圖又是怎么做出來的?冤有頭債有主,科學美國人曾經(jīng)對這張封面的源頭進行過探索,據(jù)封面設計師PeterSaville的說法,這張圖是從1977年出版的TheCamb

3、ridgeEncyclopaediaofAstronomy上面一幅關于脈沖星CP1919所發(fā)出的脈沖波疊加圖(不是山峰,也不是波浪)上獲取靈感進行的創(chuàng)作,但這所謂的“創(chuàng)作”實質(zhì)上就是把顏色做了反轉(zhuǎn)還去掉了坐標軸。不過這就說明源頭是這本書嗎?不,順著這本書,有人追溯至U了1974年Graphisdiagrams:Thegraphicvisualizationofabstractdata。進一步追溯,會發(fā)現(xiàn)更早出版的科學美國人(1971年1月刊)上也使用了這幅圖。也就是科學美國人的考古隊出門繞了個圈,又回到起點了。這種溯源到最后挖了自己祖墳的事其實并不稀奇,即使在有搜索引擎的今天,二手、三手乃至十

4、八手資料的源頭很可能就是自己發(fā)布的資料,不過改頭換面后親爹親媽可能都認不出來。用個趕時髦的話說,該放到區(qū)塊鏈上做存在性證明了。那么科學美國人又是哪里搞到這幅圖的呢?事實上1971年的文章之所以要用這幅圖,是因為要介紹脈沖星這個上世紀60年代的重大發(fā)現(xiàn),而這個發(fā)現(xiàn)的確切時間是1967年,也就是說這個圖的出生日期就在1967年與1971年之間。然后我們就找到了HaroldD.Craft,Jr.在康奈爾大學的博士論文RadioObservationsofthePulseProfilesandDispersionMeasuresofTwelvePulsars,到這個時候真正的源頭才出現(xiàn)。Unknown

5、Pleasuer動封面的源頭,aroldD.Craft,Jr.博士論文插圖RadioObservationsofthePulseProfilesandDispersionMeasuresofTwelvePulsars,HaroldD.Craft,Jr.(PhDThesis,September1970pages214-216),CornellUniversity當科學美國人聯(lián)系到HaroldD.Craft,Jr.時,他也順道說了下這幅圖背后的故事。剛開始在脈沖星在劍橋被發(fā)現(xiàn)后,他所在的團隊就意識到自己其實擁有當時世界上最好的測量脈沖星的設備,其實也就是電子設備。然后,從測量結(jié)果上他們很快就發(fā)現(xiàn)脈

6、沖星的脈沖存在一些漂移,也就是大脈沖里有小脈沖,這個結(jié)果發(fā)表在自然上。但他們覺得需要一個更直觀的方式來觀察這些脈沖的模式,然后就做了一些疊加圖,很快就發(fā)現(xiàn)這種圖前后的遮擋太過嚴重。作為一個程序員,遮擋問題其實就是一個漂移問題,所以他操起鍵盤(也可能是打孔卡)做出了一個漂移版,這樣當峰強度足夠時才會出現(xiàn)遮擋,而這類峰正是我們想看的模式。不過不要高估那個年代的技術(shù),他還得再找人用印度墨水(其實就是中國墨汁)重新勾描一遍才能清晰的放到博士論文里。不過他顯然不是流行文化愛好者,因為直到他同事有天閑逛時發(fā)現(xiàn)后告訴他他才發(fā)現(xiàn)自己的圖這么流行,然后他毫不猶豫的買下了有這張圖的專輯與海報:itsmyimage

7、,andIoughttohaveacopyofit.我能想象很多人要考慮版權(quán)問題了,說實話我也沒搞清楚,不過看起來創(chuàng)作者并不在意,而封面設計者也不在意,也許正是不在意促進了某些文化的流行。好了,前世就這樣了,那么今生呢?66這事要從去年7月份說起,twitter上突然出了這么一張圖lheeveninglalenighisout.Playingbilliardslheeveninglalenighisout.DancingSoftballBowlingPlayingvolleyballParticipatinginrnartiAlsrtsPlayingracquetsportsBikingWei

8、ghtliftiri/strengthtrainingDoin”03PlayingsoccerPlayingfootballPlayingbasketballPlayingbasetiailHuntingVehicletouring/racingRollerbladingParticEuatinsinwatersportsFishingSoaringSkiing,iccskating,snowboardingHikingGolfinEDoingaerobicsWalkingRunningWorkingouturtpeciftedUsEngcardiovascularequipment03;00

9、06:0009;00120015;0018?0021;0C0&0003;00|呦芒:ArrricanTi巾亡UseSun-cy由于hnrklndbrg給出了作圖的R源碼,一時間大家都開始紛紛回復轉(zhuǎn)發(fā)并做出了自己的版本。當然joyplot的名字也伴隨這條推文開始走紅。據(jù)說是JennyBryan首先提出的這個名字并聯(lián)系到了上面所說的快樂小分隊的專輯封面。統(tǒng)計之都上也很快有了討論帖這個圖在增加了坐標軸后的突然流行其實跟最近在可視化里要求展示大量原始數(shù)據(jù)的需求不謀而合。我們現(xiàn)在考慮這樣一個場景,有三組數(shù)據(jù),每組1000個數(shù)值,如果進行比較,用什么來可視化?(為了演示效果,這里模擬數(shù)據(jù)用了不同分布)gr

10、oup1-cbind(rnorm(1000),1)group2-cbind(runif(1000,min=-1,max=1),2)group3-cbind(c(rnorm(500,1,0.5),rnorm(500,-1,0.5),3)data%group_by(V2)%summarise(mean=mean(V1)%ungroup()%ggplot(aes(x=V2,y=mean)+geom_bar(stat=identity)0jO2-0jO2-0-00-V2當前的可視化趨勢是盡可能少對數(shù)據(jù)那么有人可能就說我用箱線圖行不y=V1)+0-00-V2當前的可視化趨勢是盡可能少對數(shù)據(jù)那么有人可能就

11、說我用箱線圖行不y=V1)+-0-01-CLCK-簡潔是有了,數(shù)據(jù)細節(jié)幾乎完全丟失。做分布假設,所以要盡可能多的展示細節(jié)。行?data%ggplot(aes(x=factor(V2)geom_boxplot()只能說好了一點,因為雖然我們現(xiàn)在有了分位數(shù),但其分布還是看不出來。那么此時有人就說我用提琴圖怎么樣?畢竟前兩天xkcd還畫了這個圖。data%ggplot(aes(x=factor(V2),y=V1)+geom_violin()我只能說已經(jīng)有點意思了,因為數(shù)據(jù)本身的特點正在展示出來。其實我們也可以直接用抖動散點圖來展示。data%ggplot(aes(x=factor(V2),y=V1)

12、+geom_jitter()factorV2)不過這里的問題是點數(shù)少還好,如果多了就最好通過設置顏色透明度來展示了,因為很難體現(xiàn)概率密度的變化。但joyplot卻十分適合這個場景:library(ggridges)data%ggplot(aes(y=factor(V2),x=V1)+geom_density_ridges()-寸-寸32-5.02.5dh山sdV1你可以把joyplot看成提琴圖砍掉一半的樣子,但因為有共同基線,所以視覺上比較起來特別方便。你甚至可以用類似直方圖的模式來展示分布:data%ggplot(aes(y=factor(V2),x=V1),height=.density

13、.)+geom_density_ridges(stat=binline)也就是說joyplot在展示原始數(shù)據(jù)狀態(tài)時屬于比較直觀的,猶如重山疊嶂,不論是對比峰值還是對比特定數(shù)值上概率密度都很簡單。而峰值上的遮擋在多數(shù)情況下不會影響數(shù)據(jù)展示,因為能放到一起比較的數(shù)據(jù)分布不會差太遠。一般而言,x軸是一個連續(xù)變量,y軸是分類變量,而高度則是y分類下x的概率密度分布,符合這個數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)都適合用joyplot來進行展示。故事還沒完,你也注意到了,現(xiàn)在joyplot又改名了。新的英文名叫做ridgeline,中文名暫時就叫疊嶂圖吧。原因還是出在快樂小分隊上,快樂小分隊其實是納粹集中營里提供性服務的猶太婦

14、女團體,而這個樂隊起名的時候就是用的這個典故。這樣的黑歷史在西方世界乃至全世界都是不愿意提及的,所以很快可以畫疊嶂圖的ggjoy包退休,功能完全一致的ggridges包閃亮登場。這就是疊嶂圖的前世今生了,前前世比較黑暗,前世是流行文化,今生則是可視化領域的新貴。這里我們還是舉個比較實際的例子,下面這組數(shù)據(jù)收集了348414份期刊論文里的3623355個p值,橫跨28個學科library(tidypvals)aj1=anti_join(head2015,chavalarias2016)aj2=anti_join(chavalarias2016,head2015)sj1=semi_join(hea

15、d2015,chavalarias2016)allp=rbind(aj1,aj2,sj1)allp=rbind(allp,brodeur2016)allp%filter(!is.na(field)%ggplot(aes(y=field,x=pvalue)+geom_density_ridges()+xlim(0,0.25)PbibteH制11IIAndHeallhService-屜阻he(創(chuàng)yandEDCldloqyPtnntElDtogyrOLherNubrwllenAiidLt佶lies-hlaurosoenc&a&riiuitadisclpllnaffyMlcrablology-ifl沁:刨Aiidhl&allhCaerwUcsEcmioinnlus-Dwi陽町mConiputsr專oenn&s-亡七也冊削il也沖AidA11創(chuàng)z圈I屜1BlokoalSdenc&sBiGhefnialrHECellBiologypvalueRij/elalogyPharnisfiata

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論