下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
大數(shù)據(jù)可視化方法及挑戰(zhàn)研究獲獎(jiǎng)科研報(bào)告【摘要】在當(dāng)今世界,一切都是以數(shù)字方式記錄的,從我們的網(wǎng)上沖浪模式到我們的醫(yī)療記錄,我們每天都在生成和處理數(shù)十億字節(jié)的數(shù)據(jù)。大數(shù)據(jù)將在生活的各個(gè)領(lǐng)域帶來(lái)變革,但是僅僅處理和分析這些數(shù)據(jù)是不夠的,當(dāng)數(shù)據(jù)被可視化表示時(shí),人腦往往能更有效地找到模式。數(shù)據(jù)可視化和分析在各個(gè)領(lǐng)域的決策中發(fā)揮著重要作用,它還在可視化領(lǐng)域帶來(lái)了新的機(jī)遇,代表了通過(guò)可視化手段解決大數(shù)據(jù)問(wèn)題的創(chuàng)新思維,但實(shí)時(shí)或靜態(tài)地可視化如此龐大的數(shù)據(jù)量是一個(gè)相當(dāng)大的挑戰(zhàn)。在這篇文章中,我們討論了為什么大數(shù)據(jù)可視化是最重要的,有什么相關(guān)的挑戰(zhàn),并回顧了一些大數(shù)據(jù)可視化工具。
【關(guān)鍵詞】大數(shù)據(jù);可視化;交互式
1引言
近年來(lái),大數(shù)據(jù)已經(jīng)成為所有行業(yè)(包括學(xué)術(shù)界、信息技術(shù)公司和政府)感興趣的話題。由于物聯(lián)網(wǎng)、我們環(huán)境中的傳感器以及所有離線記錄(如我們的病史等)的數(shù)字化等因素,數(shù)據(jù)增長(zhǎng)率在幾年內(nèi)呈指數(shù)級(jí)增長(zhǎng)。大數(shù)據(jù)已經(jīng)在如此短的時(shí)間內(nèi)證明了它對(duì)這個(gè)世界的重要性,以至于今天幾乎所有的信息技術(shù)和非信息技術(shù)公司都在存儲(chǔ)他們生產(chǎn)的所有數(shù)據(jù)。
如今,企業(yè)努力只存儲(chǔ)大量數(shù)據(jù),而以有意義的方式分析、解釋和呈現(xiàn)數(shù)據(jù)是以后的想法。大數(shù)據(jù)的主要挑戰(zhàn)在于捕獲、存儲(chǔ)、分析、共享、搜索和可視化數(shù)據(jù)。大數(shù)據(jù)分析的一個(gè)主要方面是我們可以在巨大的數(shù)據(jù)集中找到有趣的模式,但實(shí)際上分析的結(jié)果通常是原始數(shù)據(jù),通過(guò)這些數(shù)據(jù)很難解釋任何事情。但是如果這些數(shù)字被直觀地表示出來(lái),那么我們的大腦就更容易找到有意義的模式并據(jù)此做出決定。
數(shù)據(jù)可視化當(dāng)然不是新事物;它已經(jīng)存在了幾個(gè)世紀(jì)。數(shù)據(jù)可視化是傳達(dá)信息和表示復(fù)雜事物的簡(jiǎn)單快捷的方法。我們?nèi)祟?lèi)適應(yīng)于在我們看到的一切中尋找模式。由于數(shù)據(jù)以如此巨大的速度增長(zhǎng),傳統(tǒng)的數(shù)據(jù)呈現(xiàn)方式已經(jīng)過(guò)時(shí)。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)的特點(diǎn)是5V,即大容量、高容量、高多樣性、低容量和高價(jià)值。實(shí)際的挑戰(zhàn)不僅僅是處理如此巨大的數(shù)據(jù)量,而是處理高度多樣化的數(shù)據(jù)。數(shù)據(jù)的高度多樣性和不確定性縮短了應(yīng)用程序的響應(yīng)時(shí)間,因?yàn)樗粌H要處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還要處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
2大數(shù)據(jù)可視化所面臨的挑戰(zhàn)
當(dāng)遇到非常大的數(shù)據(jù)集時(shí),傳統(tǒng)的可視化工具已經(jīng)達(dá)到了極限,這些數(shù)據(jù)正在不斷發(fā)展。雖然有一些傳統(tǒng)可視化方法的擴(kuò)展,但它們落后了數(shù)英里??梢暬ぞ邞?yīng)該能夠以盡可能低的延遲為我們提供交互式可視化。為了減少延遲,我們可以采用這樣一些方式對(duì)數(shù)據(jù)進(jìn)行處理,使用預(yù)先計(jì)算的數(shù)據(jù);并行化數(shù)據(jù)處理和渲染;使用預(yù)測(cè)中間設(shè)備。
大數(shù)據(jù)可視化工具必須能夠處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),因?yàn)榇髷?shù)據(jù)通常具有這種格式。人們認(rèn)識(shí)到,為了應(yīng)付對(duì)于如此大量的數(shù)據(jù),需要大量的并行處理,這在可視化方面是一個(gè)挑戰(zhàn)。并行算法面臨的挑戰(zhàn)是將問(wèn)題分解成獨(dú)立的任務(wù),使它們能夠獨(dú)立運(yùn)行。
大數(shù)據(jù)可視化的任務(wù)是識(shí)別有趣的模式和相關(guān)性。我們需要仔細(xì)選擇要可視化的數(shù)據(jù)維度,如果我們縮小維度以降低可視化程度,那么我們可能會(huì)失去有趣的模式,但如果我們使用所有維度,我們可能會(huì)發(fā)現(xiàn)可視化過(guò)于密集,對(duì)用戶無(wú)用。例如:“給定常規(guī)顯示器(130萬(wàn)像素),可視化每個(gè)數(shù)據(jù)點(diǎn)會(huì)導(dǎo)致過(guò)度繪圖、重疊,并可能淹沒(méi)用戶的感知和認(rèn)知能力。
由于大數(shù)據(jù)量大、規(guī)模大,很難可視化。目前大多數(shù)可視化工具在可擴(kuò)展性、功能性和響應(yīng)時(shí)間方面的性能都很低。已經(jīng)提出了不僅使數(shù)據(jù)可視化而且同時(shí)進(jìn)行處理的方法。這些方法在模型中使用Hadoop和存儲(chǔ)解決方案以及R編程語(yǔ)言作為編譯器環(huán)境,圖1顯示了這種模型的輪廓。
還有一些重大的大數(shù)據(jù)可視化問(wèn)題,比如,視覺(jué)噪聲:數(shù)據(jù)集中的大多數(shù)對(duì)象彼此之間過(guò)于相關(guān)。將它們分開(kāi)變得非常困難;信息丟失:為了增加響應(yīng)時(shí)間,我們可以降低數(shù)據(jù)集的可見(jiàn)性,但這會(huì)導(dǎo)致信息丟失;大圖像感知:即使在實(shí)現(xiàn)了期望的機(jī)械輸出后,我們也受到了物理感知的限制;圖像變化率高:如果圖像變化率太高,就不可能對(duì)數(shù)字做出反應(yīng);高性能要求:在靜態(tài)可視化過(guò)程中,與要求更高性能的動(dòng)態(tài)可視化相比,這一因素可能被忽略。
3大數(shù)據(jù)可視化的工具
針對(duì)上訴所說(shuō)大數(shù)據(jù)可視化的各種問(wèn)題,開(kāi)發(fā)人員開(kāi)發(fā)出了各種工具來(lái)幫助我們解決上述問(wèn)題。可視化必須具備的最重要的特性是它應(yīng)該是交互式的,這意味著用戶應(yīng)該能夠與可視化進(jìn)行交互,當(dāng)鼠標(biāo)懸停在可視化上時(shí),可視化必須顯示相關(guān)信息,放大和縮小面板應(yīng)該在那里,如果我們選擇數(shù)據(jù)的子集或超集,可視化應(yīng)該在運(yùn)行時(shí)自我調(diào)整。我們回顧了一些最流行的可視化工具。
3.1Tableau
Tableau是以商業(yè)智能為重點(diǎn)的交互式數(shù)據(jù)可視化工具。Tableau提供了非常廣泛的可視化選項(xiàng)。它提供了創(chuàng)建自定義可視化的選項(xiàng)。它快速靈活。它主要支持從亞馬遜極光到ClouderaHadoop和Salesforce等各種服務(wù)器的所有數(shù)據(jù)格式和連接,用戶界面直觀,圖表種類(lèi)繁多,對(duì)于簡(jiǎn)單的計(jì)算和統(tǒng)計(jì),不需要任何編碼技能,但是對(duì)于大量的分析,我們可以在R中運(yùn)行模型,然后將結(jié)果導(dǎo)入Tableau。根據(jù)我們需要執(zhí)行的任務(wù),這需要相當(dāng)多的編程技能。
3.2微軟電力商業(yè)智能
電力商業(yè)智能是一個(gè)強(qiáng)大的基于云的商業(yè)分析服務(wù)??梢暬墙换ナ胶拓S富的。智能商務(wù)包括3個(gè)元素,智能商務(wù)桌面、服務(wù)(SaaS)、應(yīng)用。每項(xiàng)服務(wù)對(duì)我們都是可用的,這就是為什么它使電力商業(yè)智能變得靈活和有說(shuō)服力。有了60多種類(lèi)型的源代碼集成,開(kāi)發(fā)人員可以在幾分鐘內(nèi)開(kāi)始創(chuàng)建可視化。
3.3Plotly
Plotly也叫Plotly.ly是用python和Django框架構(gòu)建的。它可以執(zhí)行的操作是分析和可視化數(shù)據(jù)。它對(duì)用戶是免費(fèi)的,但功能有限,我們需要購(gòu)買(mǎi)專業(yè)會(huì)員的所有功能。它可以在線創(chuàng)建圖表和儀表板,但也可以在Ipython筆記本、jupyter筆記本和panda中用作離線服務(wù)。不同種類(lèi)的圖表是可用的,如統(tǒng)計(jì)圖,科學(xué)圖表,三維圖表,多軸,儀表板等。Plotly使用了一個(gè)名為“網(wǎng)絡(luò)繪圖數(shù)字化儀(WPD)”的工具,它可以自動(dòng)從靜態(tài)圖像中獲取數(shù)據(jù)。
4結(jié)論
在大數(shù)據(jù)的世界里,每一個(gè)信息都以這樣或那樣的方式至關(guān)重要,我們依靠視覺(jué)信息來(lái)找到有用的模式。但是傳統(tǒng)的可視化方法跟不上數(shù)據(jù)的速度和數(shù)量,我們需要這樣的工具來(lái)處
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京市建筑工程施工勞務(wù)合同
- 山西省2024八年級(jí)物理上冊(cè)第三章物態(tài)變化專題訓(xùn)練6.綜合認(rèn)識(shí)物態(tài)變化課件新版新人教版
- 湖北省十堰市2024-2025學(xué)年高一上學(xué)期11月期中物理試題(無(wú)答案)
- 礦山應(yīng)急演練指南解讀
- 廣東省汕尾市海豐縣附城中學(xué)2024-2025學(xué)年七年級(jí)上學(xué)期11月期中英語(yǔ)試題(含答案)
- 腫瘤科介入治療及護(hù)理
- 耐輻照電絕緣玻璃纖維相關(guān)行業(yè)投資方案范本
- 工控電源相關(guān)行業(yè)投資方案范本
- 貴金屬:鉑行業(yè)相關(guān)投資計(jì)劃提議
- 防汛應(yīng)急方案培訓(xùn)
- 腰椎間盤(pán)突出健康教育課件
- WS 400-2023 血液運(yùn)輸標(biāo)準(zhǔn)
- 大學(xué)生勞動(dòng)教育PPT完整全套教學(xué)課件
- 中國(guó)成人重癥肺炎臨床實(shí)踐專家共識(shí)指南解讀專家講座
- 公共事務(wù)管理專業(yè)
- 埃美柯閥門(mén)檢驗(yàn)報(bào)告匯總6199鐵制閘閥
- 高中思想政治-高三一輪復(fù)習(xí)課文化創(chuàng)新教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 高中美術(shù)-文化變革 美術(shù)發(fā)展教學(xué)設(shè)計(jì)學(xué)情分析教材分析課后反思
- 品管圈標(biāo)準(zhǔn)化作業(yè)書(shū)模板
- 尊敬師長(zhǎng)遵守紀(jì)律課件高中生文明禮儀教育主題班會(huì)
- 合理利用多媒體技術(shù)助力課堂教學(xué)效果提升獲獎(jiǎng)科研報(bào)告
評(píng)論
0/150
提交評(píng)論