數(shù)據(jù)分析過程中各個(gè)步驟中使用的工具_(dá)第1頁
數(shù)據(jù)分析過程中各個(gè)步驟中使用的工具_(dá)第2頁
數(shù)據(jù)分析過程中各個(gè)步驟中使用的工具_(dá)第3頁
數(shù)據(jù)分析過程中各個(gè)步驟中使用的工具_(dá)第4頁
數(shù)據(jù)分析過程中各個(gè)步驟中使用的工具_(dá)第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、;數(shù)據(jù)分析過程中各個(gè)步驟使用的工具數(shù)據(jù)分析也好,統(tǒng)計(jì)分析也好,數(shù)據(jù)挖掘也好、商業(yè)智能也好,都需要在學(xué)習(xí)的時(shí)候掌握各種分析手段和技能,特別是要掌握分析軟件工具!學(xué)習(xí)數(shù)據(jù)分析,一般是先學(xué)軟件開始,再去應(yīng)用,再學(xué)會理論和原理!沒有軟件的方法就不去學(xué)了,因?yàn)閷W(xué)了也不能做,除非你自己會編程序。下圖是一個(gè)頂級的分析工具場,依次從X和Y軸看:第一維度:數(shù)據(jù)存儲層>數(shù)據(jù)報(bào)表層>數(shù)據(jù)分析層>數(shù)據(jù)展現(xiàn)層第二維度:用戶級>部門級>企業(yè)級>BI級我結(jié)合上圖和其他資料統(tǒng)計(jì)了我們可能用到的軟件信息。具體的軟件效果還需要進(jìn)一步研究分析和實(shí)踐。1 第一步:設(shè)計(jì)方案可以考慮的軟件工具: mi

2、nd manager。Mind manager(思維導(dǎo)圖又叫心智圖),是表達(dá)發(fā)射性思維的有效的圖形思維工具 ,它簡單卻又極其有效,是一種革命性的思維工具。思維導(dǎo)圖運(yùn)用圖文并重的技巧,把各級主題的關(guān)系用相互隸屬與相關(guān)的層級圖表現(xiàn)出來,把主題關(guān)鍵詞與圖像、顏色等建立記憶鏈接。思維導(dǎo)圖充分運(yùn)用左右腦的機(jī)能,利用記憶、閱讀、思維的規(guī)律,協(xié)助人們在科學(xué)與藝術(shù)、邏輯與想象之間平衡發(fā)展,從而開啟人類大腦的無限潛能。思維導(dǎo)圖因此具有人類思維的強(qiáng)大功能。思維導(dǎo)圖是一種將放射性思考具體化的方法。我們知道放射性思考是人類大腦的自然思考方式,每一種進(jìn)入大腦的資料,不論是感覺、記憶或是想法包括文字、數(shù)字、符碼、香氣、食

3、物、線條、顏色、意象、節(jié)奏、音符等,都可以成為一個(gè)思考中心,并由此中心向外發(fā)散出成千上萬的關(guān)節(jié)點(diǎn),每一個(gè)關(guān)節(jié)點(diǎn)代表與中心主題的一個(gè)連結(jié),而每一個(gè)連結(jié)又可以成為另一個(gè)中心主題,再向外發(fā)散出成千上萬的關(guān)節(jié)點(diǎn),呈現(xiàn)出放射性立體結(jié)構(gòu),而這些關(guān)節(jié)的連結(jié)可以視為您的記憶,也就是您的個(gè)人數(shù)據(jù)庫。2 第二步:數(shù)據(jù)采集可以考慮的工具軟件:word、excel、access、oracle、mysql。2.1 Word、Excel和Access等有關(guān)office軟件的內(nèi)容,我們就不介紹了。2.2 Oracle Database又名Oracle RDBMS,或簡稱Oracle。是甲骨文公司的一款關(guān)系數(shù)據(jù)庫管理系統(tǒng)。它

4、是在數(shù)據(jù)庫領(lǐng)域一直處于領(lǐng)先地位的產(chǎn)品。可以說Oracle數(shù)據(jù)庫系統(tǒng)是目前世界上流行的關(guān)系數(shù)據(jù)庫管理系統(tǒng),系統(tǒng)可移植性好、使用方便、功能強(qiáng),適用于各類大、中、小、微機(jī)環(huán)境。它是一種高效率、可靠性好的 適應(yīng)高吞吐量的數(shù)據(jù)庫解決方案。介紹:2.3 MySQL(發(fā)音為"my ess cue el",不是"my sequel")是一種開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS),MySQL數(shù)據(jù)庫系統(tǒng)使用最常用的數(shù)據(jù)庫管理語言-結(jié)構(gòu)化查詢語言(SQL)進(jìn)行數(shù)據(jù)庫管理。這個(gè)也不做過多介紹。3 第三步:數(shù)據(jù)處理可以考慮的工具軟件:Epidata、excel、 SPSS

5、、ETL。3.1 EpiData工具是一個(gè)既可以用于創(chuàng)建數(shù)據(jù)結(jié)構(gòu)文檔,也可以用于數(shù)據(jù)定量分析一組應(yīng)用工具的集合。EpiData協(xié)會于1999年在丹麥成立。EpiData采用Pascal開發(fā)。在允許的情況下,盡可能地使用開放標(biāo)準(zhǔn)(如HTML)。介紹:下載地址:3.2 Excel工具有關(guān)Office軟件的信息不做介紹3.3 SPSS工具(Statistical Product and Service Solutions),“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件。最初軟件全稱為“社會科學(xué)統(tǒng)計(jì)軟件包”(SolutionsStatistical Package for the Social Sciences),

6、但是隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,標(biāo)志著SPSS的戰(zhàn)略方向正在做出重大調(diào)整。為IBM公司推出的一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘、預(yù)測分析和決策支持任務(wù)的軟件產(chǎn)品及相關(guān)服務(wù)的總稱SPSS,有Windows和Mac OS X等版本。百度百科介紹:BFmrHEngsfG5ou233d9aAxvgrrlw-NqSiZoa下載地址:備注:安裝需要注冊碼3.4 ETL模式是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載

7、(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle開源的工具有eclipse的etl插件。cloveretl.數(shù)據(jù)集成:快速實(shí)現(xiàn)ETL百度百科介紹:6XXe_rywObzPm2QflItlwnSDrX5eUpsW8h-Ja0ISldXVuoMN0Pn5d1iCtTu 相關(guān)軟件下載:FineBI工具4 第四步:

8、數(shù)據(jù)分析可以考慮的工具軟件:SPSS、SAS、Matlab、Eviews、Stata、Excel、Weka、RapidMiner。4.1 SPSS是一個(gè)綜合類數(shù)據(jù)分析處理軟件,前面介紹了,我們在這一部分就不再介紹。4.2 SAS(全稱STATISTICAL ANALYSIS SYSTEM,簡稱SAS)是全球最大的軟件公司之一,是由美國NORTH CAROLINA州立大學(xué)1966年開發(fā)的統(tǒng)計(jì)分析軟件。百度百科介紹:下載地址:備注:安裝需要虛擬光盤、sid等信息。也可以購買sid。4.3 Matlab每個(gè)人都很了解,我就不做太多介紹了。4.4 Eviews是Econometrics Views的縮

9、寫,直譯為計(jì)量經(jīng)濟(jì)學(xué)觀察,通常稱為計(jì)量經(jīng)濟(jì)學(xué)軟件包。它的本意是對社會經(jīng)濟(jì)關(guān)系與經(jīng)濟(jì)活動的數(shù)量規(guī)律,采用計(jì)量經(jīng)濟(jì)學(xué)方法與技術(shù)進(jìn)行“觀察”。另外Eviews也是美國QMS公司研制的在Windows下專門從事數(shù)據(jù)分析、回歸分析和預(yù)測的工具。使用Eviews可以迅速地從數(shù)據(jù)中尋找出統(tǒng)計(jì)關(guān)系,并用得到的關(guān)系去預(yù)測數(shù)據(jù)的未來值。Eviews的應(yīng)用范圍包括:科學(xué)實(shí)驗(yàn)數(shù)據(jù)分析與評估、金融分析、宏觀經(jīng)濟(jì)預(yù)測、仿真、銷售預(yù)測和成本分析等。介紹:JW8XexwC-_vZ-7sL4zNWZQcCvN4oWReneCHa7mopZtK4VAvbdF2hUjNwbYIgngbqTQdcm7ApSfoTwTR4Ct_下載地

10、址:4.5 Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計(jì)軟件。它提供許許多多功能,包含線性混合模型、均衡重復(fù)反復(fù)及多項(xiàng)式普羅比模式。Stata 其統(tǒng)計(jì)分析能力遠(yuǎn)遠(yuǎn)超過了 SPSS ,在許多方面也超過了 SAS !由于 Stata 在分析時(shí)是將數(shù)據(jù)全部讀入內(nèi)存,在計(jì)算全部完成后才和磁盤交換數(shù)據(jù),因此計(jì)算速度極快(一般來說, SAS 的運(yùn)算速度要比 SPSS 至少快一個(gè)數(shù)量級,而 Stata 的某些模塊和執(zhí)行同樣功能的 SAS 模塊比,其速度又比 SAS 快將近一個(gè)數(shù)量級?。?Stata 也是采用命令行方式來操作,但使用上遠(yuǎn)比 SAS 簡單。其生存數(shù)據(jù)分析、縱

11、向數(shù)據(jù)(重復(fù)測量數(shù)據(jù))分析等模塊的功能甚至超過了 SAS 。用 Stata 繪制的統(tǒng)計(jì)圖形相當(dāng)精美,很有特色。介紹:下載:4.6 weka全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費(fèi)的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品-Clementine )的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machine learning)以及數(shù)據(jù)挖掘(data minining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來

12、自New Zealand的the University of Waikato。介紹:下載:4.7 RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡化數(shù)據(jù)挖掘過程的設(shè)計(jì)和評價(jià)。免費(fèi)提供數(shù)據(jù)挖掘技術(shù)和庫100%用Java代碼(可運(yùn)行在大部分操作系統(tǒng)上)數(shù)據(jù)挖掘過程簡單,強(qiáng)大和直觀內(nèi)部XML保證了標(biāo)準(zhǔn)化的格式來表示交換數(shù)據(jù)挖掘過程可以用簡單腳本語言自動進(jìn)行大規(guī)模進(jìn)程多層次的數(shù)據(jù)視圖,確保有效和透明的數(shù)據(jù)圖形用戶界面的互動原型命令行(批處理模式)自動大規(guī)模應(yīng)用Java API(應(yīng)用編程接口)簡單的插件和推廣機(jī)制強(qiáng)大的

13、可視化引擎,許多尖端的高維數(shù)據(jù)的可視化建模值得一提的是,該工具在數(shù)據(jù)挖掘工具榜上位列榜首。備注:下載需要注冊帳號,并付費(fèi)!4.8 Origin為OriginLab公司出品的較流行的專業(yè)函數(shù)繪圖軟件,是公認(rèn)的簡單易學(xué)、操作靈活、功能強(qiáng)大的軟件,既可以滿足一般用戶的制圖需要,也可以滿足高級用戶數(shù)據(jù)分析、函數(shù)擬合的需要。5 第五步:數(shù)據(jù)呈現(xiàn)可以考慮的工具軟件:Excel、SAS、SPSS、Crystal Xcelsious、PPT、Swiff Chart、Foxtable、Cognos、Tableau。5.1 Excel和PPT5.2 SAS和SPSS這兩類的情況在前面都有介紹,在這一部分也不做太多

14、介紹。5.3 Crystal Xcelsius是全球領(lǐng)先的商務(wù)智能軟件商Business Objects的最新產(chǎn)品,中文名:“水晶易表”。當(dāng)我們需要向客戶和同事展示商業(yè)數(shù)據(jù),但聽眾卻很容易被一大堆數(shù)據(jù)搞得疲倦和困惑。而且,即使人們希望通過增加圖表和圖形來增加展示的效果、來更好地表達(dá)意見,似乎也收效甚微。因?yàn)檫@些靜止的、標(biāo)準(zhǔn)的表現(xiàn)形式看起來都是一樣的。當(dāng)今的市場競爭激烈,資源短缺,各種組織已經(jīng)大量投資于科技手段以獲得關(guān)于公司運(yùn)營的數(shù)據(jù),但人們很難快速的讓這些數(shù)據(jù)變得有意義從而做出快速、準(zhǔn)確的決策,并保持在競爭的前列。通過“如果那么會(What if)”分析來為公司未來的績效進(jìn)行建模,這項(xiàng)工作經(jīng)常

15、是由統(tǒng)計(jì)學(xué)家來完成,但他們不太了解當(dāng)事人需要做出決策并改善業(yè)績的前沿領(lǐng)域。隨著Crystal Xcelsius的推出,以上問題都會得到解決!只需要簡單的點(diǎn)擊操作,Crystal Xcelsius就可以令靜態(tài)的excel 電子表格充滿生動的數(shù)據(jù)展示、動態(tài)表格、圖像和可交互的可視化分析,我們還可以通過多種“如果-那么會”情景分析進(jìn)行預(yù)測。最后,通過一鍵式整合,這些交互式的Crystal Xcelsius分析結(jié)果就可以輕松的嵌入到PowerPoint、Adobe PDF 文檔、Outlook和網(wǎng)頁上了。下載地址:備注:破解注冊:使用內(nèi)存注冊破解工具,點(diǎn)擊"Patch",

16、在安裝目錄下找到xcelsius.exe,確實(shí),再使用下列序列號注冊:Crystal Xcelsius pro 4.X序列號:Xcl4Pro-DLR8FHNM14FAMA2B9NDAXcl4Pro-DWQMAHB94R4G0A036AD6Xcl4Pro-NYXA3BDF10R39AAQ12FDXcl4Pro-0TQW42AM01FA156ECARV如果電腦上安裝是精簡版的office 2003等版本,可能會提示出錯(cuò)。5.4 Swiff Chart主要可以幫你把商業(yè)或重要學(xué)術(shù)研究上的數(shù)據(jù)制成圖表,并且利用參數(shù)或是加入“動作事件”而成為動態(tài)圖表,完成之后更可以輸出成為 Flash (*.SFW)

17、格式,或是嵌入Powerpoint 投影片中,不論用來放在網(wǎng)頁上傳播或是演示文稿使用都十分好用方便。下載地址:5.5 Foxtable是廣東狐表軟件公司開發(fā)的軟件。它將Excel、Access、Foxpro以及易表的優(yōu)勢融合在一起,無論是數(shù)據(jù)錄入、查詢、統(tǒng)計(jì),還是報(bào)表生成,都前所未有的強(qiáng)大和易用,使得普通用戶無需編寫任何代碼,即可輕松完成復(fù)雜的數(shù)據(jù)管理工作,真正做到拿來即用。下載地址:5.6 Cognos是在BI核心平臺之上,以服務(wù)為導(dǎo)向進(jìn)行架構(gòu)的一種數(shù)據(jù)模型,是唯一可以通過單一產(chǎn)品和在單一可靠架構(gòu)上提供完整業(yè)務(wù)智能功能的解決方案。它可以提供無縫密合的報(bào)表、分析、記分卡、儀表盤等解決方案,通過

18、提供所有的系統(tǒng)和資料資源,以簡化公司各員工處理資訊的方法。作為一個(gè)全面、靈活的產(chǎn)品,Cognos業(yè)務(wù)智能解決方案可以容易地整合到現(xiàn)有的多系統(tǒng)和數(shù)據(jù)源架構(gòu)中。Cognos強(qiáng)大的報(bào)表制作和展示功能能夠制作/展示任何形式的報(bào)表,其純粹的Web界面使用方式又使得部署成本和管理成本降到最低。同時(shí)Cognos還可以同數(shù)據(jù)挖掘工具、統(tǒng)計(jì)分析工具配合使用,增強(qiáng)決策分析功能。百度百科介紹:下載地址:5.7 Tableau 是桌面系統(tǒng)中最簡單的商業(yè)智能工具軟件,Tableau 沒有強(qiáng)迫用戶編寫自定義代碼,新的控制臺也可完全自定義配置。在控制臺上,不僅能夠監(jiān)測信息,而且還提供完整的分析能力。Tableau控制臺靈活,具有高度的動態(tài)性。Tableau公司將數(shù)據(jù)運(yùn)算與美觀的圖表完美地嫁接在一起。它的程序很容易上手,各公司可以用它將大量數(shù)據(jù)拖放到數(shù)字“畫布”上,轉(zhuǎn)眼間就能創(chuàng)建好各種圖表。這一軟件的理念是,界面上的數(shù)據(jù)越容易操控,公司對自己在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯(cuò)誤,就能了解得越透徹。但是不易使用和下載。6 第六步:報(bào)告撰寫;可以考慮的工具軟件:Word、Excel、PPT、latex1. 前三個(gè)都是我們常見的office工作軟件,我們不做過多介紹。2. latex是一個(gè)編譯pdf的工具,可以很好的插入圖片、表格等文件,同時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論