版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
項目一
Python數(shù)據(jù)分析概述《財務(wù)大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院財務(wù)大數(shù)據(jù)分析課程團(tuán)隊
目錄任務(wù)一認(rèn)識數(shù)據(jù)分析任務(wù)二Python數(shù)據(jù)分析的工具?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院1.掌握廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析的概念;
2.掌握典型的數(shù)據(jù)分析流;
3.了解七大類常見的數(shù)據(jù)分析應(yīng)用場景;
4.了解數(shù)據(jù)分析常用的Python、R和MATLAB工具;
5.了解使用Python工具進(jìn)行數(shù)據(jù)分析的優(yōu)勢;
6.了解7個Python數(shù)據(jù)分析常用類庫。學(xué)習(xí)任務(wù)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院任務(wù)一
認(rèn)識數(shù)據(jù)分析?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院數(shù)據(jù)分析的概念一大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合具有海量的數(shù)據(jù)規(guī)??焖俚臄?shù)據(jù)流轉(zhuǎn)多樣的數(shù)據(jù)類型價值密度低四大特征數(shù)據(jù)分析的概念一數(shù)據(jù)分析是指用適當(dāng)?shù)姆治龇椒▽κ占瘉淼拇罅繑?shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論,對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。隨著計算機(jī)技術(shù)的全面發(fā)展,企業(yè)生產(chǎn)、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增。而在現(xiàn)實(shí)生活中,需要把這些業(yè)務(wù)部門繁多、復(fù)雜的數(shù)據(jù)通過統(tǒng)計分析進(jìn)行提煉,以此研究出數(shù)據(jù)的發(fā)展規(guī)律,進(jìn)而幫助企業(yè)管理層做出決策。一數(shù)據(jù)分析的概念廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。狹義的數(shù)據(jù)分析是指根據(jù)分析目的,生產(chǎn)部門采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集的數(shù)據(jù)進(jìn)行處理與分析,提取有價值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個特征統(tǒng)計量結(jié)果的過程。數(shù)據(jù)挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類模型、分類模型、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價值的過程。一數(shù)據(jù)分析的概念數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,甚至是一種方法論。雖然每個公司都會根據(jù)自身需求和目標(biāo)創(chuàng)建最適合的數(shù)據(jù)分析流程,但數(shù)據(jù)分析的核心步驟是一致的。數(shù)據(jù)分析的流程二需求分析一詞來源于產(chǎn)品設(shè)計,主要是指從用戶提出的需求出發(fā),挖掘用戶內(nèi)心的真實(shí)意圖,并轉(zhuǎn)化為產(chǎn)品需求的過程。產(chǎn)品設(shè)計的第一步就是需求分析,也是最關(guān)鍵的一步,因?yàn)樾枨蠓治鰶Q定了產(chǎn)品方向。錯誤的需求分析可能導(dǎo)致在產(chǎn)品實(shí)現(xiàn)過程中走入錯誤方向,甚至對企業(yè)造成損失。數(shù)據(jù)分析中的需求分析是數(shù)據(jù)分析環(huán)節(jié)的第一步,也是非常重要的一步,決定了后續(xù)的分析方向和方法。數(shù)據(jù)分析中的需求分析的主要內(nèi)容是,根據(jù)業(yè)務(wù)、生產(chǎn)和財務(wù)等部門的需要,結(jié)合現(xiàn)有的數(shù)據(jù)情況,提出數(shù)據(jù)分析需求的整體分析方向、分析內(nèi)容,最終和需求方達(dá)成一致意見。(1)需求分析(2)數(shù)據(jù)獲取網(wǎng)絡(luò)數(shù)據(jù)本地數(shù)據(jù)二數(shù)據(jù)分析的流程數(shù)據(jù)獲取是數(shù)據(jù)分析工作的基礎(chǔ),是指根據(jù)需求分析的結(jié)果提取、收集數(shù)據(jù)。數(shù)據(jù)獲取主要有兩種方式:網(wǎng)絡(luò)數(shù)據(jù)是指存儲在互聯(lián)網(wǎng)中的各類視頻、圖片、語音和文字等信息;本地數(shù)據(jù)則是指存儲在本地數(shù)據(jù)庫中的生產(chǎn)、營銷和財務(wù)等系統(tǒng)的數(shù)據(jù)。本地數(shù)據(jù)按照數(shù)據(jù)時間又可以劃分為兩部分:歷史數(shù)據(jù)與實(shí)時數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運(yùn)行過程中遺存下來的數(shù)據(jù),其數(shù)據(jù)量隨系統(tǒng)運(yùn)行時間的增加而增長;實(shí)時數(shù)據(jù)是指最近一個單位時間周期(月、周、日、小時等)內(nèi)產(chǎn)生的數(shù)據(jù)。(3)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進(jìn)行數(shù)據(jù)合并、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)變換,并直接用于分析建模的這一過程的總稱。其中,數(shù)據(jù)合并可以將多張互相關(guān)聯(lián)的表格合并為一張;數(shù)據(jù)清洗可以去掉重復(fù)、缺失、異常、不一致的數(shù)據(jù);數(shù)據(jù)標(biāo)準(zhǔn)化可以去除特征間的量綱差異;數(shù)據(jù)變換則可以通過離散化、啞變量處理等技術(shù)滿足后期分析與建模的數(shù)據(jù)要求。在數(shù)據(jù)分析的過程中,數(shù)據(jù)預(yù)處理的各個過程互相交叉,并沒有明確的先后順序。二數(shù)據(jù)分析的流程(4)分析與建模分析與建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類模型、分類模型、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法,發(fā)現(xiàn)數(shù)據(jù)中的有價值信息,并得出結(jié)論的過程。二數(shù)據(jù)分析的流程二數(shù)據(jù)分析的流程分析與建模的方法按照目標(biāo)不同可以分為幾大類。如果分析目標(biāo)是描述客戶行為模式的,可采用描述型數(shù)據(jù)分析方法,同時還可以考慮關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類模型等。如果分析目標(biāo)是量化未來一段時間內(nèi)某個事件發(fā)生概率的,則可以使用兩大預(yù)測分析模型,即分類預(yù)測模型和回歸預(yù)測模型。在常見的分類預(yù)測模型中,目標(biāo)特征通常都是二元數(shù)據(jù),例如欺詐與否、流失與否、信用好壞等。在回歸預(yù)測模型中,目標(biāo)特征通常都是連續(xù)想要據(jù),常見的有股票價格預(yù)測和違約損失率預(yù)測等。(5)模型評價與優(yōu)化模型評價是指對于已經(jīng)建立的一個或多個模型,根據(jù)其模型的類別,使用不同的指標(biāo)評價其性能優(yōu)劣的過程。常用的聚類模型評價指標(biāo)有ARI評價法(蘭德系數(shù))、AMI評價法(互信息)、V-measure評分、FMI評價法和輪廓系數(shù)等。常用的分類模型評價指標(biāo)有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(FlValue)、ROC和AUC等。常用的回歸模型評價指標(biāo)有平均絕對誤差、均方誤差、中值絕對誤差和可解釋方差值等。二數(shù)據(jù)分析的流程模型優(yōu)化則是指模型性能在經(jīng)過模型評價后已經(jīng)達(dá)到了要求,但在實(shí)際生產(chǎn)環(huán)境應(yīng)用過程中,發(fā)現(xiàn)模型的性能并不理想,繼而對模型進(jìn)行重構(gòu)與優(yōu)化的過程。在多數(shù)情況下。模型優(yōu)化和分析與建模的過程基本一致。二數(shù)據(jù)分析的流程(6)部署部署是指將數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。根據(jù)需求的不同,部署階段可以是一份包含了現(xiàn)狀具體整改措施的數(shù)據(jù)分析報告,也可以是將模型部署在整個生產(chǎn)系統(tǒng)的解決方案。在多數(shù)項目中,數(shù)據(jù)分析師提供的是一份數(shù)據(jù)分析報告或者一套解決方案,實(shí)際執(zhí)行與部署的是需求方。二數(shù)據(jù)分析的流程THANKSFORWATCHING感謝欣賞
JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院項目一
Python數(shù)據(jù)分析概述《財務(wù)大數(shù)據(jù)分析》課程JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院財務(wù)大數(shù)據(jù)分析課程團(tuán)隊
目錄任務(wù)一認(rèn)識數(shù)據(jù)分析任務(wù)二Python數(shù)據(jù)分析的工具?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院1.掌握廣義的數(shù)據(jù)分析和狹義的數(shù)據(jù)分析的概念;
2.掌握典型的數(shù)據(jù)分析流;
3.了解七大類常見的數(shù)據(jù)分析應(yīng)用場景;
4.了解數(shù)據(jù)分析常用的Python、R和MATLAB工具;
5.了解使用Python工具進(jìn)行數(shù)據(jù)分析的優(yōu)勢;
6.了解7個Python數(shù)據(jù)分析常用類庫。學(xué)習(xí)任務(wù)JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院任務(wù)二
Python數(shù)據(jù)分析的工具?JIANGSUVOCATIONALCOLLEGEOFINFORMATIONTECHNOLOGY江蘇信息職業(yè)技術(shù)學(xué)院了解數(shù)據(jù)分析常用工具目前主流的數(shù)據(jù)分析語言有Python、R、MATLAB這3種。其中,Python具有豐富和強(qiáng)大的庫。它常被稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是C/C++)很輕松地連接在一起,是一門更易學(xué)、更嚴(yán)謹(jǐn)?shù)某绦蛟O(shè)計語言。R語言則是用于統(tǒng)計分析、繪圖的語言和操作環(huán)境。它屬于GNU系統(tǒng)的一個自由、免費(fèi)、源代碼開放的軟件。MATLAB的作用是進(jìn)行矩陣運(yùn)算、繪制函數(shù)與數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面和連接其他編程語言的程序等,主要應(yīng)用于工程計算、控制設(shè)計、信號處理與通信、圖像處理、信號檢測、金融建模設(shè)計等領(lǐng)域。一(1)語法簡單精練。對于初學(xué)者來說,比起其他編程語言,Python更容易上手。(2)有很多功能強(qiáng)大的庫。結(jié)合在編程方面的強(qiáng)大實(shí)力,可以只使用Python這一種語言去構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序。(3)功能強(qiáng)大。從特性觀點(diǎn)來看,Python是一個混合體。豐富的工具集使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之間。Python不僅具備所有腳本語言簡單和易用的特點(diǎn),還提供了編譯語言所具有的高級軟件工程工具。Python數(shù)據(jù)分析的優(yōu)勢二Python是一門應(yīng)用十分廣泛的計算機(jī)語言,在數(shù)據(jù)科學(xué)領(lǐng)域具有無可比擬的優(yōu)勢。Python正在逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域的主流語言。Python數(shù)據(jù)分析主要包含以下5個方面優(yōu)勢。(4)不僅適用于研究和原型構(gòu)建,同時也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人員使用同一種編程工具,會給企業(yè)帶來非常顯著的組織效益,并降低企業(yè)的運(yùn)營成本。資產(chǎn)負(fù)債數(shù)據(jù)結(jié)構(gòu)分析二(5)Python是一門膠水語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘接”在一起。例如,Python的C語言API可以幫助Python程序靈活地調(diào)用C程序。這意味著用戶可以根據(jù)需要給Python程序添加功能。IPython是Python科學(xué)計算標(biāo)準(zhǔn)工具集的組成部分,它將其他所有相關(guān)的工具聯(lián)系在一起,為交互式和探索式計算提供了一個強(qiáng)健而高效的環(huán)境。同時,它是一個增強(qiáng)的PythonShell,目的是提高編寫、測試、調(diào)試Python代碼的速度。IPython主要用于交互式數(shù)據(jù)并行處理,是分布式計算的基礎(chǔ)架構(gòu)。另外,IPython還提供了一個類似于Mathematica的HTML筆記本、一個基于Qt框架的GUI控制臺,具有繪圖、多行編輯以及語法高亮顯示等功能。Python數(shù)據(jù)分析常用類庫三1、IPYthon(1)快速高效的多維數(shù)組對象ndarray。三Python數(shù)據(jù)分析常用類庫2、NumPyNumPy是NumericalPython的簡稱,是一個Python科學(xué)計算的基礎(chǔ)包。NumPy主要提供了以下內(nèi)容。(2)對數(shù)組執(zhí)行元素級計算以及直接對數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù)。(3)讀/寫硬盤上基于數(shù)組的數(shù)據(jù)集的工具。(4)線性代數(shù)運(yùn)算、傅里葉變換及隨機(jī)數(shù)生成的功能。(5)將C、C++、Fortran代碼集成到Python的工具。除了為Python提供快速的數(shù)組處理能力外,NumPy在數(shù)據(jù)分析方面還有另外一個主要作用,即作為算法之間傳遞數(shù)據(jù)的容器。對于數(shù)值型數(shù)據(jù),使用NumPy數(shù)組存儲和處理數(shù)據(jù)要比使用內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效得多。此外,由低級語言(比如C和Fortran)編寫的可以直接操作NumPy數(shù)組中數(shù)據(jù),無須進(jìn)行任何數(shù)據(jù)復(fù)制工作。三Python數(shù)據(jù)分析常用類庫3、SciPySciPy基于Python的開源代碼,是一組專門解決科學(xué)計算中各種標(biāo)準(zhǔn)問題域的模塊的集合,特別是與NumPy、Matplotlib、IPYthon、和pandas這些核心包一起使用時。Scipy主要包含了8個模塊,不同的模塊有不同的應(yīng)用,如用于插值,積分,優(yōu)化,處理圖像和特殊函數(shù)等。三Python數(shù)據(jù)分析常用類庫4、pandaspandas是Python的數(shù)據(jù)分析核心庫,最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來。它提供了一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和函數(shù)。Python之所以成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境與它息息相關(guān)。pandas兼具NumPy高性能的數(shù)組計算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如SQL)靈活的數(shù)據(jù)處理功能。它提供了復(fù)雜精細(xì)的索引功能,以便便捷地完成重塑、切片和切塊聚合及選取數(shù)據(jù)子集等操作。pandas將是本書中使用的主要工具。三Python數(shù)據(jù)分析常用類庫Matplotlib是最流行的用于繪制數(shù)據(jù)圖表的Python庫,是Python的2D繪圖庫。Matplotlib的操作比較容易,用戶只需用幾行代碼即可生成直方圖、功率譜圖、條形圖、錯誤圖和散點(diǎn)圖等圖形。Matplotlib提供了pylab的模塊,其中包括了NumPy和pyplot許多常用的數(shù),方便用戶快速進(jìn)行計算和繪圖。Matplotlib與IPython結(jié)合得很好,提供了一種非常好用的交互式數(shù)據(jù)繪圖環(huán)境。5、Matplotlib6、scikit-learnscikit-learn是一個簡單有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可以供用戶在各種環(huán)境下重復(fù)使用。而且scikit-learn建立在NumPy、SciPy和Matplotlib基礎(chǔ)之上,對一些常用的算法方法進(jìn)行了封裝。目前,scikit-learn的基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維和回歸6個。在數(shù)據(jù)量不大的情況下,scikit-learn可以解決大部分問題。三Python數(shù)據(jù)分析常用類庫Spyder(前身是Pydee)是一個強(qiáng)大的交互式Python語言開發(fā)環(huán)境,提供高級的代碼編輯、交互測試和調(diào)試等特性,支持Windows、Linux和OSX系統(tǒng)。Spyder可用于將調(diào)試控制臺直接集成到圖形用戶界面的布局中。Spyder的最大優(yōu)點(diǎn)就是模仿MATLAB的“工作空間”,可以很方便地觀察和修改數(shù)組的值。當(dāng)多個窗格出現(xiàn)在一個區(qū)域時,將使用標(biāo)簽頁的形式顯示。界面包含了“Editor”“Objectinspector”“Variableexplorer”“Fileexplorer”“PythonConsole“Historylog”和“IPythonConsole”等區(qū)域,方便用戶靈活運(yùn)用Python。7、Spyder(一)第一步首先在windows系統(tǒng)中安裝Python以下為在Windows平臺上安裝Python的步驟:(1)第一步雙擊“python-3.9.7-amd64”四安裝Python相關(guān)運(yùn)用軟件(2)第二步單擊“InstallNow”,復(fù)選框中的內(nèi)容都勾選(3)第三步點(diǎn)擊“關(guān)閉”(二)第二步在windows系統(tǒng)中安裝Anconda進(jìn)入Anaconda官方網(wǎng)站,下載Windows系統(tǒng)中的Anaconda安裝包,選擇PYthon3.0以上版本。安裝Anaconda的具體步驟如下。(1)單擊“Next”按鈕進(jìn)入下一步四安裝Python相關(guān)運(yùn)用軟件(2)單擊“IAgree”按鈕,同意上述協(xié)議并進(jìn)入下一步(3)選擇“AllUsers(requiresadminprivileges)”
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 健康綠色環(huán)保演講稿
- 保修承諾書范文
- 乘務(wù)員工作總結(jié)
- 范文學(xué)期計劃模板匯編7篇
- DB12T 488-2013 居家養(yǎng)老社區(qū)服務(wù)規(guī)范
- DB12T 546-2014 南水北調(diào)工程施工現(xiàn)場安全生產(chǎn)管理規(guī)范
- 新學(xué)期學(xué)習(xí)計劃模板集錦4篇
- 新學(xué)期學(xué)習(xí)計劃資料集錦九篇
- 學(xué)校老干部工作總結(jié)
- 高等數(shù)學(xué)教程 上冊 第4版 習(xí)題及答案 P049 第2章 極限與連續(xù)
- 頂管及盾構(gòu)施工技術(shù)及特點(diǎn)(62頁)
- 幼兒園中班語言《啪啦啪啦-碰》微課件
- 物業(yè)公司業(yè)主手冊范本
- 醫(yī)師定期考核表格參考模板
- 英語人教版三年級上冊(教具)動物圖卡
- 民辦非企業(yè)單位(法人)登記申請表08669
- 霍蘭德人格六角形模型(共享內(nèi)容)
- 寶鋼中央研究院創(chuàng)新戰(zhàn)略與運(yùn)行機(jī)制研究
- 建筑CAD測試多選題
- 支座鑄造工藝設(shè)計
- 2022年學(xué)校禁毒工作計劃
評論
0/150
提交評論