Python數(shù)據(jù)分析概述_第1頁
Python數(shù)據(jù)分析概述_第2頁
Python數(shù)據(jù)分析概述_第3頁
Python數(shù)據(jù)分析概述_第4頁
Python數(shù)據(jù)分析概述_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)分析概述軟件技術(shù)教學(xué)部孟繁興QQ:2765469411熟悉Python數(shù)據(jù)分析的工具開發(fā)環(huán)境安裝掌握J(rèn)upyterNotebook常用功能目錄認(rèn)識(shí)數(shù)據(jù)分析234廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘。狹義的數(shù)據(jù)分析是指根據(jù)分析目的,采用對比分析、分組分析、交叉分析和回歸分析等分析方法,對收集來的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過程。數(shù)據(jù)挖掘則是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類、分類、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過程。數(shù)據(jù)分析的概念數(shù)據(jù)分析的流程典型的數(shù)據(jù)分析的流程需求分析:數(shù)據(jù)分析中的需求分析也是數(shù)據(jù)分析環(huán)節(jié)的第一步和最重要的步驟之一,決定了后續(xù)的分析的方向、方法。數(shù)據(jù)獲取:數(shù)據(jù)是數(shù)據(jù)分析工作的基礎(chǔ),是指根據(jù)需求分析的結(jié)果提取,收集數(shù)據(jù)。數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進(jìn)行數(shù)據(jù)合并,數(shù)據(jù)清洗,數(shù)據(jù)變換和數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)變換后使得整體數(shù)據(jù)變?yōu)楦蓛粽R,可以直接用于分析建模這一過程的總稱。分析與建模:分析與建模是指通過對比分析、分組分析、交叉分析、回歸分析等分析方法和聚類、分類、關(guān)聯(lián)規(guī)則、智能推薦等模型與算法發(fā)現(xiàn)數(shù)據(jù)中的有價(jià)值信息,并得出結(jié)論的過程。模型評價(jià)與優(yōu)化:模型評價(jià)是指對已經(jīng)建立的一個(gè)或多個(gè)模型,根據(jù)其模型的類別,使用不同的指標(biāo)評價(jià)其性能優(yōu)劣的過程。部署:部署是指將通過了正式應(yīng)用數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。數(shù)據(jù)分析的流程典型的數(shù)據(jù)分析的流程主要是客戶的基本數(shù)據(jù)信息進(jìn)行商業(yè)行為分析,首先界定目標(biāo)客戶,根據(jù)客戶的需求,目標(biāo)客戶的性質(zhì),所處行業(yè)的特征以及客戶的經(jīng)濟(jì)狀況等基本信息使用統(tǒng)計(jì)分析方法和預(yù)測驗(yàn)證法,分析目標(biāo)客戶,提高銷售效率。其次了解客戶的采購過程,根據(jù)客戶采購類型、采購性質(zhì)進(jìn)行分類分析制定不同的營銷策略。最后還可以根據(jù)已有的客戶特征,進(jìn)行客戶特征分析、客戶忠誠分析、客戶注意力分析、客戶營銷分析和客戶收益分析。了解數(shù)據(jù)分析應(yīng)用場景1.客戶分析產(chǎn)品分析主要是競爭產(chǎn)品分析,通過對競爭產(chǎn)品的分析制定自身產(chǎn)品策略。價(jià)格分析又可以分為成本分析和售價(jià)分析,成本分析的目的是降低不必要成本,售價(jià)分析的目的是制定符合市場的價(jià)格。渠道分析目的是指對產(chǎn)品的銷售渠道進(jìn)行分析,確定最優(yōu)的渠道配比。廣告與促銷分析則能夠結(jié)合客戶分析,實(shí)現(xiàn)銷量的提升,利潤的增加。了解數(shù)據(jù)分析應(yīng)用場景2.營銷分析:囊括了產(chǎn)品分析,價(jià)格分析,渠道分析,廣告與促銷分析這四類分析。以不同社交媒體渠道生成的內(nèi)容為基礎(chǔ),實(shí)現(xiàn)不同社交媒體的用戶分析,訪問分析,互動(dòng)分析等。同時(shí),還能為情感和輿情監(jiān)督提供豐富的資料。用戶分析主要根據(jù)用戶注冊信息,登錄平臺(tái)的時(shí)間點(diǎn)和平時(shí)發(fā)表的內(nèi)容等用戶數(shù)據(jù),分析用戶個(gè)人畫像和行為特征。訪問分析則是通過用戶平時(shí)訪問的內(nèi)容,分析用戶的興趣愛好,進(jìn)而分析潛在的商業(yè)價(jià)值。互動(dòng)分析根據(jù)互相關(guān)注對象的行為預(yù)測該對象未來的某些行為特征。了解數(shù)據(jù)分析應(yīng)用場景3.社交媒體分析新型的病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識(shí)別分析模型,監(jiān)測大量網(wǎng)絡(luò)活動(dòng)數(shù)據(jù)和相應(yīng)的訪問行為,識(shí)別可能進(jìn)行入侵的可疑模式,做到未雨綢繆。了解數(shù)據(jù)分析應(yīng)用場景4.網(wǎng)絡(luò)安全通過物聯(lián)網(wǎng)技術(shù)能夠收集和分析設(shè)備上的數(shù)據(jù)流,包括連續(xù)用電、零部件溫度、環(huán)境濕度和污染物顆粒等無數(shù)潛在特征,建立設(shè)備管理模型,從而預(yù)測設(shè)備故障,合理安排預(yù)防性的維護(hù),以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來的安全風(fēng)險(xiǎn)。了解數(shù)據(jù)分析應(yīng)用場景5.設(shè)備管理

RPythonMATLAB語言學(xué)習(xí)難易程度入門難度低入門難度一般入門難度一般使用場景數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),數(shù)據(jù)可視化等。數(shù)據(jù)分析,機(jī)器學(xué)習(xí),矩陣運(yùn)算,科學(xué)數(shù)據(jù)可視化,數(shù)字圖像處理,web應(yīng)用,網(wǎng)絡(luò)爬蟲,系統(tǒng)運(yùn)維等。矩陣計(jì)算,數(shù)值分析,科學(xué)數(shù)據(jù)可視化,機(jī)器學(xué)習(xí),符號(hào)計(jì)算,數(shù)字圖像處理,數(shù)字信號(hào)處理,仿真模擬等。第三方支持擁有大量的Packages,能夠調(diào)用C,C++,F(xiàn)ortran,Java等其他程序語言。擁有大量的第三方庫,能夠簡便地調(diào)用C,C++,F(xiàn)ortran,Java等其他程序語言。擁有大量專業(yè)的工具箱,在新版本中加入了對C,C++,Java的支持。流行領(lǐng)域工業(yè)界≈學(xué)術(shù)界工業(yè)界>學(xué)術(shù)界工業(yè)界≤學(xué)術(shù)界軟件成本開源免費(fèi)開源免費(fèi)商業(yè)收費(fèi)了解數(shù)據(jù)分析常用工具目前主流的數(shù)據(jù)分析語言有R,Python,MATLAB三種程序語言。物流是物品從供應(yīng)地向接收地的實(shí)體流動(dòng)。通過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)獲得數(shù)據(jù),對于客戶使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測分析模型,有效預(yù)測實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐量,進(jìn)而提前補(bǔ)貨,制定庫存管理策略。了解數(shù)據(jù)分析應(yīng)用場景6.交通物流分析身份信息泄露盜用事件逐年增長,隨之而來的是欺詐行為和交易的增多。公安機(jī)關(guān),各大金融機(jī)構(gòu),電信部門可利用用戶基本信息,用戶交易信息,用戶通話短信信息等數(shù)據(jù),識(shí)別可能發(fā)生的潛在欺詐交易,做到提前預(yù)防未雨綢繆。了解數(shù)據(jù)分析應(yīng)用場景7.欺詐行為檢測開發(fā)環(huán)境安裝掌握J(rèn)upyterNotebook常用功能目錄341熟悉Python數(shù)據(jù)分析的工具認(rèn)識(shí)數(shù)據(jù)分析2python編程語言趨勢Python流行趨勢Python什么是Python優(yōu)雅

擁有簡單腳本語言和解釋

型程序語言的易用性

擁有傳統(tǒng)編譯型程序語言所

有強(qiáng)大通用的功能Python是一種解釋型的、面向?qū)ο蟮摹в袆?dòng)態(tài)語義的高級程序設(shè)計(jì)語言

簡單

明確Python是一門跨平臺(tái)、開源、免費(fèi)的解釋型高級動(dòng)態(tài)編程語言,支持偽編譯將Python源程序轉(zhuǎn)換為字節(jié)碼來優(yōu)化程序和提高運(yùn)行速度,支持使用py2exe、pyinstaller或cx_Freeze工具將Python程序轉(zhuǎn)換為二進(jìn)制可執(zhí)行文件。Python支持命令式編程(Howtodo)、函數(shù)式編程(Whattodo),完全支持面向?qū)ο蟪绦蛟O(shè)計(jì),語法簡潔清晰,擁有大量的幾乎支持所有領(lǐng)域應(yīng)用開發(fā)的成熟擴(kuò)展庫。膠水語言:可以把多種不同語言編寫的程序融合到一起實(shí)現(xiàn)無縫拼接,更好地發(fā)揮不同語言和工具的優(yōu)勢,滿足不同應(yīng)用領(lǐng)域的需求。Python優(yōu)點(diǎn)3.x:必然的趨勢,已經(jīng)開始全面普及啟動(dòng)“IDLE(PythonGUI)”即可啟動(dòng)Python解釋器并可以看到當(dāng)前安裝的Python版本號(hào)。多版本共存與切換簡便方法:修改系統(tǒng)環(huán)境變量pathPython版本選擇2.X還是3.x是一個(gè)增強(qiáng)的Pythonshell,目的是提高編寫、測試、調(diào)試Python代碼的速度。主要用于交互式數(shù)據(jù)并行處理,是分布式計(jì)算的基礎(chǔ)架構(gòu)。提供了一個(gè)類似于Mathematica的HTML筆記本,一個(gè)基于Qt框架的GUI控制臺(tái),具有繪圖、多行編輯以及語法高亮顯示等功能。了解Python數(shù)據(jù)分析常用類庫1.IPython——科學(xué)計(jì)算標(biāo)準(zhǔn)工具集的組成部分?jǐn)?shù)據(jù)表示:采用合適方式用程序表達(dá)數(shù)據(jù)數(shù)據(jù)清理:數(shù)據(jù)歸一化、數(shù)據(jù)轉(zhuǎn)換、異常值處理數(shù)據(jù)統(tǒng)計(jì):數(shù)據(jù)的概要理解,數(shù)量、分布、中位數(shù)等數(shù)據(jù)可視化:直觀展示數(shù)據(jù)內(nèi)涵的方式

數(shù)據(jù)挖掘:從數(shù)據(jù)分析獲得知識(shí),產(chǎn)生數(shù)據(jù)外的價(jià)值人工智能:數(shù)據(jù)/語言/圖像/視覺等方面深度分析與決策從數(shù)據(jù)處理到人工智能數(shù)據(jù)表示->數(shù)據(jù)清洗->數(shù)據(jù)統(tǒng)計(jì)->數(shù)據(jù)可視化->數(shù)據(jù)挖掘->人工智能2018/3/20Python接口使用,C語言實(shí)現(xiàn),計(jì)算速度優(yōu)異-Python數(shù)據(jù)分析及科學(xué)計(jì)算的基礎(chǔ)庫,支撐Pandas等-提供直接的矩陣運(yùn)算、廣播函數(shù)、線性代數(shù)等功能Python庫之?dāng)?shù)據(jù)分析Numpy:表達(dá)N維數(shù)組的最基礎(chǔ)庫提供了簡單易用的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具-理解數(shù)據(jù)類型與索引的關(guān)系,操作索引即操作數(shù)據(jù)-Python最主要的數(shù)據(jù)分析功能庫,基于Numpy開發(fā)Python庫之?dāng)?shù)據(jù)分析Pandas:Python數(shù)據(jù)分析高層次應(yīng)用庫提供了一批數(shù)學(xué)算法及工程數(shù)據(jù)運(yùn)算功能-類似Matlab,可用于如傅里葉變換、信號(hào)處理等應(yīng)用-Python最主要的科學(xué)計(jì)算功能庫,基于Numpy開發(fā)Python庫之?dāng)?shù)據(jù)分析SciPy:數(shù)學(xué)、科學(xué)和工程計(jì)算功能庫-提供了超過100種數(shù)據(jù)可視化展示效果-通過matplotlib.pyplot子庫調(diào)用各可視化效果-Python最主要的數(shù)據(jù)可視化功能庫,基于Numpy開發(fā)Python庫之?dāng)?shù)據(jù)可視化Matplotlib:高質(zhì)量的二維數(shù)據(jù)可視化功能庫-提供一批統(tǒng)一化的機(jī)器學(xué)習(xí)方法功能接口-提供聚類、分類、回歸、強(qiáng)化學(xué)習(xí)等計(jì)算功能-機(jī)器學(xué)習(xí)最基本且最優(yōu)秀的Python第三方庫Python之機(jī)器學(xué)習(xí)Scikit-learn:機(jī)器學(xué)習(xí)方法工具集-谷歌公司推動(dòng)的開源機(jī)器學(xué)習(xí)框架-將數(shù)據(jù)流圖作為基礎(chǔ),圖節(jié)點(diǎn)代表運(yùn)算,邊代表張量-應(yīng)用機(jī)器學(xué)習(xí)方法的一種方式,支撐谷歌人工智能應(yīng)用Python之機(jī)器學(xué)習(xí)TensorFlow:AlphaGo背后的機(jī)器學(xué)習(xí)計(jì)算框架掌握J(rèn)upyterNotebook常用功能目錄41認(rèn)識(shí)數(shù)據(jù)分析開發(fā)環(huán)境安裝3熟悉Python數(shù)據(jù)分析的工具2Python安裝與使用官網(wǎng):Python安裝與使用點(diǎn)擊python安裝圖標(biāo),選擇addpython3.7topathPython安裝與使用檢驗(yàn)安裝是否成功,打開命令窗口界面,輸入命令python,顯示如下界面>>>3+58>>>importmath>>>math.sqrt(9)3.0>>>3*(2+6)24>>>2/0Traceback(mostrecentcalllast):File"<pyshell#18>",line1,in<module>2/0ZeroDivisionError:integerdivisionormodulobyzeroPython簡單使用在IDLE中,如果使用交互式編程模式,那么直接在提示符“>>>”后面輸入相應(yīng)的命令并回車執(zhí)行即可,如果執(zhí)行順利的話,馬上就可以看到執(zhí)行結(jié)果,否則會(huì)拋出異常。交互模式下每次只能執(zhí)行一條語句直到再次出現(xiàn)提示符才能輸入下一條語句Python簡單使用在IDLE界面中使用菜單“File”==>“NewFile”創(chuàng)建一個(gè)程序文件,輸入代碼并保存為.py或.pyw文件“Run”==>“CheckModule”來檢查程序中是否存在語法錯(cuò)誤,“Run”==>“RunModule”運(yùn)行程序pip命令示例說明pipdownloadSomePackage[==version]下載擴(kuò)展庫的指定版本,不安裝pipfreeze[>requirements.txt]以requirements的格式列出已安裝模塊piplist列出當(dāng)前已安裝的所有模塊pipinstallSomePackage[==version]在線安裝SomePackage模塊的指定版本pipinstallSomePackage.whl通過whl文件離線安裝擴(kuò)展庫pipinstallpackage1package2...依次(在線)安裝package1、package2等擴(kuò)展模塊pipinstall-rrequirements.txt安裝requirements.txt文件中指定的擴(kuò)展庫pipinstall--upgradeSomePackage升級SomePackage模塊pipuninstallSomePackage[==version]卸載SomePackage模塊的指定版本pip安裝包常用命令清華:/simple阿里云:/pypi/simple/中國科技大學(xué)/simple/華中理工大學(xué):/山東理工大學(xué):/

豆瓣:/simple/Pip安裝包常用的國內(nèi)鏡像Eclipse+PyDevpyCharmwingIDEEricPythonWinAnaconda3zwPythonPython變成工具默認(rèn)的變成工具是idle安裝pycharm官方網(wǎng)站:/pycharm/download/pycharmPycharm設(shè)置添加python庫預(yù)裝了大量常用Packages。完全開源和免費(fèi)。額外的加速和優(yōu)化是收費(fèi)的,但對于學(xué)術(shù)用途,可以申請免費(fèi)的License。對全平臺(tái)和幾乎所有Python版本支持。了解Python的Anaconda發(fā)行版Anaconda安裝包——“next”——“Iagree”——“AllUsers(requiresadminprivileges)”——選擇安裝路徑——“Install”——“finish”。在Windows系統(tǒng)上安裝Anaconda安裝流程目錄1認(rèn)識(shí)數(shù)據(jù)分析熟悉Python數(shù)據(jù)分析的工具2安裝Python的Anaconda發(fā)行版3掌握J(rèn)upyterNotebook常用功能4打開并新建一個(gè)Notebook掌握J(rèn)upyterNotebook的基本功能打開JupyterNotebook“TextFile”為純文本型“Folder”為文件夾“Python3”表示Python運(yùn)行腳本選擇”Python3”選項(xiàng),進(jìn)入Python腳本編輯界面,Notebook文檔由一系列單元(Cell)構(gòu)成,主要有兩種形式的單元。掌握J(rèn)upyterNotebook的基本功能JupyterNotebook的界面及其構(gòu)成代碼單元。這里是讀者編寫代碼的地方。Markdown單元。在這里對文本進(jìn)行編輯。編輯模式:用于編輯文本和代碼。掌握J(rèn)upyterNotebook的基本功能編輯界面命令模式:用于執(zhí)行鍵盤輸入的快捷命令?!癊sc”鍵:進(jìn)入命令模式“Y”鍵:切換到代碼單元“M”鍵:切換到Markdown單元“B”鍵:在本單元的下方增加一單元“H”鍵:查看所有快捷命令“Shift+Enter”組合鍵:運(yùn)行代碼掌握J(rèn)upyterNotebook的基本功能快捷鍵Markdown是一種可以使用普通文本編輯器編寫的標(biāo)記語言,通過簡單的標(biāo)記語法,它可以使普通文本內(nèi)容具有一定的格式。標(biāo)題:標(biāo)題是標(biāo)明文章和作品等內(nèi)容的簡短語句。一個(gè)“#”字符代表一級標(biāo)題,以此類推。掌握J(rèn)upyt

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論