




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、利用進行數(shù)據(jù)分析之數(shù)據(jù)加載第一頁,共14頁。1,讀寫文本格式數(shù)據(jù):(read_csv,read_table,read_fwf,read_clipboard,open() to_csv,to_excel,write()2, JSON數(shù)據(jù): (兩個方法:json.loads() json.dumps())3,XML和HTML:WEB信息收集(兩個接口lxml.html, lxml.objectify)4,二進制數(shù)據(jù)格式(pickle函數(shù),短期存儲格式)5,使用HTML和WEB API(requests包)6,使用數(shù)據(jù)庫目錄第二頁,共14頁。讀取文本格式數(shù)據(jù)read_csv從文件,url,文件型對象
2、中加載帶分隔符的數(shù)據(jù),默認分隔符為逗號。read_table從文件,url,文件型對象中加載帶分隔符的數(shù)據(jù),默認分隔符為制表符(t)。read_fwf讀取定寬格式的數(shù)據(jù),無分隔符read_clipboard讀取剪貼板中數(shù)據(jù)第三頁,共14頁。讀取文本格式數(shù)據(jù)pandas讀取文件會自動推斷數(shù)據(jù)類型,不用指定。以read_csv為例,下面是常用的幾個參數(shù):用 names重新規(guī)定列名,用index_col指定索引,也可以將多個列組合作為層次化索引??梢跃帉懻齽t表達式規(guī)定分隔符。用skiprows跳過某些行。缺失數(shù)據(jù)要么沒有,要么用某個標記值表示,pandas常用NA、-1.#IND、NULL等進行標記
3、。用na_values用來不同的NA標記值。Nrows 只讀取幾行Chunksize:逐塊讀取文件定義一個字典為各個列指定NA標記值,直接=null的就是把df中所有為空值的都標為null跳過第3行第四頁,共14頁。將數(shù)據(jù)寫出到文本格式1、利用data_frame的to_csv方法,可以將數(shù)據(jù)寫到一個以逗號分隔的文件中,也可用sep參數(shù)指定分隔符,如 data.to_csv()2、缺失值寫入輸出時會被表示為空字符串,可使用na_rep表示為別的標記值。不添加后綴的話默認是一個file文件data.to_csv(sys.stdout, sep=|) # 打印到屏幕data.to_csv(sys.
4、stdout, na_rep=NULL) # 空字符處顯示為NULL data.to_csv(sys.stdout, index=False, header=False) # 禁用行和列的標簽data.to_csv(sys.stdout, cols=a, b, c) # 按照指定的順序顯示列 sys.stdout就相當于print,使用之前要import第五頁,共14頁。JSON數(shù)據(jù)JSON數(shù)據(jù)已經(jīng)成為通過http請求在wed瀏覽器和其他應用程序之間發(fā)送數(shù)據(jù)的標準格式之一,它是一種比表格型文本格式更靈活的數(shù)據(jù)格式。JSON非常接近于有效的python代碼,基本類型都有對象,數(shù)組,字符串,數(shù)值,
5、布爾型以及null。Python形式JSON格式JSON格式json.loads()json.dumps()第六頁,共14頁。Html基本信息HTML 使用標記標簽來描述網(wǎng)頁HTML 文檔描述網(wǎng)頁保存為后綴名帶.html打開就是一個網(wǎng)頁a href 超鏈接第七頁,共14頁。XML和HTML:WEB信息收集Python有許多可以讀寫HTML和XML格式數(shù)據(jù)的庫,lxml就是其中之一。第八頁,共14頁。XML和HTML:WEB信息收集Python有許多可以讀寫HTML和XML格式數(shù)據(jù)的庫,lxml就是其中之一。from lxml.html import parsefrom urllib.reque
6、st import urlopen urllib2在python中是urllib.requestfrom pandas.io.parsers import TextParserimport pandas as pdparsed=parse(urlopen(http:/ 打開urldoc=parsed.getroot() 可以得到url里面所有的elementprint(-doc-)print (doc)links=doc.findall(./a) 獲取所有為 的超鏈接lnk=links3 找到其中的一個連接下面的內(nèi)容print(-lnk-)print(links3) tables=doc.fi
7、ndall(./table) 找到這個連接下面的所有table元素print(-table-)print (tables) table=tables0 找到想要的tableprint(-calls-) print (calls)rows =table.findall(./tr) 找到table下面所有的行print(-rows-)print (rows)第九頁,共14頁。XML和HTML:WEB信息收集Python有許多可以讀寫HTML和XML格式數(shù)據(jù)的庫,lxml就是其中之一。def _unpack(row,kind=td): elts=row.findall(./%s % kind) re
8、turn val.text_content().strip() for val in eltsprint(-th-) 調(diào)用函數(shù)分別打印th和一行tdprint(_unpack(rows0,kind=th)print()print(-td1-)print(_unpack(rows1,kind=td)text_content()取到每一個td下面的內(nèi)容strip() 刪除前后的空格第十頁,共14頁。XML和HTML:WEB信息收集Python有許多可以讀寫HTML和XML格式數(shù)據(jù)的庫,lxml就是其中之一。直接用Dataframe把行和表頭拼起來也行這里TextParser類可以自動轉換數(shù)據(jù)類型最
9、后用to_excel比to_csv好用,to_csv保存的時候中文不好用第十一頁,共14頁。使用數(shù)據(jù)庫,將excel的數(shù)據(jù)導入DB中python支持多種關系型數(shù)據(jù)庫:SQL Server, MySQL,DB2等,我是直接使用Python自帶的SQLite數(shù)據(jù)庫1.導入Python SQLITE數(shù)據(jù)庫模塊 import sqlites2. 創(chuàng)建/打開數(shù)據(jù)庫在調(diào)用connect函數(shù)的時候,會指定庫名稱,如果指定的數(shù)據(jù)庫存在就直接打開這個數(shù)據(jù)庫,如果不存在就新創(chuàng)建一個再打開。 con=splites.connect(:memory:)3.使用游標查詢數(shù)據(jù)庫 我們需要使用游標對象SQL語句查詢數(shù)據(jù)庫,
10、獲得查詢對象。 通過以下方法來定義一個游標 cursor=con.cursor() cursor.execute() #執(zhí)行sql語句 cursor.executemany #執(zhí)行多條sql語句 cursor.close() #關閉游標 cursor.fetchone() #從結果中取一條記錄,并將游標指向下一條記錄 cursor.fetchmany() #從結果中取多條記錄 cursor.fetchall() #從結果中取出所有記錄 cursor.scroll() #游標滾動第十二頁,共14頁。使用數(shù)據(jù)庫,將excel的數(shù)據(jù)導入DB中python支持多種關系型數(shù)據(jù)庫:SQL Server, MySQL,DB2等,我是直接使用Python自帶的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大型影視項目專用發(fā)電機組與拍攝場地租賃協(xié)議
- 鐵塔作業(yè)安全協(xié)議書
- 壓路機租賃合同協(xié)議書
- 項目人員服務協(xié)議書
- 中關村履約監(jiān)管協(xié)議書
- 質量問題協(xié)議協(xié)議書
- 退場合同終止協(xié)議書
- 合伙向他人購買協(xié)議書
- 酒醉責任自負協(xié)議書
- 便利店供貨合同協(xié)議書
- 校園ip地址規(guī)劃方案表格
- 威圖電柜空調(diào)SK3304500使用說書
- 中國近現(xiàn)代外交史智慧樹知到期末考試答案章節(jié)答案2024年外交學院
- 河南省2022漢字大賽題庫
- 2023年湖北宜昌高新區(qū)社區(qū)專職工作人員(網(wǎng)格員)招聘考試真題及答案
- 2024年江蘇省知識產(chǎn)權競賽參考試題庫(含答案)
- 《導數(shù)及其概念》課件
- 小學英語面試試講(六大課型)
- 國培教師個人成長案例3000字
- 電工技能競賽實操試題庫完整
- 水土保持工程監(jiān)理工作總結報告(格式)
評論
0/150
提交評論