大數據應用基礎(微課版)-課件 項目四 Python應用基礎 實訓三 財務數據采集_第1頁
大數據應用基礎(微課版)-課件 項目四 Python應用基礎 實訓三 財務數據采集_第2頁
大數據應用基礎(微課版)-課件 項目四 Python應用基礎 實訓三 財務數據采集_第3頁
大數據應用基礎(微課版)-課件 項目四 Python應用基礎 實訓三 財務數據采集_第4頁
大數據應用基礎(微課版)-課件 項目四 Python應用基礎 實訓三 財務數據采集_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

VIP免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據應用基礎Python應用基礎01項目一

爬蟲與反爬蟲反爬手段:反爬手段通過User-Agent校驗反爬通過訪問頻度反爬通過驗證碼校驗反爬通過賬號權限反爬通過變換網頁結構反爬看起來很復雜有木有?往下翻試試項目一

爬蟲與反爬蟲無反爬措施驗證碼反爬蟲……訪問頻率UA反爬蟲登錄反爬蟲網頁爬取識別驗證碼……代理ip設置UA模擬登錄項目二

網頁數據采集流程我們思考一下網頁數據爬取的流程?。。》治鼍W頁結構爬取網頁內容解析網頁內容瀏覽器開發(fā)者模式(F12)requests庫BeautifulSoup庫一、分析網頁結構瀏覽器——F12——進入開發(fā)者模式數據采集需要對html層次進行認真分析,而網頁往往非常復雜,需要我們具有吃苦耐勞的品質與認真細致的鉆研精神。一、分析網頁結構標頭(Headers)請求URL:請求訪問的鏈接請求方法:getorpost狀態(tài)代碼:200OK,表示請求成功遠程地址(IP地址)User-Agent:用戶代理(請回到PPT13頁是,何時需要用到它)二、使用requests庫請求網站請求訪問的URL請求的方法:get三、使用BeautifulSoup解析網頁函數先定義,再調用!從bs4中調用BeautifulSoup庫1、定義一個函數,解析htmlContent;2、html.parser為解析器,解析html內容,并賦值給bs;3、我們要解析的“新聞”標簽在哪里呢?如何找到它?在開發(fā)者模式中使用定位功能查找,再使用find命令進行提取,將提取內容賦值給divTag;4、輸出divTag的內容此處為函數調用,調用parseBaidu函數財務數據采集02實訓三財務數據采集背景:資產負債表是反映公司某一特定日期(月末、年末)全部資產、負債和所有者權益情況的會計報表。本節(jié)利用資產負債表的資料,可以看出公司資產的分布狀態(tài)、負債和所有者權益的構成情況,據以評價公司資金營運、財務結構是否正常、合理;分析公司的流動性或變現能力,以及長、短期債務數量及償債能力,評價公司承擔風險的能力;利用該表提供的資料還有助于計算公司的獲利能力,評價公司的經營績效。上市公司財務報表的作用首先在于提供決策有用的會計信息。編制財務報告不是最終目的,而是為上市公司現在和潛在的投資者、債權人以及其他財務報告的使用者提供決策有用的財務信息。實訓三財務數據采集網頁的內容是網站的數據資源,數據采集需要尊重和保護他人的隱私,嚴禁違法使用采集的數據,應遵守《中華人民共和國數據安全法》!實訓三財務數據采集任務一:財務報表數據采集指標分析1、分析財務報表網頁數據;2、明確數據采集指標;任務二:財務指標網頁結構分析1、分析財務指標和財務數據的網頁結構;

2、分析財務數據的每行數據;3、分析財務指標的每列數據;任務三:財務指標數據采集程序編寫。

1、使用Requests下載網頁數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論