![Python程序設計基礎項目化教程 教案 31 Python爬蟲_第1頁](http://file4.renrendoc.com/view11/M00/1D/04/wKhkGWYAA92APDm0AAEgLM3-gT0164.jpg)
![Python程序設計基礎項目化教程 教案 31 Python爬蟲_第2頁](http://file4.renrendoc.com/view11/M00/1D/04/wKhkGWYAA92APDm0AAEgLM3-gT01642.jpg)
![Python程序設計基礎項目化教程 教案 31 Python爬蟲_第3頁](http://file4.renrendoc.com/view11/M00/1D/04/wKhkGWYAA92APDm0AAEgLM3-gT01643.jpg)
![Python程序設計基礎項目化教程 教案 31 Python爬蟲_第4頁](http://file4.renrendoc.com/view11/M00/1D/04/wKhkGWYAA92APDm0AAEgLM3-gT01644.jpg)
![Python程序設計基礎項目化教程 教案 31 Python爬蟲_第5頁](http://file4.renrendoc.com/view11/M00/1D/04/wKhkGWYAA92APDm0AAEgLM3-gT01645.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Python爬蟲課程名稱Python語言程序教學內(nèi)容Python爬蟲課時1項目性質(zhì)□演性 驗性 □計性 √合性授課班級授課日期授課地點教學目標搭建一個本地網(wǎng)頁,利用python爬蟲爬取本地網(wǎng)頁上的文字內(nèi)容教學內(nèi)容1.借用Pycharm工具,建立Python3項目2.搭建一個本地網(wǎng)頁3.利用python爬蟲爬取本地網(wǎng)頁上的文字內(nèi)容教學重點教學難點利用python爬蟲爬取本地網(wǎng)頁上的文字內(nèi)容教學準備裝有Python的計算機教學課件PPT教學過程教學環(huán)節(jié)教學內(nèi)容與過程(教學內(nèi)容、教學方法、組織形式、教學手段)課前組織做好上課前的各項準備工作(打開計算機、打開課件、打開軟件、打開授課計劃、教案等),吸引學生注意力。課程說明【目的】使學生從了解本節(jié)課的學習目標、學習重點、考評方式等方面明確課程學習的要求和目標。課程內(nèi)容描述1 本地網(wǎng)站數(shù)據(jù)的準備與python實現(xiàn)簡單爬蟲功能知識點1)啟動Tomcat發(fā)布本地網(wǎng)站實驗目的1)本地網(wǎng)站數(shù)據(jù)的準備實驗環(huán)境1)OracleLinux7.42)Jdk1.8.0_1713)Pycharm4)Python3.6.5實驗步驟1)基于本地的網(wǎng)站數(shù)據(jù)的準備1.啟動Tomcat,查看發(fā)布的網(wǎng)站,。[Command001]:catalina.shstart[Command002]:ls/opt/tomcat/webapps/liarbry/html/2.單擊桌面左下角的人形圖標3.單擊網(wǎng)頁瀏覽器,如下圖4.打開的瀏覽器地址欄中輸入網(wǎng)頁地址,查看網(wǎng)頁內(nèi)容。[Command003]:http://localhost:8080/liarbry/html/books-1.html2Python3實現(xiàn)簡單爬蟲功能知識點1)啟動服務,發(fā)布網(wǎng)站。2)Python的Urllib2模擬瀏覽器訪問網(wǎng)頁3)Python將網(wǎng)頁數(shù)據(jù)爬取到本地,做為實驗數(shù)據(jù)使用。實驗目的1)理解python的Urllib2模擬瀏覽器原理實驗環(huán)境1)OracleLinux7.42)Jdk1.8.0_1713)Pycharm4)Python3.6.5實驗步驟1)Pycharm建立Python3項目1.鼠標雙擊桌面“pycharm”圖標,打開pycharm工具,依次選擇主菜單File->NewProject…選項,在彈出的窗口中Location對應的文本框中輸入項目名project,點擊Create按鈕,完成項目的創(chuàng)建。2.如果是第1次打開此工具會彈出“WelcometoPyCharmCommunityEdition”窗口,鼠標點擊“Donotshowagain”,下次再打開工具時就不會彈出此窗口。然后選擇“CreateNewProject”,在彈出的窗口中Location對應的文本框中輸入項目名project,點擊Create按鈕,完成項目的創(chuàng)建。3.建立包名experiment,用于寫清洗Python程序。具體做法:選中新建立的項目project->鼠標右鍵->New->PythonPackage。4.在彈出的NewPackage窗口中的文本框內(nèi),輸入要建立的包名(用戶可自定義)“experiment”,點擊OK按鍵,完成包名的創(chuàng)建。5.此時在窗口左側的窗口中的project項目下可以看到新建立experiment程序包,在該包下寫實驗相關的Python程序。6.設置統(tǒng)一的編碼模式,使新生成的文件支持中文,統(tǒng)一設置utf-8編碼。具體做法:File->settings->Editor->FileandCodeTemplates->PythonScript。在PythonScript對應的文本模式中輸入具體編碼設置,點擊OK按鈕,完成設置。[Code001]:#!/usr/bin/python#-*-coding:utf-8-*-2)編寫Python3程序,實現(xiàn)爬取網(wǎng)頁數(shù)據(jù)的功能1.為了實現(xiàn)爬取http://localhost:8080/liarbry/html/books-1.html網(wǎng)頁的數(shù)據(jù),建立python文件Spider.py編寫程序。具體做法:選中包名experiment->鼠標右鍵->選擇New->選擇PythonFile。2.在彈出的窗口中,屬性值Name對應的文本框中輸入新建立的文件的名字“Spider”,點擊OK按鈕,完成文件的創(chuàng)建。3.在新建立的Spider.py文件中編寫代碼。具體代碼如下。[Code002]:#!/usr/bin/python#-*-coding:utf-8-*-#加載模塊importrequestsimportbs4#定義待爬取網(wǎng)頁連接url='http://localhost:8080/liarbry/html/books-3.html'#獲取網(wǎng)頁源碼response=requests.get(url)#使用bs4解析網(wǎng)頁content=bs4.BeautifulSoup(response.content.decode("utf-8"),"lxml")#找到節(jié)點<a>的信息element=content.find_all(name='a')#打開文本文件并寫入信息f1=open('urls.txt','w')f1.write(str(element).strip())f1.close()#查找第三個節(jié)點<a>中的第0個內(nèi)容element=content.find_all('a')[3].contents[0]print(element)#查找href為特定鏈接的節(jié)點element=content.find_all(href='/catalogue/category/books/sports-and-games_17/index.html')print(element)#查找屬性id為default的節(jié)點element=content.find_all(id='default')f2=open('body.txt','w')f2.write(str(element).strip())f2.close()4.其中Spider.py文件編寫程序后的樣式如圖所示。5.代碼中單擊右鍵,選擇RunSpider,運行程序。如下圖所示.6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度土地使用權出讓合同(大型地塊)1
- D類資金信托合同(浮動收益類)
- 個人商用房抵押借款合同模板
- 三人合伙投資合同書
- 中外合資飯店合作開發(fā)合同
- 兩大煤礦企業(yè)簽訂戰(zhàn)略合作合同
- 二手辦公用品采購合同
- 人事招聘委托代理合同規(guī)定
- 中西醫(yī)結合醫(yī)師培訓合同范本
- 中小企業(yè)板塊上市證券合同范本(版)
- 2024年高考英語讀后續(xù)寫高分寶典專題08讀后續(xù)寫肢體動作描寫積累1(詞-句-文)講義
- 商業(yè)與公積金貸款政策
- 時政述評培訓課件
- 2022屆高三體育特長生家長會
- 不對外供貨協(xié)議
- 2024屆高考作文主題訓練:時評類(含解析)
- 260噸汽車吊地基承載力驗算
- 公司新員工三級安全教育培訓(車間級)
- 北師大版高三數(shù)學選修4-6初等數(shù)論初步全冊課件【完整版】
- 老子道德經(jīng)全文講解學習課件
- 企業(yè)更名通知函
評論
0/150
提交評論