


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式1:通過循環(huán)改變url字符串?dāng)?shù)字方式,逐一訪問網(wǎng)頁everyurlpage.py功能:通過生成url的方式,遍歷訪問新聞網(wǎng)頁,獲取新聞題目,并存儲到本地文本文件:headlines.txt。訪問日志文件:datetime.txt探究url的規(guī)律,通過程序,循環(huán)遍歷url,達(dá)到打開每一個網(wǎng)頁,進(jìn)行網(wǎng)頁爬蟲的目的。連網(wǎng)打開一個網(wǎng)頁,得到一個網(wǎng)頁的題目。lianxi2.py1. split_join.py:字符串處理函數(shù)。url字符串的拆解、修改、再組合示例程序2. outputeveryurl.py:遍歷一年的每一天,組合成每一天的
2、新聞網(wǎng)頁url1.具備http協(xié)議header檢測功能:checkurl()方法;checkurl.py(教材4.2)2.具備多處拋出異常容錯功能:tryexcept;ulr最后一部分長達(dá)9位,到達(dá)億的單位。如果每一天都遍歷這么多網(wǎng)頁,盡管有http header檢測功能,時間上是不可行的。也許適用于只爬取一天的新聞。方式2:遍歷本地已下載網(wǎng)頁方式everylocalpage.py功能:通過遍歷本地文件夾的方式,找到網(wǎng)頁文件,進(jìn)行解析,獲取新聞題目。并存儲到本地文件headlines.txt。記錄遍歷日志datetime.txt。先用teleport網(wǎng)站復(fù)制程序,把網(wǎng)頁下載到本地。找到文件夾目
3、錄結(jié)構(gòu)規(guī)律,對每個文件夾內(nèi)的網(wǎng)頁文件進(jìn)行查找匹配。打開網(wǎng)頁找到的新聞網(wǎng)頁,獲取每一個新聞的題目。打開一個本地網(wǎng)頁,得到一個新聞的標(biāo)題。lianxi1.py1. globfindfile.py:通過匹配文件名的方式,找到指定文件夾內(nèi),符合文件名規(guī)則的文件。2. globhtm.py通過匹配文件名的方式,找到符合匹配模式的文件,進(jìn)行網(wǎng)頁爬蟲。1.輸出程序執(zhí)行過程日志datetime.txt,記錄遍歷過的文件夾,是否存在,解析的網(wǎng)頁數(shù)量等日志信息。2.具備如果不存在某個日期文件夾,通過拋出異常使程序繼續(xù)運(yùn)行的容錯功能。由于teleport的運(yùn)行機(jī)制原因,teleport并不能復(fù)制網(wǎng)站的所有網(wǎng)頁,只能
4、夠下載到近期網(wǎng)頁,但對于以前的網(wǎng)頁,能夠下載的網(wǎng)頁的覆蓋率非常低。所以獲取的新聞數(shù)量非常少(398k,2300多條新聞),不符合目標(biāo)需求。多種方式進(jìn)行網(wǎng)絡(luò)爬蟲方式特點及程序匯總注:程序測試時,先在c盤根目錄下建立test文件夾,再把每種方式的測試程序拷入其中進(jìn)行測試。 將enorth.rar壓縮文件解壓到c盤根目錄。續(xù):方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式3:找到網(wǎng)站的一類新聞列表頁面,對新聞題目列表進(jìn)行爬取newslisturl.py功能:通過遍歷url的方式,訪問新聞列表頁面,解析輸出新聞標(biāo)題和url。循環(huán)遍歷所有分頁先找到網(wǎng)站的新聞列表頁面,爬取該頁面每條新
5、聞的標(biāo)題和url等信息。再探究該列表頁面分頁的url的產(chǎn)生規(guī)則,循環(huán)遍歷每一個分頁。是以方式1為基礎(chǔ),通過url遍歷網(wǎng)頁,但對象是新聞列表頁。爬取北方網(wǎng)新聞列表頁面一頁新聞的基礎(chǔ)程序。newslist_onepage.py1.findall.pyre.findall()方法學(xué)習(xí)程序,并和re.search()作比較2.findall_research.py()通過re.findall和research結(jié)合使用,經(jīng)過兩次匹配解析,分別得到標(biāo)題和url。輸出findallnews.txt,包含3類匹配結(jié)果1.輸出程序執(zhí)行過程日志文件:for_test.txt,記錄了訪問過哪些新聞列表分頁2.在循環(huán)
6、遍歷階段,對url的位數(shù)進(jìn)行了補(bǔ)齊,使之符合網(wǎng)頁url規(guī)則樣式。該方式已經(jīng)能夠大大增加對網(wǎng)站新聞題目進(jìn)行數(shù)據(jù)收集的覆蓋率(1017頁,5萬多條)。但是,也許不能100%覆蓋是必然的,需要同時使用其它方式的程序作為輔助,提高網(wǎng)頁信息收集的覆蓋率。方式4:找到已下載到本地的各類新聞列表頁面,解析輸出newslistlocal.py功能:遞歸遍歷本地所有新聞列表頁,解析輸出新聞標(biāo)題、url等信息將用teleport下載到本地的網(wǎng)頁,針對新聞列表頁面進(jìn)行爬蟲。此時的新聞列表頁面是各類新聞的列表頁。同方式3結(jié)合使用,作為補(bǔ)充。爬取本地新聞列表頁面localonenewslist.py1.filelist
7、_onefolder.py 顯示一個文件夾中的文件名2.filelist_allfolder.py遞歸顯示文件夾及其子文件夾中的所有文件名。輸出文件均在c盤根目錄下。1.加入了容錯功能,如果找到的index.htm文件不是新聞列表頁面,則會拋出異常。2.多種日志信息輸出功能,詳見程序中說明。增加數(shù)據(jù)收集的覆蓋率,作為補(bǔ)充,和其它程序共同使用。該程序獲取了6000多條新聞。不存在功能不完善意義上的問題。各種方式使用優(yōu)先順序及策略:1, 如果網(wǎng)站新聞網(wǎng)頁url的規(guī)則容易找到規(guī)律,優(yōu)先使用方式一;2, 如果url規(guī)則不明顯,則采取找網(wǎng)頁的新聞列表頁,并嘗試發(fā)現(xiàn)列表頁分頁的url規(guī)律,然后使用方式二;3, 如果以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五學(xué)校與志愿者簽訂的臨時性聘用合同范本
- 2025年度診所與慈善機(jī)構(gòu)合作開展公益活動合同
- 二零二五年度重型貨車掛靠公司合作經(jīng)營合同
- 二零二五年度民宿房屋租賃與民宿客棧民宿客棧管理服務(wù)協(xié)議
- 二零二五年度事業(yè)單位聘用合同崗位職責(zé)優(yōu)化與工作滿意度調(diào)查
- 二零二五年度羽毛球館賽事贊助商權(quán)益執(zhí)行合同
- 二零二五年度商家與科研機(jī)構(gòu)合作研發(fā)合同
- 產(chǎn)品數(shù)據(jù)庫建設(shè)協(xié)議
- 勞動合同復(fù)核意見
- 博士后研究人員合同
- DL-T5707-2014電力工程電纜防火封堵施工工藝導(dǎo)則
- 職業(yè)素養(yǎng)提升第2版(大學(xué)生職業(yè)素養(yǎng)指導(dǎo)課程)全套教學(xué)課件
- 西師版小學(xué)數(shù)學(xué)六年級下冊單元測試卷(含答案)
- 2024年公安機(jī)關(guān)理論考試題庫500道【綜合卷】
- 2024年四川成都市公共交通集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 第2章導(dǎo)游(課件)《導(dǎo)游業(yè)務(wù)》(第五版)
- 2023年北京重點校初二(下)期中數(shù)學(xué)試卷匯編:一次函數(shù)
- 加推樓盤營銷方案
- 新人教版五年級小學(xué)數(shù)學(xué)全冊奧數(shù)(含答案)
- 2024年?;钒踩芾碇贫群蛵徫话踩僮饕?guī)程(9篇范文)
- 無人機(jī)固定翼行業(yè)報告
評論
0/150
提交評論