網(wǎng)絡(luò)爬蟲總結(jié)表格

上傳人：伐*** IP屬地：寧夏上傳時間：2021-11-11 格式：DOC 頁數(shù)：3 大?。?0.55KB 積分：10.8 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式1：通過循環(huán)改變url字符串?dāng)?shù)字方式，逐一訪問網(wǎng)頁everyurlpage.py功能：通過生成url的方式，遍歷訪問新聞網(wǎng)頁，獲取新聞題目，并存儲到本地文本文件：headlines.txt。訪問日志文件：datetime.txt探究url的規(guī)律，通過程序，循環(huán)遍歷url，達(dá)到打開每一個網(wǎng)頁，進(jìn)行網(wǎng)頁爬蟲的目的。連網(wǎng)打開一個網(wǎng)頁，得到一個網(wǎng)頁的題目。lianxi2.py1. split_join.py:字符串處理函數(shù)。url字符串的拆解、修改、再組合示例程序2. outputeveryurl.py:遍歷一年的每一天，組合成每一天的

2、新聞網(wǎng)頁url1.具備http協(xié)議header檢測功能：checkurl()方法；checkurl.py(教材4.2)2.具備多處拋出異常容錯功能：tryexcept；ulr最后一部分長達(dá)9位，到達(dá)億的單位。如果每一天都遍歷這么多網(wǎng)頁，盡管有http header檢測功能，時間上是不可行的。也許適用于只爬取一天的新聞。方式2：遍歷本地已下載網(wǎng)頁方式everylocalpage.py功能：通過遍歷本地文件夾的方式，找到網(wǎng)頁文件，進(jìn)行解析，獲取新聞題目。并存儲到本地文件headlines.txt。記錄遍歷日志datetime.txt。先用teleport網(wǎng)站復(fù)制程序，把網(wǎng)頁下載到本地。找到文件夾目

3、錄結(jié)構(gòu)規(guī)律，對每個文件夾內(nèi)的網(wǎng)頁文件進(jìn)行查找匹配。打開網(wǎng)頁找到的新聞網(wǎng)頁，獲取每一個新聞的題目。打開一個本地網(wǎng)頁，得到一個新聞的標(biāo)題。lianxi1.py1. globfindfile.py:通過匹配文件名的方式，找到指定文件夾內(nèi)，符合文件名規(guī)則的文件。2. globhtm.py通過匹配文件名的方式，找到符合匹配模式的文件，進(jìn)行網(wǎng)頁爬蟲。1.輸出程序執(zhí)行過程日志datetime.txt，記錄遍歷過的文件夾，是否存在，解析的網(wǎng)頁數(shù)量等日志信息。2.具備如果不存在某個日期文件夾,通過拋出異常使程序繼續(xù)運(yùn)行的容錯功能。由于teleport的運(yùn)行機(jī)制原因，teleport并不能復(fù)制網(wǎng)站的所有網(wǎng)頁，只能

4、夠下載到近期網(wǎng)頁，但對于以前的網(wǎng)頁，能夠下載的網(wǎng)頁的覆蓋率非常低。所以獲取的新聞數(shù)量非常少（398k,2300多條新聞），不符合目標(biāo)需求。多種方式進(jìn)行網(wǎng)絡(luò)爬蟲方式特點及程序匯總注：程序測試時，先在c盤根目錄下建立test文件夾，再把每種方式的測試程序拷入其中進(jìn)行測試。將enorth.rar壓縮文件解壓到c盤根目錄。續(xù)：方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式3：找到網(wǎng)站的一類新聞列表頁面，對新聞題目列表進(jìn)行爬取newslisturl.py功能：通過遍歷url的方式，訪問新聞列表頁面，解析輸出新聞標(biāo)題和url。循環(huán)遍歷所有分頁先找到網(wǎng)站的新聞列表頁面，爬取該頁面每條新

5、聞的標(biāo)題和url等信息。再探究該列表頁面分頁的url的產(chǎn)生規(guī)則，循環(huán)遍歷每一個分頁。是以方式1為基礎(chǔ)，通過url遍歷網(wǎng)頁，但對象是新聞列表頁。爬取北方網(wǎng)新聞列表頁面一頁新聞的基礎(chǔ)程序。newslist_onepage.py1.findall.pyre.findall()方法學(xué)習(xí)程序，并和re.search()作比較2.findall_research.py()通過re.findall和research結(jié)合使用，經(jīng)過兩次匹配解析，分別得到標(biāo)題和url。輸出findallnews.txt，包含3類匹配結(jié)果1.輸出程序執(zhí)行過程日志文件：for_test.txt，記錄了訪問過哪些新聞列表分頁2.在循環(huán)

6、遍歷階段，對url的位數(shù)進(jìn)行了補(bǔ)齊，使之符合網(wǎng)頁url規(guī)則樣式。該方式已經(jīng)能夠大大增加對網(wǎng)站新聞題目進(jìn)行數(shù)據(jù)收集的覆蓋率（1017頁，5萬多條）。但是，也許不能100%覆蓋是必然的，需要同時使用其它方式的程序作為輔助，提高網(wǎng)頁信息收集的覆蓋率。方式4：找到已下載到本地的各類新聞列表頁面，解析輸出newslistlocal.py功能：遞歸遍歷本地所有新聞列表頁，解析輸出新聞標(biāo)題、url等信息將用teleport下載到本地的網(wǎng)頁，針對新聞列表頁面進(jìn)行爬蟲。此時的新聞列表頁面是各類新聞的列表頁。同方式3結(jié)合使用，作為補(bǔ)充。爬取本地新聞列表頁面localonenewslist.py1.filelist

7、_onefolder.py 顯示一個文件夾中的文件名2.filelist_allfolder.py遞歸顯示文件夾及其子文件夾中的所有文件名。輸出文件均在c盤根目錄下。1.加入了容錯功能，如果找到的index.htm文件不是新聞列表頁面，則會拋出異常。2.多種日志信息輸出功能，詳見程序中說明。增加數(shù)據(jù)收集的覆蓋率，作為補(bǔ)充，和其它程序共同使用。該程序獲取了6000多條新聞。不存在功能不完善意義上的問題。各種方式使用優(yōu)先順序及策略：1，如果網(wǎng)站新聞網(wǎng)頁url的規(guī)則容易找到規(guī)律，優(yōu)先使用方式一；2，如果url規(guī)則不明顯，則采取找網(wǎng)頁的新聞列表頁，并嘗試發(fā)現(xiàn)列表頁分頁的url規(guī)律，然后使用方式二；3，如果以

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)爬蟲總結(jié)表格

文檔簡介

溫馨提示

最新文檔

評論

網(wǎng)絡(luò)爬蟲總結(jié)表格

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔