網(wǎng)絡(luò)爬蟲總結(jié)表格_第1頁
網(wǎng)絡(luò)爬蟲總結(jié)表格_第2頁
網(wǎng)絡(luò)爬蟲總結(jié)表格_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式1:通過循環(huán)改變url字符串?dāng)?shù)字方式,逐一訪問網(wǎng)頁everyurlpage.py功能:通過生成url的方式,遍歷訪問新聞網(wǎng)頁,獲取新聞題目,并存儲到本地文本文件:headlines.txt。訪問日志文件:datetime.txt探究url的規(guī)律,通過程序,循環(huán)遍歷url,達(dá)到打開每一個網(wǎng)頁,進(jìn)行網(wǎng)頁爬蟲的目的。連網(wǎng)打開一個網(wǎng)頁,得到一個網(wǎng)頁的題目。lianxi2.py1. split_join.py:字符串處理函數(shù)。url字符串的拆解、修改、再組合示例程序2. outputeveryurl.py:遍歷一年的每一天,組合成每一天的

2、新聞網(wǎng)頁url1.具備http協(xié)議header檢測功能:checkurl()方法;checkurl.py(教材4.2)2.具備多處拋出異常容錯功能:tryexcept;ulr最后一部分長達(dá)9位,到達(dá)億的單位。如果每一天都遍歷這么多網(wǎng)頁,盡管有http header檢測功能,時間上是不可行的。也許適用于只爬取一天的新聞。方式2:遍歷本地已下載網(wǎng)頁方式everylocalpage.py功能:通過遍歷本地文件夾的方式,找到網(wǎng)頁文件,進(jìn)行解析,獲取新聞題目。并存儲到本地文件headlines.txt。記錄遍歷日志datetime.txt。先用teleport網(wǎng)站復(fù)制程序,把網(wǎng)頁下載到本地。找到文件夾目

3、錄結(jié)構(gòu)規(guī)律,對每個文件夾內(nèi)的網(wǎng)頁文件進(jìn)行查找匹配。打開網(wǎng)頁找到的新聞網(wǎng)頁,獲取每一個新聞的題目。打開一個本地網(wǎng)頁,得到一個新聞的標(biāo)題。lianxi1.py1. globfindfile.py:通過匹配文件名的方式,找到指定文件夾內(nèi),符合文件名規(guī)則的文件。2. globhtm.py通過匹配文件名的方式,找到符合匹配模式的文件,進(jìn)行網(wǎng)頁爬蟲。1.輸出程序執(zhí)行過程日志datetime.txt,記錄遍歷過的文件夾,是否存在,解析的網(wǎng)頁數(shù)量等日志信息。2.具備如果不存在某個日期文件夾,通過拋出異常使程序繼續(xù)運(yùn)行的容錯功能。由于teleport的運(yùn)行機(jī)制原因,teleport并不能復(fù)制網(wǎng)站的所有網(wǎng)頁,只能

4、夠下載到近期網(wǎng)頁,但對于以前的網(wǎng)頁,能夠下載的網(wǎng)頁的覆蓋率非常低。所以獲取的新聞數(shù)量非常少(398k,2300多條新聞),不符合目標(biāo)需求。多種方式進(jìn)行網(wǎng)絡(luò)爬蟲方式特點及程序匯總注:程序測試時,先在c盤根目錄下建立test文件夾,再把每種方式的測試程序拷入其中進(jìn)行測試。 將enorth.rar壓縮文件解壓到c盤根目錄。續(xù):方式程序名稱程序思路基礎(chǔ)程序核心語法及程序程序附加功能存在問題方式3:找到網(wǎng)站的一類新聞列表頁面,對新聞題目列表進(jìn)行爬取newslisturl.py功能:通過遍歷url的方式,訪問新聞列表頁面,解析輸出新聞標(biāo)題和url。循環(huán)遍歷所有分頁先找到網(wǎng)站的新聞列表頁面,爬取該頁面每條新

5、聞的標(biāo)題和url等信息。再探究該列表頁面分頁的url的產(chǎn)生規(guī)則,循環(huán)遍歷每一個分頁。是以方式1為基礎(chǔ),通過url遍歷網(wǎng)頁,但對象是新聞列表頁。爬取北方網(wǎng)新聞列表頁面一頁新聞的基礎(chǔ)程序。newslist_onepage.py1.findall.pyre.findall()方法學(xué)習(xí)程序,并和re.search()作比較2.findall_research.py()通過re.findall和research結(jié)合使用,經(jīng)過兩次匹配解析,分別得到標(biāo)題和url。輸出findallnews.txt,包含3類匹配結(jié)果1.輸出程序執(zhí)行過程日志文件:for_test.txt,記錄了訪問過哪些新聞列表分頁2.在循環(huán)

6、遍歷階段,對url的位數(shù)進(jìn)行了補(bǔ)齊,使之符合網(wǎng)頁url規(guī)則樣式。該方式已經(jīng)能夠大大增加對網(wǎng)站新聞題目進(jìn)行數(shù)據(jù)收集的覆蓋率(1017頁,5萬多條)。但是,也許不能100%覆蓋是必然的,需要同時使用其它方式的程序作為輔助,提高網(wǎng)頁信息收集的覆蓋率。方式4:找到已下載到本地的各類新聞列表頁面,解析輸出newslistlocal.py功能:遞歸遍歷本地所有新聞列表頁,解析輸出新聞標(biāo)題、url等信息將用teleport下載到本地的網(wǎng)頁,針對新聞列表頁面進(jìn)行爬蟲。此時的新聞列表頁面是各類新聞的列表頁。同方式3結(jié)合使用,作為補(bǔ)充。爬取本地新聞列表頁面localonenewslist.py1.filelist

7、_onefolder.py 顯示一個文件夾中的文件名2.filelist_allfolder.py遞歸顯示文件夾及其子文件夾中的所有文件名。輸出文件均在c盤根目錄下。1.加入了容錯功能,如果找到的index.htm文件不是新聞列表頁面,則會拋出異常。2.多種日志信息輸出功能,詳見程序中說明。增加數(shù)據(jù)收集的覆蓋率,作為補(bǔ)充,和其它程序共同使用。該程序獲取了6000多條新聞。不存在功能不完善意義上的問題。各種方式使用優(yōu)先順序及策略:1, 如果網(wǎng)站新聞網(wǎng)頁url的規(guī)則容易找到規(guī)律,優(yōu)先使用方式一;2, 如果url規(guī)則不明顯,則采取找網(wǎng)頁的新聞列表頁,并嘗試發(fā)現(xiàn)列表頁分頁的url規(guī)律,然后使用方式二;3, 如果以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論