網(wǎng)絡(luò)爬蟲論文答辯PPT_第1頁
網(wǎng)絡(luò)爬蟲論文答辯PPT_第2頁
網(wǎng)絡(luò)爬蟲論文答辯PPT_第3頁
網(wǎng)絡(luò)爬蟲論文答辯PPT_第4頁
網(wǎng)絡(luò)爬蟲論文答辯PPT_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

網(wǎng)絡(luò)爬蟲·論文答辯答辯學生:包志英指導老師:趙中英定向爬取?腳本之家?文本信息2023/3/21CONTENTS目錄課題綜述1研究過程4目前現(xiàn)狀2研究結(jié)論5研究目標3參考文獻62023/3/21目錄頁緒論PARTONE2023/3/21選題背景及意義

網(wǎng)絡(luò)爬蟲是一種自動搜集互聯(lián)網(wǎng)信息的程序。通過網(wǎng)絡(luò)爬蟲不僅能夠為搜索引擎采集網(wǎng)絡(luò)信息,而且可以定向采集某些網(wǎng)站下的特定信息,如文章信息,租房信息等。本文通過python實現(xiàn)了一個基于構(gòu)造URL地址的多線程爬蟲程序。本論文闡述了網(wǎng)絡(luò)爬蟲實現(xiàn)中一些主要問題:如何構(gòu)造URL地址;為何要實現(xiàn)多線程,以及如何利用scrapy;系統(tǒng)實現(xiàn)過程中的數(shù)據(jù)存儲;網(wǎng)頁信息解析等。通過實現(xiàn)這一爬蟲程序,可以搜集某一站點的信息,并將搜集到的信息存入數(shù)據(jù)庫。選題背景【關(guān)鍵字】網(wǎng)絡(luò)爬蟲,多線程,python,scrapy,mongodb,php,mysql2023/3/21<10%>80%選題意義搜索引擎作為一個輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。有效信息廣告、無用信息選題背景及意義2023/3/21

對于網(wǎng)絡(luò)延遲的處理,并且能夠開啟HTTPCHACHE,極大限度的提高爬取速度,偽造代理信息,表單等,讓目標網(wǎng)站,認為你是安全的具備可視化顯示,以網(wǎng)頁的形式有好的顯示數(shù)據(jù),并提供簡單的搜索功能,能將數(shù)據(jù)簡單分類,智能推薦研究目標AC研究目標B

使網(wǎng)絡(luò)爬蟲高效靈活,在主題網(wǎng)站中盡量全面的爬取信息,并且能夠自動構(gòu)造URL,遞歸調(diào)用自身,開啟多線程快速的爬取,準確提取有效信息,存儲到數(shù)據(jù)庫D整合數(shù)據(jù)信息,并以json格式存儲至Mongo,方面各個平臺使用,通過腳本程序,遷移到Mysql為依賴關(guān)系較強的項目使用E目標網(wǎng)站地址:/article/1.htm2023/3/21目錄頁研究方法與思路PARTTWO2023/3/21網(wǎng)絡(luò)爬蟲基礎(chǔ)理論學習構(gòu)造URL、多線程、強大的抓取能力、信息提取任務(wù)python、scrapy、mongodb2016.04.32016.04.102016.04.172016.04.242015.05.12016.05.82016.05.152016.05.222016.05.29php、數(shù)據(jù)可視化顯示研究方法2023/3/21步驟一步驟二步驟三步驟四步驟五通過Internet查詢網(wǎng)絡(luò)爬蟲運行機制,基本原理,根據(jù)所爬取的網(wǎng)站設(shè)計自己的爬蟲了解爬蟲理論機制學習Python,Scrapy框架的搭建,Mongodb的簡單操作,Laravel,bootstrap框架學習、編寫、調(diào)試學習基礎(chǔ)知識老師的多次面談和郵件交流,解決了一些理論的疑點和實踐上的難點,指導了爬蟲的設(shè)計和利弊分析,提供了很多的幫助老師教導設(shè)計和學習完基礎(chǔ)知識后,搭建了繁瑣的環(huán)境,在Windows下進行了爬蟲的開發(fā)、調(diào)試,最終成功的實現(xiàn)了信息的爬取與提取爬蟲的編寫與調(diào)試將爬去下來的數(shù)據(jù),通過腳本程序進行數(shù)據(jù)轉(zhuǎn)換,利用網(wǎng)頁技術(shù)可視化顯示可視化顯示研究步驟2023/3/21目錄頁關(guān)鍵技術(shù)與難點PARTTHREE2023/3/21關(guān)鍵技術(shù)主爬蟲的設(shè)計編寫數(shù)據(jù)的轉(zhuǎn)換與顯示Spider

主爬蟲文件的編寫,利用Scrapy根據(jù)網(wǎng)站的自身特性構(gòu)建URL,將抓取下來的網(wǎng)頁信息進行信息提取,并將有用信息存儲到mongo數(shù)據(jù)庫,監(jiān)測數(shù)據(jù)庫插入情況可視化顯示將Mongodb中的數(shù)據(jù)通過腳本程序復(fù)寫到MySQL,利于網(wǎng)站依賴關(guān)系處理,用Laravel框架編寫后臺控制邏輯,友好的Bootstrap前臺顯示。2023/3/21ScrapyScrapy環(huán)境搭建需要導入的一些關(guān)鍵包:python2.7、lxml、zope、Twisted、pyOpenSSL、pywin32、一定要注意版本,國內(nèi)一些也沒有,安裝依賴包就會將很多人拒之門外。Mongodb啟動腳本:mongod--dbpath../data依賴包:pymongo主要類:Script2Pipeline(object)pymongo.MongoClient()tdb=client[]self.post.insert(scriptInfo)Spider關(guān)鍵代碼:src2Spider(scrapy.Spider):parse(self,response):scrapy.selector.Selector(response)new_url=self.url+str(self.pageNum)+".htm"yieldRequest(new_url,callback=self.parse)Data提取字段:title、desc、content、tag主配置:USER_AGENTCOOKIES_ENABLEDCONCURRENT_REQUESTSHTTPCACHE_ENABLEDMONGODB_CONFIG技術(shù)難點2023/3/21VS

全球最大的中文搜索引擎、致力于讓網(wǎng)民更便捷地獲取信息,為了解決大規(guī)模數(shù)據(jù)管理計算,在金字塔計劃夭折后,最終也倒向了雅虎牽頭的Hadoop開源項目百度Google

Google的使命是整合全球范圍的信息,當搜索引擎抓取到的結(jié)果越來越多時,保證存儲和查詢速度的難度越來越高,研發(fā)Caffeine、Pregel、Dremel三種技術(shù)以解決這些問題。萬網(wǎng)抓取率:25%大數(shù)據(jù)管理:Hadoop全球市場份額:8.13%萬網(wǎng)抓取率:80%大數(shù)據(jù)管理:Spanner全球市場份額:67.49%案例對比分析2023/3/21目錄頁研究成果與應(yīng)用PARTFOUR2023/3/2101完成了主題爬蟲編寫,兩條爬蟲同時爬取目標網(wǎng)站四個多小時,共提取出了有效信息85000條,以json格式,每一萬條數(shù)據(jù)一張表的形式,保存至mongodb數(shù)據(jù)庫03通過laravel。bootstrap框架利用MVC框架,將數(shù)據(jù)優(yōu)雅的顯示到前臺,并提供簡單的查詢功能,但搜索功能還是不盡人意,在多重模糊查詢中由于mysql左連接的缺陷是的搜索速度非常的緩慢,有時還可能拖死m(xù)ysql數(shù)據(jù)庫02將mongodb數(shù)據(jù)庫中的數(shù)據(jù)經(jīng)過整合,首先使用自帶的CSV作為中間件進行轉(zhuǎn)換時由于CSV文件的單個單元格最大存儲32,767個字符造成數(shù)據(jù)截取丟失,編寫自適應(yīng)錯誤腳本程序?qū)ongodb中的數(shù)據(jù)轉(zhuǎn)換到了mysql數(shù)據(jù)庫成果形式2023/3/21成果形式?腳本之家主爬蟲代碼片段2023/3/21數(shù)據(jù)成果存儲展現(xiàn)形式2023/3/21應(yīng)用前景

通過編寫靈活的爬蟲,簡單有效的垂直爬取主題網(wǎng)站,踢去有用信提取,并作統(tǒng)計分析,保存至數(shù)據(jù)庫,提供快速查詢接口。垂直化爬取

通過垂直化爬取的數(shù)據(jù)量比較小,在存儲和查詢方面都會大大提速,并且精度更高,信息使用率增高,減少能量消耗解除大數(shù)據(jù)管理

定向爬去網(wǎng)站信息,并進行學習分析,提高只能利用,判斷該行業(yè)發(fā)展情況和未來走向,做出及時防范數(shù)據(jù)分析SpiderDATA2023/3/21目錄頁論文總結(jié)PARTFIVE2023/3/21論文總結(jié)笑看歷史小試牛刀閉關(guān)思修山科論劍Summary

一個多月的開發(fā),回頭望去,困難很多,但通過查閱書記,網(wǎng)絡(luò)資源,以及老師的指導,已經(jīng)沒有什么困難可以讓自己放棄,在未來的生活學習中也會將這種學習過程延續(xù)下去

經(jīng)過基礎(chǔ)知識的儲備和項目理論的設(shè)計,在編寫Spider主文件遞歸調(diào)用時、還是多次出錯,引入mongo數(shù)據(jù)庫操作時,初始化函數(shù)也很不盡人意,數(shù)據(jù)轉(zhuǎn)換腳本中,由于字符編碼和數(shù)據(jù)量過大(10000/table)引起了數(shù)據(jù)丟失,與宕機現(xiàn)象

通過上網(wǎng)、書籍查詢,自主的完成了基礎(chǔ)python,scrapy,php,mongodb,laravel,bootstrap知識的學習,培養(yǎng)了自學體系

多次與老師探討URL構(gòu)造的設(shè)計,數(shù)據(jù)的保存形式,以及搜索最快最準確的方式,導師對不成熟的設(shè)計及時做出了矯正,并在Spider的遞歸調(diào)用,數(shù)據(jù)遷移腳本的編寫做出了指正。020304012023/3/21致謝

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論