關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)_第1頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)_第2頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)_第3頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)_第4頁(yè)
關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

成果形式:實(shí)踐報(bào)告成果名稱:關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)一、實(shí)踐目的1.通過(guò)課程學(xué)習(xí)知道了什么是爬蟲(chóng):爬蟲(chóng)可以理解為信息處理器,我們利用這種工具從網(wǎng)絡(luò)中選取我們需要的信息數(shù)據(jù),同樣它也可以對(duì)于一些程序和網(wǎng)頁(yè)進(jìn)行自動(dòng)優(yōu)化,是網(wǎng)絡(luò)的小管家。2.在學(xué)校組織的課程中學(xué)習(xí)python爬蟲(chóng)的構(gòu)架組成和工作流程:1.先用URL管理器管理待爬取的url集合和已爬取的url集合;3.通過(guò)寫代碼實(shí)際操作實(shí)現(xiàn)phthon爬蟲(chóng)二、實(shí)踐內(nèi)容1.項(xiàng)目的分析1.解釋爬蟲(chóng)的含義,并舉例:1.1比如requests.get():最初始的一個(gè)簡(jiǎn)易爬蟲(chóng)就是調(diào)用python的requests模塊,使用get函數(shù),如圖所示。然后這里get函數(shù)從給出的URL獲取數(shù)據(jù),從圖中可以看出,數(shù)據(jù)顯示狀態(tài)碼200,說(shuō)明平穩(wěn)落地。后面是獲取到的網(wǎng)頁(yè)。在課堂上學(xué)習(xí)這一節(jié)內(nèi)容的時(shí)候,老師很細(xì)心細(xì)致。先在ppt上進(jìn)行概念的講解和演示,然后讓我們自由操作,在操作的過(guò)程中,有不懂的問(wèn)題可以進(jìn)行提問(wèn),老師再過(guò)來(lái)具體指導(dǎo)實(shí)際操作。這其實(shí)是一個(gè)很簡(jiǎn)單的程序,老師也很用心,但很多東西如果你不自己去理解感悟的話,永遠(yuǎn)也學(xué)不會(huì),這正如你永遠(yuǎn)無(wú)法叫醒一個(gè)裝睡的人,所以學(xué)習(xí)從來(lái)都是一件孤勇的事情。有點(diǎn)跑題了,老師還舉了個(gè)例子,當(dāng)一個(gè)網(wǎng)站遭受大量高頻次的點(diǎn)擊時(shí),比如某流量小花突然公布戀情,或者某idol登上紅秀封面,微博和電子刊立馬就癱瘓了,那些技術(shù)人員當(dāng)年夸下“可以承受”的海口,立馬就成了打臉的鐵證。這件事告訴我們要學(xué)會(huì)偽裝,不能直接要數(shù)據(jù),采取迂回戰(zhàn)術(shù),不然人家不會(huì)鳥(niǎo)你。2.我們要學(xué)會(huì)使用火狐瀏覽器開(kāi)發(fā)者工具:論如何偽裝一個(gè)瀏覽器?我們這里使用的是火狐瀏覽器開(kāi)發(fā)者工具,不要聽(tīng)這么高大上,事實(shí)就是打開(kāi)火狐瀏覽器按F12!top1:輸入網(wǎng)址進(jìn)入我的博客,http://zkeeer.spacetop2按F12,找到網(wǎng)絡(luò)這一欄。它會(huì)提示你重新載入,之后就按一下F5,刷新一下,就可以得償所愿了。3.接下來(lái)注意以下幾欄。then找到并點(diǎn)開(kāi)我們需要的,也就是第一個(gè)接著右側(cè)就會(huì)出來(lái)諸如箭頭→參數(shù)、耗時(shí)、響應(yīng)等相對(duì)應(yīng)的詳細(xì)信息,然后就是一些專業(yè)的數(shù)據(jù)和處理方法了,咱也看不懂,咱也不敢問(wèn),不過(guò)學(xué)無(wú)止境,你們不要學(xué)我,不懂的就要問(wèn),也許很簡(jiǎn)單的知識(shí),但是你不問(wèn)就永遠(yuǎn)不會(huì)知道。就好像有人問(wèn)學(xué)霸怎么考的145,你問(wèn)之前可能還在忐忑他會(huì)說(shuō)出一大堆如何如何的學(xué)習(xí)方法和努力的重要性。但只有你問(wèn)了之后,你才會(huì)知道,奧,原來(lái)只要少做一道選擇題就可以了,真是簡(jiǎn)單呢。2.項(xiàng)目的設(shè)計(jì)1實(shí)戰(zhàn),首先.寫一個(gè)簡(jiǎn)單的html網(wǎng)頁(yè)<!DOCTYPEhtml>

<htmllang="en">

<head>

<metacharset="UTF-8">

<title>數(shù)學(xué)類1701成雅琴</title>

</head>

<body>

<ahref="/xhtml/">統(tǒng)計(jì)學(xué)院</a>

<buttontype="submit">提交</button>

</body>

</html>2.接著查看網(wǎng)頁(yè)從課本上摘抄來(lái)的知識(shí)說(shuō):Python爬蟲(chóng)架構(gòu)主要由五大部分,為了方便,對(duì)應(yīng)人的頭、四肢、心臟和軀干,如下:1、調(diào)度器:它就相當(dāng)于人類的大腦,主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作,可以說(shuō)很重要了。2、URL管理器:這其中包括待爬取和已經(jīng)爬取的URL,通過(guò)內(nèi)存、數(shù)據(jù)庫(kù)、緩存數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)這三種方式來(lái)防止重復(fù)和循環(huán)抓取URL。3、網(wǎng)頁(yè)下載器:相當(dāng)于一個(gè)完整帶售后的高端版轉(zhuǎn)換器,不過(guò)和電源轉(zhuǎn)換器和耳機(jī)切口轉(zhuǎn)換器不同的是,這個(gè)下載器轉(zhuǎn)換的是網(wǎng)頁(yè),將專業(yè)轉(zhuǎn)化成可吸收的東西。4、網(wǎng)頁(yè)解析器:我們將一個(gè)網(wǎng)頁(yè)字符串進(jìn)行解析,可以按照我們的要求來(lái)提取出我們有用的信息,也可以根據(jù)DOM樹(shù)的解析方式來(lái)解析。網(wǎng)頁(yè)解析器有正則表達(dá)式、html.parser(Python自帶的)、beautifulso、lxml(第三方插件,可以解析xml和HTML),html.parser和beautifulsoup以及l(fā)xml都是以DOM樹(shù)的方式進(jìn)行解析的。5、應(yīng)用程序:就是我們選取的有用數(shù)據(jù)所組成的應(yīng)用程序,其代碼的復(fù)雜程序乃我所罕見(jiàn)。廢話不多說(shuō),這個(gè)圖一看便知。fromurllibimportrequest,parse

fromhttpimportcookiejar

ur1='/translate'

form_data={

}

data=parse.urlencode(form_data).encode('utf-8')

headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.170Safari/537.36'}

req=request.Request(ur1,data=data,headers=headers)

cookie=cookiejar.CookieJar()

handler=request.HTTPCookieProcessor(cookie)

opener=request.build_opener(handler)

responce=opener.open(req)

html=responce.read().decode()

print(html)3.項(xiàng)目的實(shí)現(xiàn)(代碼)1.輸入登錄名:n=1

whilen<4:

username=input("請(qǐng)輸入用戶名:")

password=input("請(qǐng)輸入密碼:")

ifusername=="成雅琴"andpassword=="1604970127":

print("登錄成功")

n=5

else:

ifn==3:

print("密碼錯(cuò)誤")

n=5

else:

n=n+12在下列數(shù)組值后追加元素L1=[1,2,3,22,4,]

L1.append(5)

L1.append("caijing")

L1.append([1100,0011])

print(l1)結(jié)果:3計(jì)算元素22出現(xiàn)的次數(shù)li=[11,22,33,22,44,5,'alex',[1234,1234]]

c=li.count(22)

print(c)結(jié)果:F:\programdata\Anaconda3\python.exeC:/Users/微軟中國(guó)/PycharmProjects/untitled/jjj.py2Processfinishedwithexitcode04.項(xiàng)目使用說(shuō)明天吶這段代碼居然有快一千個(gè)字,為了查重我居然給刪了???我的心情簡(jiǎn)直跟難言了。qwertyuiooppjjgfdsssrtyhbbvcdeeegbbjiiiyrf//。。。。,,,,????(…-!tfvjko7542edfghujbbhi99ljbfdew22tghjgggdryjjbvfr4yi88753qqsxchhjio086tjjkmbvdee3uoo8y7ilkgfttryyyyggggggdeetyugimfekutr2sdcxww25u89o0lmjbgfr3322asxvhjo00975yhhgre3tyhvfrtu9ojhfde336789opkhgfdw35689onngftewsx3568okmncdwq258olnvfyytde32wsdcvghuyrrghj8ooknbfrewfvhioyrhoiyy22357iugyyrrghuiyytffguuu4rtyuikkkvfr335uioooopp0986tyhjkoooooollkhfrt55fvvh)2eredgutredtgvseruioi&#:resxvbjiureecgjkokitrfghjjkoo5rdgvfw214567ioplbgfew345ygfs21wxchjji99ppkbgt42wefui9o7gf443edfvji9866yujjbbgfffgggghhhvvcxdertyuiii999okjnbfrrewscvhjkiytgbnkjnnbcdrefhjt32wsfhjkkookjjj6thnmmfdrrdxchhjjfdwqsdghuiiyre22568oihfffh55422sfh6rewsgui743efhjopjvddrrtuohffree4yii99ojtyio97544fgjioookncdr5yytrrty77775rrtthbfde6uiojhfe2fdeexvhiytrffhju6532wdfvbjjo98644rfgvhuurwq1256ioolkjjbgfddddfghjj446788932236iojjbbvvfdedvjjkiuwccbjop08532eguuttgbnkluteesdcvhgrdfjklljjmnfsswqqqadgyuiiu64fghjjbfrr7iknhy67ijjjttr335&??hgdetyiojygfrr4ty753edvhjiombfdrtii7543esxcggyyhjo986432sxguuy54dvjjkookbgfrrrttyyyyggghhjhggr43edfhuijhgghuijhhhbhhyf僅以一段代碼表達(dá)我悲憤的心情,我其實(shí)就是一個(gè)普通的有拖延癥的孩子,為什么要讓我遭受如此的苦難,天吶,我真的也太慘了叭,而且為啥一個(gè)字母就是一個(gè)字,而我敲四五個(gè)拼音才一個(gè)字,這個(gè)資源分配我表示不服。不過(guò)項(xiàng)目?jī)?nèi)容的設(shè)計(jì)真的很復(fù)雜就是了,不然我也不至于這樣,絕了,讓人一籌莫展。三、實(shí)踐過(guò)程 通用網(wǎng)絡(luò)爬蟲(chóng)從互聯(lián)網(wǎng)絡(luò)中搜集網(wǎng)頁(yè),采集信息。第一步:抓取網(wǎng)頁(yè) 搜索引擎網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程如下:首先選取一部分種子URL;取出待選取URL,接著分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)....第二步:數(shù)據(jù)存儲(chǔ)搜索引擎通過(guò)python爬取到的網(wǎng)頁(yè),將數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。第三步:預(yù)處理搜索引擎將pythen抓取回來(lái)的頁(yè)面,進(jìn)行各種步驟的預(yù)處理。1、提取文字2、中文分詞3、消除噪音(比如版權(quán)聲明文字、導(dǎo)航條、廣告等……)4、索引處理5、鏈接關(guān)系計(jì)算6、特殊文件處理7、...第四步:提供檢索服務(wù),網(wǎng)站排名搜索引擎在對(duì)信息進(jìn)行組織和處理后,會(huì)為用戶提供關(guān)鍵字檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶,也可以幕后操作進(jìn)行排名購(gòu)買。四、實(shí)踐體會(huì)本次實(shí)踐其實(shí)開(kāi)始時(shí)是不被期待的,因?yàn)榇_實(shí)占用了很多暑期休息的時(shí)間,相對(duì)于枯燥的程序代碼,顯然宅在家追劇刷微博啃西瓜或者出去旅行看遍祖國(guó)的大好河山更有誘惑力。還記得剛開(kāi)始我就遇到了一個(gè)問(wèn)題,整個(gè)暑期實(shí)踐以編寫代碼為基礎(chǔ),但我居然連一臺(tái)電腦都沒(méi)有。其實(shí)現(xiàn)在看來(lái)問(wèn)題還是可以解決的,現(xiàn)在手機(jī)功能很強(qiáng)大,而且對(duì)于用慣手機(jī)的我來(lái)說(shuō),手機(jī)也不失為一個(gè)好選擇。但是我出于多方面的長(zhǎng)遠(yuǎn)考慮,還是精心挑選買了一臺(tái)電腦??赡苁腔A(chǔ)和興趣問(wèn)題吧,我給電腦貼了好看的保護(hù)膜和貼紙,像一個(gè)昂貴又精致的裝飾品,而喪失了它最主要的使用價(jià)值??梢哉f(shuō)到現(xiàn)在為止,我電腦只有老師幫我安裝的一個(gè)python軟件,其他的辦公軟件比如WPS、OFFICE等等我都沒(méi)有,可能為了彰顯我電腦的尊貴,這些軟件都要付費(fèi),當(dāng)然也可以找別的安裝包之類的免費(fèi)程序,但我太懶,就擱置了。所以現(xiàn)在我斥巨資購(gòu)入的電腦變成了我的追劇工具,早知道這樣,我還不如買個(gè)更便宜的iPad,因?yàn)樗叨说膱D片處理功能,用它追劇還更爽些。雖然iPad用來(lái)辦公不太行,但是比較適合藝術(shù)編輯之類的人群。華碩的電腦可能就更適合辦公人群,但是,我又不辦公??!醒悟這一點(diǎn)的我真的眼淚掉下來(lái)。不過(guò)我的暑期找實(shí)習(xí)的經(jīng)歷改變了我的看法。作為一個(gè)幾乎完全的電腦小白,我找的很多實(shí)習(xí),包括最基本的文員,就打雜跑腿的,都需要掌握一些基本的電腦技能,比如PS、WPS、JAVA、PYTHON等等,說(shuō)實(shí)話,我真的蠻挫敗的。就好像初中大家都玩qq,我卻不玩,覺(jué)得那個(gè)軟件好高端啊,玩那些的都好厲害啊,我估計(jì)不行。這種想法在現(xiàn)在的我來(lái)看很有些辛酸可笑,但其實(shí)我現(xiàn)在面對(duì)那些電腦程序的時(shí)候,也感覺(jué)到了和當(dāng)年一樣的無(wú)措。雖然暑期實(shí)習(xí)的門檻確實(shí)有點(diǎn)低,我正經(jīng)去面試的都通過(guò)了,但是出于種種原因(工資,交通)的考慮,我還是去了一家教育機(jī)構(gòu)(不需要電腦知識(shí))實(shí)習(xí)。當(dāng)時(shí)還有一份我很心動(dòng)的工作,是在金融小公司做網(wǎng)站資料的更新,說(shuō)實(shí)話,挺簡(jiǎn)單的,有一定文學(xué)基礎(chǔ)和電腦基礎(chǔ)的都可以,而且辦公環(huán)境很棒,朝九晚五,周末雙休(我最后去的那家單休,而且是八點(diǎn)半到下午六點(diǎn)),簡(jiǎn)直是我夢(mèng)寐以求,但我還是拒絕了,拒絕的原因如上。我心里還是失落的,但也更加堅(jiān)定了我要學(xué)習(xí)一些電腦技能的決心,人是真的需要有一技之長(zhǎng)的,這樣在哪兒都能立足。說(shuō)起來(lái)我好像就很喜歡回憶從前,整得我好像七老八十了一樣。每次出去玩的時(shí)候也是一段難忘的回憶,當(dāng)然,難忘是因?yàn)槌鋈ネ?,并不是和誰(shuí)一起。本來(lái)我是想專門寫一篇游記的,但是太懶了一直沒(méi)動(dòng)筆。我覺(jué)得旅途的意義可能就是這樣了,充滿期待的開(kāi)始,不斷磨合的過(guò)程,以及之后時(shí)時(shí)想起的莞爾一笑。喜歡旅游因?yàn)榫拖袷莵?lái)到了一個(gè)平行世界,可以放肆玩樂(lè),暫時(shí)拋卻現(xiàn)有的枷鎖。享受去之前充滿期待與忐忑的計(jì)劃與心情,享受每天早上起來(lái)在酒店里畫一個(gè)美美的妝然后出去玩,享受夜里回到酒店然后送到門口的外賣;也享受跟著高德找路的無(wú)奈和疲憊,享受看到景點(diǎn)的感慨和治愈,享受著同你共賞的良辰美景與歲月山河。時(shí)間真的很殘酷,我們的身體開(kāi)始漸漸衰老,畢竟我們已經(jīng)開(kāi)始脫發(fā)了。而且我的眼睛已經(jīng)有了很多細(xì)紋,皮膚也變得松弛,我都要自閉了?,F(xiàn)在的我對(duì)于被叫阿姨開(kāi)始習(xí)慣(忍),對(duì)于不喜歡的人和事也變得平淡(忍),可能人越長(zhǎng)大就越學(xué)會(huì)虛與委蛇。說(shuō)起來(lái)我在西安的親戚,我大一大二常去,覺(jué)得他們?nèi)撕糜譄嵝?,就像我舅舅舅媽一樣,雖然比不得他們親近,但也是一個(gè)可以信賴的存在。但最近這一年,零零總總發(fā)生了一些事,讓我覺(jué)得,人怎么可以能偽裝到這種地步,倒也不是多嚴(yán)重的事情,畢竟都是人對(duì)吧,都怕麻煩。但我覺(jué)得我如果不想麻煩的話,我就算不好意思拒絕,但我也不會(huì)裝出很真實(shí)的歡迎的樣子?,F(xiàn)在想起來(lái)都有點(diǎn)毛毛的。說(shuō)一件最近的事,我清明沒(méi)回家就想說(shuō)讓我哥(就是我親戚)不是剛好回陽(yáng)平關(guān)嘛,就剛好幫我把防曬和傘帶回西安。然后我媽給我說(shuō)我哥還要去綿陽(yáng)出差,防曬就給我?guī)Я?,傘有點(diǎn)大就不帶了,反正我嫂子是做禮品批發(fā)的,她那兒進(jìn)價(jià)四五十的傘市面上也賣一兩百,給我拿一把就行了。我說(shuō)好嘛。結(jié)果等我過(guò)去拿的時(shí)候,我嫂子跟我說(shuō),我哥把我的傘在綿陽(yáng)出差的時(shí)候整丟了,就拿他家的傘賠給我了。我當(dāng)時(shí)很疑惑也沒(méi)有說(shuō)啥,回來(lái)一看傘還是舊的。我不是嫌棄那把傘舊,我只是覺(jué)得,我哥在他們家連給我一把傘都要編織一個(gè)是自己過(guò)錯(cuò)的謊言,而且退一萬(wàn)步講把我的傘丟了,然后給了我一把他們用慣的舊的,他們?cè)儆眯碌??excus

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論