python實習(xí)報告（共7篇）

上傳人：1*** IP屬地：廣東上傳時間：2024-07-31 格式：DOCX 頁數(shù)：27 大?。?7.09KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩22頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

python實習(xí)報告（共7篇）python實習(xí)報告（共7篇）篇：Python網(wǎng)絡(luò)爬蟲實習(xí)報告實用標(biāo)準(zhǔn)文案Python網(wǎng)絡(luò)爬蟲實習(xí)報告精彩文檔實用標(biāo)準(zhǔn)文案目錄一、選題背景二、爬蟲原理爬蟲歷史和分類四、常用爬蟲框架比較五、數(shù)據(jù)爬取實戰(zhàn)（豆瓣網(wǎng)爬取電影數(shù)據(jù)）1分析網(wǎng)頁.2爬取數(shù)據(jù).3數(shù)據(jù)整理、轉(zhuǎn)換4數(shù)據(jù)保存、展示5技術(shù)難點關(guān)鍵點.六、精彩文檔實用標(biāo)準(zhǔn)文案一、選題背景二、爬蟲原理三、爬蟲歷史和分類四、常用爬蟲框架比較Scrapy框架:Scrapy框架是一套比較成熟的Python爬蟲框架，是使用Python開發(fā)的快速、高層次的信息爬取框架，可以高效的爬取web頁面并提取出結(jié)構(gòu)化數(shù)據(jù)。Scrapy應(yīng)用范圍很廣，爬蟲開發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)監(jiān)測、自動化測試等。Crawley框架:Crawley也是Python開發(fā)出的爬蟲框架，該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式。Portia框架:Portia框架是一款允許沒有任何編程基礎(chǔ)的用戶可視化地爬取網(wǎng)頁的爬蟲框架。newspaper框架:newspaper框架是一個用來提取新聞、文章以及內(nèi)容分析的Python爬蟲框架。Python-goose框架：Python-goose框架可提取的信息包括：文章主體內(nèi)容;文章主要圖片;文章中嵌入的任heYoutube/Vimeo視頻;元描述;元標(biāo)簽精彩文檔實用標(biāo)準(zhǔn)文案五、數(shù)據(jù)爬取實戰(zhàn)（豆瓣網(wǎng)爬取電影數(shù)據(jù)）1分析網(wǎng)頁data['rating_people_num'][i])f.write("%s"%data['movie_author'][i])f.write("")f.write("")f.write("")f.write("")f.write("第2篇：Python網(wǎng)絡(luò)爬蟲實習(xí)報告.Python網(wǎng)絡(luò)爬蟲實習(xí)報告..目錄一、選題背景二、爬蟲原理三、爬蟲歷史和分類四、常用爬蟲框架比較五、數(shù)據(jù)爬取實戰(zhàn)（豆瓣網(wǎng)爬取電影數(shù)據(jù)）.1分析網(wǎng)頁2爬取數(shù)據(jù)3數(shù)據(jù)整理、轉(zhuǎn)換4數(shù)據(jù)保存、展示5技術(shù)難點關(guān)鍵點六、總結(jié)一、選題背景二、爬蟲原理三、爬蟲歷史和分類四、常用爬蟲框架比較Scrapy框架:Scrapy框架是一套比較成熟的Python爬蟲框架，是使用Python開發(fā)的快速、高層次的信息爬取框架，可以高效的爬取web頁面并提取出結(jié)構(gòu)化數(shù)據(jù)。Scrapy應(yīng)用圍很廣，爬蟲開發(fā)、數(shù)據(jù)挖掘、數(shù)據(jù)監(jiān)測、自動化測試等。Crawley框架:Crawley也是Python開發(fā)出的爬蟲框架，該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式。Portia框架:Portia框架是一款允許沒有任何編程基礎(chǔ)的用戶可視化地爬取網(wǎng)頁的爬蟲框架。newspaper框架:newspaper框架是一個用來提取新聞、文章以及容分析的Python爬蟲框架。Python-goose框架：Python-goose框架可提取的信息包括：文章主體容;文章主要圖片;文章中嵌入的任heYoutube/Vimeo視頻;元描述;元標(biāo)簽..五、數(shù)據(jù)爬取實戰(zhàn)（豆瓣網(wǎng)爬取電影數(shù)據(jù)）1分析網(wǎng)頁#獲取html源代碼def__getHtml():data=pageNum=1pageSize=0try:while(pageSize#headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11',#'Referer':None#注意如果依然不能抓取的話，這里可以設(shè)置抓取的host#}#opener=urllib.request.build_opener()#opener.addheaders=[headers]url="https://movie.douban./top250?start="+str(pageSize)+"&filter="+str(pageNum)#data['html%s'%i]=urllib.request.urlopen(url).read().decode("utf-8")..data.append(urllib.request.urlopen(url).read().decode("utf-8"))pageSize+=25pageNum+=1print(pageSize,pageNum)exceptExceptionase:raiseereturndata2爬取數(shù)據(jù)def__getData(html):title=#電影標(biāo)題#rating_num=#評分range_num=#排名#rating_people_num=#評價人數(shù)movie_author=#導(dǎo)演data={}#bs4解析htmlsoup=BeautifulSoup(html,"html.parser")forliinsoup.find("ol",attrs={'cla':'grid_view'}).find_all("li"):title.append(li.find("span",cla_="title").text)#rating_num.append(li.find("div",..cla_='star').find("span",cla_='rating_num').text)range_num.append(li.find("div",cla_='pic').find("em").text)#spans=li.find("div",cla_='star').find_all("span")#forxinrange(len(spans)):#ifxindex=str.find("主")if(index==-1):index=str.find("...")print(li.find("div",cla_='pic').find("em").text)if(li.find("div",cla_='pic').find("em").text==210):index=60#print("aaa")#print(str[4:index])movie_author.append(str[4:index])..data['title']=title#data['rating_num']=rating_numdata['range_num']=range_num#data['rating_people_num']=rating_people_numdata['movie_author']=movie_authorreturndata3數(shù)據(jù)整理、轉(zhuǎn)換def__getMovies(data):f=open('F://douban_movie.html','w',encoding='utf-8')Crawley框架:Crawley也是Python開發(fā)出的爬蟲框架，該框架致力于改變?nèi)藗儚幕ヂ?lián)網(wǎng)中提取數(shù)據(jù)的方式。Portia框架:Portia框架是一款允許沒有任何編程基礎(chǔ)的用戶可視化地爬取網(wǎng)頁的爬蟲框架。newspaper框架:newspaper框架是一個用來提取新聞、文章以及內(nèi)容分析的Python爬蟲框架。3.Python和Java、PHP、C、C#、C++等其他語言的對比？4.簡述解釋型和編譯型編程語言？5.Python解釋器種類以及特點？6.位和字節(jié)的關(guān)系？7.b、B、KB、MB、GB的關(guān)系？11.python遞歸的最大層數(shù)？12.求結(jié)果：v1=1or3v2=1and3v3=0and2and1v4=0and2or1v5=0and2or1or4v6=0orFlaseand113.ascii、unicode、utf-8、gbk區(qū)別？14.字節(jié)碼和機器碼的區(qū)別？15.三元運算規(guī)則以及應(yīng)用場景？16.列舉Python2和Python3的區(qū)別？17.用一行代碼實現(xiàn)數(shù)值交換：a=1b=218.Python3和Python2中int和long的區(qū)別？19.xrange和range的區(qū)別？20.文件操作時：xreadlines和readlines的區(qū)別？21.列舉布爾值為False的常見值？29.Python的可變類型和不可變類型？30.求結(jié)果：v=dict.fromkeys(['k1'，'k2']，)v[‘k1’].append(666)print(v)v[‘k1’]=777print(v)31.求結(jié)果：defnum():return[lambdax:i*xforIinrange(4)]print([m(2)forminnum()])32.列舉常見的內(nèi)置函數(shù)？33.filter、map、reduce的作用？34.一行代碼實現(xiàn)9*9乘法表35.如何安裝第三方模塊？以及用過哪些第三方模塊？39.求結(jié)果：a.[i%2foriinrange(10)]b.(i%2foriinrange(10))40.求結(jié)果：a.1or2b.1and2c.142.如何實現(xiàn)“1，2，3”變成[‘1’，’2’，’3’]?43.如何實現(xiàn)[‘1’，’2’，’3’]變成[1，2，3]?44.比較：a=[1，2，3]和b=[(1)，(2)，(3)]以及b=[(1，)，(2，)，(3，)]的區(qū)別？45.如何用一行代碼生成[1，4，9，16，25，36，49，64，81，100]?46.一行代碼實現(xiàn)刪除列表中重復(fù)的值?47.如何在函數(shù)中設(shè)置一個全局變量？48.logging模塊的作用？以及應(yīng)用場景？49.請用代碼簡答實現(xiàn)stack。50.常用字符串格式化哪幾種？51.簡述生成器、迭代器、可迭代對象以及應(yīng)用場景？52.用Python實現(xiàn)一個二分查找的函數(shù)。53.談?wù)勀銓﹂]包的理解？54.os和sys模塊的作用？56.如何使用python刪除一個文件？57.談?wù)勀銓γ嫦驅(qū)ο蟮睦斫猓?8.Python面向?qū)ο笾械睦^承有什么特點？59.面向?qū)ο笊疃葍?yōu)先和廣度優(yōu)先是什么？60.面向?qū)ο笾衧uper的作用？61.是否使用過functools中的函數(shù)？其作用是什么？62.列舉面向?qū)ο笾袔聞澗€的特殊方法，如：__new__、__init__63.如何判斷是函數(shù)還是方法？64.靜態(tài)方法和類方法區(qū)別？65.列舉面向?qū)ο笾械奶厥獬蓡T以及應(yīng)用場景66.1、2、3、4、5能組成多少個互不相同且無重復(fù)的三位數(shù)67.什么是反射？以及應(yīng)用場景？68.metacla作用？以及應(yīng)用場景？69.用盡量多的方法實現(xiàn)單例模式。70.裝飾器的寫法以及應(yīng)用場景。71.異常處理寫法以及如何主動跑出異常（應(yīng)用場景）72.什么是面向?qū)ο蟮膍ro73.isinstance作用以及應(yīng)用場景？74.寫代碼并實現(xiàn)：76.json序列化時，默認(rèn)遇到中文會轉(zhuǎn)換成unicode，如果想要保留中文怎么辦？77.什么是斷言？應(yīng)用場景？78.有用過withstatement嗎？它的好處是什么？79.使用代碼實現(xiàn)查看列舉目錄下的所有文件。80.簡述yield和yieldfrom關(guān)鍵字。2.單引號中的字符串可以包含雙引號，雙引號中的字符串可以包含單引號，而不需要使用轉(zhuǎn)義字符。另外3個引號所包圍的字符可以作為注釋，還可以作為格式化的字符串，該字符串可以不再一行，格式化后行尾會自動轉(zhuǎn)化為“n”轉(zhuǎn)義字符。3.在Python中可以使用“”將較長的語句分成幾行來寫，但是注意每行后面不可以有#注釋?；蛘呖梢允褂脠A括號將較長的語句分行，每行后面可以使用#注釋。4.類型間轉(zhuǎn)換hex()：將整數(shù)轉(zhuǎn)換為十六進制字符串，包含前綴“0x”oct()：將整數(shù)轉(zhuǎn)換為八進制字符串，包含前綴“0o”注：string模塊中有string.atoi(x,base=10)，類似int()，但是可以選擇變換后的進制5.math模塊中數(shù)學(xué)函數(shù)：hypot(x,y)：求直角三角形的斜邊長度，x和y為兩個直角邊長度fmod(x,y)：求x/y的余數(shù)，等同于x%yceil(x)：求不小于x的最大整數(shù)floor(x)：求不大于x的最小整數(shù)fabs(x)：求x的絕對值exp(x)：求e的x次冪pow(x,y)：求x的y次冪，等同于x**ylog10(x)：求x以log10為底的對數(shù)sqrt(x)：求x的平方根pi：求pi的值6.字符串操作string.capitalize()：將字符串第一個字母大寫string.count(x)：獲得字符串中某字符串的數(shù)目string.find(x)：獲得字符串中某子字符串的起始位置string.isalnum()：是否僅包含0～9、A～Z、a～zstring.isalpha()：是否僅包含A～Z、a～zstring.isaldigit()：是否僅包含0～9string.islower()string.isupper()string.lower()string.upper()string.ipace()string.istitle()：字符串中所有單詞是否首字母大寫string.title()string.join(x)：將string插入x中的每兩個字符之間string.swapcase()：大小寫字母轉(zhuǎn)換string.split(x)：利用分割字符串的單詞（默認(rèn)是space）len(string)7.格式化字符串%f%d%s%o：八進制整數(shù)%x：十六進制整數(shù)注：r"xxxxx"或者R"xxxxx"表示原始字符串，常用語正則表達(dá)式或者路徑表示中，其間沒有轉(zhuǎn)義字符，均是正常字符。8.列表listlist.append(x)：追加成員xlist.count(x)：參數(shù)x出現(xiàn)的次數(shù)list.extend(x)：list1+list2無法改變list1，只能返回一個新的list，但是list2.extend(list2)函數(shù)可以改變list1的值list.index(x)：獲得x在list中的位置list.insert(index,x)：在index處插入xlist.pop(index)：刪除索引為index的成員list.remove(x)：刪除值為x的成員list.reverse()list.sort()list.clear()注：tuple的操作與list類似，但是不包含可修改元組的操作。9.字典dictdict.clear()dict.copy(x)：將字典x拷貝給dictdict.get(key)：等同于dict[k]dict.has_key(key)：是否包含key鍵dict.items()：獲得鍵-值對組成的列表dict.keys()：獲得鍵組成的列表dict.values()：獲得值組成的列表dict.pop(key)dict.update(x)：利用字典x更新原字典10.文件操作open(filename,mode,bufsize)filename：要打開的文件名mode：打開模式（r是只讀，w是替換寫，a是追加寫，+是讀寫等）bufsize：緩沖區(qū)大小，可以默認(rèn)file.read()：整個文件讀入字符串中file.readlines()：整個文件讀入列表中file.readline()：某行讀入字符串中file.write(x)：寫入字符串file.writelines(x)：寫入列表xfile.close().11.函數(shù)參數(shù)調(diào)用函數(shù)可以同時使用按順序傳遞參數(shù)，以及關(guān)鍵字傳遞參數(shù)等，但是必須注意按順序傳遞的參數(shù)要位于按關(guān)鍵字傳遞的參數(shù)之前，而且不能有重復(fù)的情況發(fā)生。例如：defsample(x,y,z):pamysum(1,z=5,y=6)#okmysum(z=6,y=7,3)#error使用可變長參數(shù)的函數(shù)，將其所有參數(shù)保存在一個元組里，在函數(shù)中可以使用for循環(huán)來處理，聲明一個可變長參數(shù)的函數(shù)只需用*開頭定義一個參數(shù)即可。12.局部/全局變量局部作用域內(nèi)的變量的改變并不影響全局作用域內(nèi)的變量，除非通過引用的方式傳遞參數(shù)。如果要在函數(shù)內(nèi)使用函數(shù)外的變量，可以在變量名前使用global關(guān)鍵字。例如：deffunc(x):globalareturnx+a13.模塊查找路徑導(dǎo)入模塊時，python解釋器首先在當(dāng)前目錄中查找導(dǎo)入的模塊；如果未找到，解釋器會從sys模塊中的path變量指定的目錄查找導(dǎo)入模塊；如果均未找到，則會出錯。importsyssys.path在腳本中可以向sys.path添加查找路徑，例如可以在.py中如下：importosimportsysmodulepath=os.getcwd()+?module?#module是當(dāng)前目錄下的module子目錄sys.path.append(modulepath)importmymodule#mymodule在module子目錄中************14.dir(x)可以獲得導(dǎo)入模塊中的所有定義的名字和函數(shù)等。importsysdir(sys)當(dāng)不使用參數(shù)時，該函數(shù)將返回當(dāng)前腳本的所有名字列表。15.模塊包包可以看成是出于同一個目錄中的模塊，在python中首先使用目錄名，然后再使用模塊名導(dǎo)入所需要的模塊。在包的每個目錄（包括子目錄）中都必須包含一個“__init__.py”的文件，該文件甚至可以是一個空文件，僅用于表示該目錄為一個包。在__init__.py中設(shè)置__all__變量和包初始化所需的代碼，可以保證在from中使用*時名字的正確導(dǎo)入。fromA.BimportaimportA.B.a有了包的概念可以很好地解決模塊查找路徑的問題，只要將所有的模塊放在當(dāng)前目錄中的某個文件夾內(nèi)（子目錄），然后在子目錄內(nèi)新建一個__init__.py文件即可，而不需將子目錄的路徑添加到sys.path中。第6篇：Python學(xué)習(xí)總結(jié)Python總結(jié)目錄Python總結(jié)1前言2（一）如何學(xué)習(xí)Python2（二）一些Python免費課程推薦4（一）如何學(xué)習(xí)Python學(xué)習(xí)Python大致可以分為以下幾個階段：1.剛上手的時候肯定是先過一遍Python最基本的知識，比如說：變量、數(shù)據(jù)結(jié)構(gòu)、語法等，基礎(chǔ)過的很快，基本上1~2周時間就能過完了，我當(dāng)時是在這兒看的基礎(chǔ)：Python簡介|菜鳥教程2.看完基礎(chǔ)后，就是做一些小項目鞏固基礎(chǔ)，比方說：做一個終端計算器，如果實在找不到什么練手項目，可以在Codecademy知乎專欄5.Python庫是開發(fā)者利器，用這些庫你可以做很多很多東西，最常見的網(wǎng)絡(luò)爬蟲、自然語言處理、圖像識別等等，這些領(lǐng)域都有很強大的Python庫做支持，所以當(dāng)你學(xué)了Python庫之后，一定要第一時間進行練習(xí)。如何尋找自己需要的Python庫呢？推薦我之前的一個回答：如何找到適合需求的Python庫?6.學(xué)習(xí)使用了這些Python庫，此時的你應(yīng)該是對Python十分滿意，也十分激動能遇到這樣的語言，就是這個時候不妨開始學(xué)習(xí)Python數(shù)據(jù)結(jié)構(gòu)與算法，Python設(shè)計模式，這是你進一步學(xué)習(xí)的一個重要步驟：faif/python-patterns7.當(dāng)度過艱難的第六步，此時選擇你要研究的方向，如果你想做后端開發(fā)，不妨研究研究Django，再往后，就是你自己自由發(fā)揮了。（二）一些Python免費課程推薦以下課程都為免費課程1.python零基礎(chǔ)相關(guān)適用人群：Python零基礎(chǔ)的初學(xué)者、Web開發(fā)程序員、運維人員、有志于從事互聯(lián)網(wǎng)行業(yè)以及各領(lǐng)域應(yīng)用Python的人群?瘋狂的Python：快速入門精講?零基礎(chǔ)入門學(xué)習(xí)Python?玩轉(zhuǎn)Python語言?Python語言程序設(shè)計?程序設(shè)計入門?可汗學(xué)院公開課：計算機科學(xué)?python入門到精通?Python交互式編程入門的課程主頁?Python交互編程入門（第2部分）的課程主頁2.pythonweb方向PythonDjango快速Web應(yīng)用開發(fā)入門3.python爬蟲Python實戰(zhàn)：一周學(xué)會爬取網(wǎng)頁4.python數(shù)據(jù)分析方向數(shù)據(jù)分析實戰(zhàn)基礎(chǔ)課程（三）Python爬蟲需要哪些知識？要學(xué)會使用Python爬取網(wǎng)頁信息無外乎以下幾點內(nèi)容：1、要會Python2、知道網(wǎng)頁信息如何呈現(xiàn)3、了解網(wǎng)頁信息如何產(chǎn)生4、學(xué)會如何提取網(wǎng)頁信息第一步Python是工具，所以你必須熟練掌握它，要掌握到什么程度呢？如果你只想寫一寫簡單的爬蟲，不要炫技不考慮爬蟲效率，你只需要掌握：?????數(shù)據(jù)類型和變量字符串和編碼使用list和tuple條件判斷、循環(huán)使用dict和set你甚至不需要掌握函數(shù)、異步、多線程、多進程，當(dāng)然如果想要提高自己小爬蟲的爬蟲效率，提高數(shù)據(jù)的精確性，那么記住最好的方式是去系統(tǒng)的學(xué)習(xí)一遍Python，去哪兒學(xué)習(xí)？Python教程假設(shè)已經(jīng)熟悉了最基礎(chǔ)的Python知識，那么進入第二步：知道網(wǎng)頁信息如何呈現(xiàn)？你首先要知道所需要抓取的數(shù)據(jù)是怎樣的呈現(xiàn)的，就像是你要學(xué)做一幅畫，在開始之前你要知道這幅畫是用什么畫出來的，鉛筆還是水彩筆...可能種類是多樣的，但是放到網(wǎng)頁信息來說這兒只有兩種呈現(xiàn)方式：1、HTML（HTML簡介）2、JSON（JSON簡介）HTML是用來描述網(wǎng)頁的一種語言JSON是一種輕量級的數(shù)據(jù)交換格式假設(shè)你現(xiàn)在知道了數(shù)據(jù)是由HTML和JSON呈現(xiàn)出來的，那么我們緊接著第三步：數(shù)據(jù)怎么來？數(shù)據(jù)當(dāng)然是從服務(wù)器反饋給你的，為什么要反饋給你？因為你發(fā)出了請求?！癏i~，服務(wù)器我要這個資源”“正在傳輸中...”“已經(jīng)收到HTML或者JSON格式的數(shù)據(jù)”這個請求是什么請求？要搞清楚這一點你需要了解一下http的基礎(chǔ)知識，更加精確來說你需要去了解GET和POST是什么，區(qū)別是什么。也許你可以看看這個：淺談HTTP中Get與Post的區(qū)別博客園很高興你使用的是Python，那么你只需要去掌握好快速上手知乎專欄知乎--Python學(xué)習(xí)路徑及練手項目合集（四）Python爬蟲進階爬蟲無非分為這幾塊：分析目標(biāo)、下載頁面、解析頁面、存儲內(nèi)容，其中下載頁面不提。1.分析目標(biāo)所謂分析就是首先你要知道你需要抓取的數(shù)據(jù)來自哪里？怎么來？普通的網(wǎng)站一個簡單的POST或者GET請求，不加密不反爬，幾行代碼就能模擬出來，這是最基本的，進階就是學(xué)會分析一些復(fù)雜的目標(biāo)，比如說：淘寶、新浪微博登陸以及網(wǎng)易云的評論信息等等。2.解析頁面解析頁面主要是選擇什么庫或者那些庫結(jié)合能使解析速度更快，可能你一開始你通過種種地方了解到了bs庫，于是你對這個庫很癡迷，以后只要寫爬蟲，總是先寫上：importrequestsfrombs4importBeautifulSoup當(dāng)然bs已經(jīng)很優(yōu)秀了，但是并不代表可以用正則表達(dá)式解析的頁面還需要使用bs，也不代表使用lxml能解決的還要動用bs，所以這些解析庫的速度是你在進階時要考慮的問題。3.存儲內(nèi)容剛開始學(xué)爬蟲，一般爬取的結(jié)果只是打印出來，最后把在終端輸出的結(jié)果復(fù)制粘貼保存就好了；后來發(fā)現(xiàn)麻煩會用上xlwt/openpyxl/csv的把存儲內(nèi)容寫入表格，再后來使用數(shù)據(jù)庫sqlite/mysql/neo4j只要調(diào)用了庫都很簡單，當(dāng)然這是入門。進階要開始學(xué)習(xí)如何選擇合適的數(shù)據(jù)庫，或者存儲方式。當(dāng)爬取的內(nèi)容過千萬的時候，如何設(shè)計使存儲速度更快，比如說當(dāng)既有人物關(guān)系又有人物關(guān)系的時候，一定會用neo4j來存儲關(guān)系，myslq用來存儲用戶信息，這樣分開是因為如果信息全部存入neo4j，后期的存儲速度經(jīng)十分的慢。當(dāng)你每個步驟都能做到很優(yōu)秀的時候，你應(yīng)該考慮如何組合這四個步驟，使你的爬蟲達(dá)到效率最高，也就是所謂的爬蟲策略問題，爬蟲策略學(xué)習(xí)不是一朝一夕的事情，建議多看看一些比較優(yōu)秀的爬蟲的設(shè)計方案，比如說Scrapy。除了爬取策略以外，還有幾點也是必備的：1.代理策略以及多用戶策略代理是爬蟲進階階段必備的技能，與入門階段直接套用代理不同，在進階階段你需要考慮如何設(shè)計使用代理策略，什么時候換代理，代理的作用范圍等等，多用戶的抓取策略考慮的問題基本上與代理策略相同。2.增量式抓取以及數(shù)據(jù)刷新比如說你抓取的是一個酒店網(wǎng)站關(guān)于酒店價格數(shù)據(jù)信息的，那么會有這些問題：酒店的房型的價格是每天變動的，酒店網(wǎng)站每天會新增一批酒店，那么如何進行存儲、如何進行數(shù)據(jù)刷新都是應(yīng)該考慮的問題。3.驗證碼相關(guān)的一些問題有很多人提到驗證碼，我個人認(rèn)為驗證碼不是爬蟲主要去解決的問題，驗證碼不多的情況考慮下載到本地自己輸入驗證碼，在多的情況下考慮接入打碼平臺。（五）Python爬蟲面試指南前段時間快要畢業(yè)，而我又不想找自己的老本行Java開發(fā)了，所以面了很多Python爬蟲崗位。因為我在南京上學(xué)，所以我一開始只是在南京投了簡歷，我一共面試了十幾家企業(yè)，其中只有一家沒有給我發(fā)offer，其他企業(yè)都愿意給到10K的薪資，不要拿南京的薪資水平和北上深的薪資水平比較，結(jié)合面試常問的問題類型說一說我的。第一點：Python因為面試的是Python爬蟲崗位，面試官大多數(shù)會考察面試者的基礎(chǔ)的Python知識，包括但不限于：????Python2.x與Python3.x的區(qū)別Python的裝飾器Python的異步Python的一些常用內(nèi)置庫，比如多線程之類的第二點：數(shù)據(jù)結(jié)構(gòu)與算法數(shù)據(jù)結(jié)構(gòu)與算法是對面試者尤其是校招生面試的一個很重要的點，當(dāng)然小公司不會太在意這些，從目前的招聘情況來看對面試者的數(shù)據(jù)結(jié)構(gòu)與算法的重視程度與企業(yè)的好壞成正比，那些從不問你數(shù)據(jù)結(jié)構(gòu)的你就要當(dāng)心他們是否把你當(dāng)碼農(nóng)用的，當(dāng)然以上情況不絕對，最終解釋權(quán)歸面試官所有。第三點：Python爬蟲最重要也是最關(guān)鍵的一點當(dāng)然是你的Python爬蟲相關(guān)的知識與經(jīng)驗儲備，這通常也是面試官考察的重點，包括但不限于：?????你遇到過的反爬蟲的策略有哪些？你常用的反反爬蟲的方案有哪些？你用過多線程和異步嗎？除此之外你還用過什么方法來提高爬蟲效率？有沒有做過增量式抓?。繉ython爬蟲框架是否有了解？第四點：爬蟲相關(guān)的項目經(jīng)驗爬蟲重在實踐，除了理論知識之外，面試官也會十分注重爬蟲相關(guān)的項目：?你做過哪些爬蟲項目？如果有Github最好?你認(rèn)為你做的最好的爬蟲項目是哪個？其中解決了什么難題？有什么特別之處？以上是我在面試過程中，會碰到的一些技術(shù)相關(guān)的問題的總結(jié)，當(dāng)然面試中不光是技術(shù)這一點，但是對于做技術(shù)的，過了技術(shù)面基本上就是薪資問題了。（六）推薦一些不錯的Python博客如果是Python基礎(chǔ)的話，廖雪峰的博客教程會是一個不錯的選擇：??Python3教程Python2.7教程當(dāng)然很多剛接觸Python的同學(xué)反應(yīng)廖大大的教程中部分跳躍性太大，如果覺得跳躍性太大可以結(jié)合菜鳥教程一起看：??Python3教程|菜鳥教程Python基礎(chǔ)教程|菜鳥教程如果你英文稍好的話推薦還是看官方文檔：Python3.6.0documentation如果不是為了學(xué)習(xí)Python基礎(chǔ)的話，推薦幾個其他的博客。????董老師的博客：小明明sàdomicile《Python-Web開發(fā)實戰(zhàn)》的作者，知乎某位工程師的博客：分類《Python》，具體是哪位大神我不太清楚。依云大大的博客文章值得深讀：依云'sBlog《從Python開始學(xué)編程》的作者博客：PythonVamei博客園Python|the5fire的技術(shù)博客（七）Python如何進階很多人在學(xué)習(xí)編程之初都會碰到這種問題：學(xué)會了基礎(chǔ)的語法了，但是還是做不了項目，不知道如何下手。當(dāng)初，我學(xué)習(xí)C的時候是這樣、Java的時候是這樣、Python的時候也是這樣，其實不管什么語言、什么知識都是這樣：理論基礎(chǔ)知識謝科的回答如果你想學(xué)習(xí)編程，但是找不到學(xué)習(xí)路徑和資源，歡迎關(guān)注專欄：學(xué)習(xí)編程第一：Python爬蟲學(xué)習(xí)系列教程Python版本：2.7整體目錄：一、爬蟲入門?Python爬蟲入門一之綜述?Python爬蟲入門二之爬蟲基礎(chǔ)了解?Python爬蟲入門三之Urllib庫的基本使用?Python爬蟲入門四之Urllib庫的高級用法?Python爬蟲入門五之URLError異常處理?Python爬蟲入門六之Cookie的使用?Python爬蟲入門七之正則表達(dá)式二、爬蟲實戰(zhàn)?Python爬蟲實戰(zhàn)一之爬取糗事百科段子?Python爬蟲實戰(zhàn)二之爬取百度貼吧帖子?Python爬蟲實戰(zhàn)三之實現(xiàn)山東大學(xué)無線網(wǎng)絡(luò)掉線自動重連?Python爬蟲實戰(zhàn)四之抓取淘寶MM照片?Python爬蟲實戰(zhàn)五之模擬登錄淘寶并獲取所有訂單?Python爬蟲實戰(zhàn)六之抓取愛問知識人問題并保存至數(shù)據(jù)庫?Python爬蟲實戰(zhàn)七之計算大學(xué)本學(xué)期績點?Python爬蟲實戰(zhàn)八之利用Selenium抓取淘寶匿名旺旺三、爬蟲利器?Python爬蟲利器一之Requests庫的用法?Python爬蟲利器二之BeautifulSoup的用法?Python爬蟲利器三之Xpath語法與lxml庫的用法?Python爬蟲利器四之PhantomJS的用法?Python爬蟲利器五之Selenium的用法?Python爬蟲利器六之PyQuery的用法四、爬蟲進階?Python爬蟲進階一之爬蟲框架概述?Python爬蟲進階二之PySpider框架安裝配置?Python爬蟲進階三之爬蟲框架Scrapy安裝配置?Python爬蟲進階四之PySpider的用法第二（第一的姊妹篇）：Python爬蟲入門教程Python版本：2.7教程目錄：?[Python]網(wǎng)絡(luò)爬蟲（一）：抓取網(wǎng)頁的含義和URL基本構(gòu)成?[Python]網(wǎng)絡(luò)爬蟲（二）：利用urllib2通過指定的URL抓取網(wǎng)頁內(nèi)容?[Python]網(wǎng)絡(luò)爬蟲（三）：異常的處理和HTTP狀態(tài)碼的分類?[Python]網(wǎng)絡(luò)爬蟲（四）：Opener與Handler的介紹和實例應(yīng)用?[Python]網(wǎng)絡(luò)爬蟲（五）：urllib2的使用細(xì)節(jié)與抓站技巧?[Python]網(wǎng)絡(luò)爬蟲（六）：一個簡單的百度貼吧的小爬蟲?[Python]網(wǎng)絡(luò)爬蟲（七）：Python中的正則表達(dá)式教程?[Python]網(wǎng)絡(luò)爬蟲（八）：糗事百科的網(wǎng)絡(luò)爬蟲（v0.3）源碼及解析(簡化更新)?[Python]網(wǎng)絡(luò)爬蟲（九）：百度貼吧的網(wǎng)絡(luò)爬蟲（v0.4）源碼及解析?[Python]網(wǎng)絡(luò)爬蟲（十）：一個爬蟲的誕生全過程（以山東大學(xué)績點運算為例）?[Python]網(wǎng)絡(luò)爬蟲（11）：亮劍！爬蟲框架小抓抓Scrapy閃亮登場！?[Python]網(wǎng)絡(luò)爬蟲（12）：爬蟲框架Scrapy的第一個爬蟲示例入門教程（九）Python開發(fā)微信公眾號我的第一個Python項目就是做的微信公眾號機器人，按照當(dāng)時我的思路來講講如何學(xué)習(xí)使用Python來開發(fā)微信公眾號：大家伙收藏順手點個贊唄。微信公眾號功能開發(fā)分為兩大塊：需要調(diào)用微信內(nèi)部功能、不需要調(diào)用微信內(nèi)部功能，重點在調(diào)用微信內(nèi)部功能組建。些容器對象，比如list、dict、tuple，instance等可能會出現(xiàn)引用循環(huán)，對于這些循環(huán)，垃圾回收器會定時回收這些循環(huán)（對象之間通過引用（指針）連在一起，構(gòu)成一個有向圖，對象構(gòu)成這個有向圖的節(jié)點，而引用關(guān)系構(gòu)成這個有向圖的邊）。分代收集：Python把內(nèi)存根據(jù)對象存活時間劃分為三代，對象創(chuàng)建之后，垃圾回收器會分配它們所屬的代。每個對象都會被分配一個代，而被分配更年輕的代是被優(yōu)先處理的，因此越晚創(chuàng)建的對象越容易被回收。如果你想要深入了解Python的GC機制，點擊這里：[轉(zhuǎn)載]Python垃圾回收機制--完美講解!（四）、Python多線程（multi-threading）。這是個好主意嗎？Python并不支持真正意義上的多線程，Python提供了多線程包。Python中有一個叫GlobalInterpreterLock（GIL）的東西，它能確保你的代碼中永遠(yuǎn)只有一個線程在執(zhí)行。經(jīng)過GIL的處理，會增加執(zhí)行的開銷。這就意味著如果你先要提高代碼執(zhí)行效率，使用threading不是一個明智的選擇，當(dāng)然如果你的代碼是IO密集型，多線程可以明顯提高效率，相反如果你的代碼是CPU密集型的這種情況下多線程大部分是雞肋。想要深入詳細(xì)了解多線程，點擊這里：詳解Python中的多線程編程_python想了解一下IO密集和CPU密集可以點擊這里：CPU-bound(計算密集型)和I/Obound(I/O密集型)（五）、說明os,sys模塊不同，并列舉常用的模塊方法？

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

python實習(xí)報告（共7篇）

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔