【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島_第1頁(yè)
【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島_第2頁(yè)
【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島_第3頁(yè)
【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島_第4頁(yè)
【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

【移動(dòng)應(yīng)用開發(fā)技術(shù)】怎么利用python3爬取漫畫島

這篇文章主要介紹“怎么利用python3爬取漫畫島”,在日常操作中,相信很多人在怎么利用python3爬取漫畫島問題上存在疑惑,在下查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”怎么利用python3爬取漫畫島”的疑惑有所幫助!接下來,請(qǐng)跟著在下一起來學(xué)習(xí)吧!首先是我們想要爬取的漫畫網(wǎng)頁(yè):/網(wǎng)頁(yè)截圖:其次是爬取下來的效果:每一回的文件夾里面是這樣的:(因?yàn)榫W(wǎng)站圖片的問題...所以就成了這個(gè)鬼樣子)1、準(zhǔn)備:需要vscode或者其他能夠編譯運(yùn)行python的軟件,推薦python版本3.X,否則有可能出現(xiàn)編譯問題。下載所需模塊:win+R進(jìn)入命令行,輸入pipinstall<模塊名>即可下載。例如:pip

install

beautifulsoup42、原理:模擬瀏覽器點(diǎn)擊->打開漫畫網(wǎng)頁(yè)鏈接->獲取網(wǎng)頁(yè)源碼->定位每一章漫畫的鏈接->模擬點(diǎn)擊->獲取圖片頁(yè)面源碼->定位圖片鏈接->下載圖片1、引入模塊(這里不再詳述)

2、模擬瀏覽器訪問網(wǎng)頁(yè)(1)、這里我們打開漫畫的目錄頁(yè),如下:url=”/Home/ComicDetail?id=58ddb07827a7c1392c234628“,此鏈接就是目錄頁(yè)鏈接。(2)、按F12打開此網(wǎng)頁(yè)的源碼(谷歌瀏覽器),選中上方NetWork,Ctrl+R刷新。(3)、找到加載網(wǎng)頁(yè)的源碼文件,點(diǎn)擊Headers,如下圖:StatusCode表示網(wǎng)頁(yè)返回的代碼,值為200時(shí)表示訪問成功。(4)、headers中的參數(shù)為下面紅框User-Agent。response

=

requests.get(url=url,

headers=headers)

#

模擬訪問網(wǎng)頁(yè)

print(response)

#

此處應(yīng)輸出

<Response

[200]>

print(response.text)

#

輸出網(wǎng)頁(yè)源碼兩個(gè)輸出分別輸出:

輸出返回200表示訪問成功。

(節(jié)選)(5)、將html代碼存入data中,xpath定位每一章鏈接。點(diǎn)擊上方Element,點(diǎn)擊:將鼠標(biāo)移至目錄處:右邊代碼區(qū)域出現(xiàn)每一章鏈接:data

=

etree.HTML(response.text)

#

tp

=

data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")

tp

=

data.xpath("http://*[@class="yesReader"]/@href")

zhang_list

=

tp

#

tp為鏈接列表輸出zhang_list,結(jié)果如下:(6)、獲取圖片鏈接(獲取方式同上一步)點(diǎn)進(jìn)第一章,同上一步,尋找到圖片鏈接:i=1

for

next_zhang

in

zhang_list:

#

在章節(jié)列表中循環(huán)

i=i+1

j=0

hui_url

=

r_url+next_zhang

name1

=

"第"+str(i)+"回"

file

=

"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)

#

創(chuàng)建文件夾

if

not

os.path.exists(file):

os.makedirs(file)

print("創(chuàng)建文件夾:",

file)

response

=

requests.get(url=hui_url,

headers=headers)

#

模擬訪問每一章鏈接

data

=

etree.HTML(response.text)

#

tp

=

data.xpath("http://div[@class="no-pic"]//img/@src")

tp

=

data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")

#

定位

ye_list

=

tp(7)、下載圖片for

k

in

ye_list:

#

在每一章的圖片鏈接列表中循環(huán)

download_url

=

tp[j]

print(download_url)

j=j+1

file_name="第"+str(j)+"頁(yè)"

response

=

requests.get(url=download_url)

#

模擬訪問圖片鏈接

with

open(file+file_name+".jpg","wb")

as

f:

f.write(response.content)"""

用于爬取非人哉漫畫

目標(biāo)網(wǎng)址:/

開始時(shí)間:2019/8/14

20:01:26

完成時(shí)間:2019/8/15

11:04:56

作者:kong_gu

"""

import

requests

import

json

import

time

import

os

from

lxml

import

etree

from

bs4

import

BeautifulSoup

def

main():

keyword="非人哉"

file

=

"E:/{}".format(keyword)

if

not

os.path.exists(file):

os.mkdir(file)

print("創(chuàng)建文件夾:",file)

r_url="/"

url

=

"/Home/ComicDetail?id=58ddb07827a7c1392c234628"

headers

=

{

#

模擬瀏覽器訪問網(wǎng)頁(yè)

"User-Agent":

"Mozilla/5.0

(Windows

NT

10.0;

Win64;

x64)

AppleWebKit/537.36

(KHTML,

like

Gecko)

Chrome/75.0.3770.142

Safari/537.36"}

response

=

requests.get(url=url,

headers=headers)

#

print(response.text)

#

輸出網(wǎng)頁(yè)源碼

data

=

etree.HTML(response.text)

#

tp

=

data.xpath("http://ul[@class="read-chapter"]/li/a[@class="active"]/@href")

tp

=

data.xpath("http://*[@class="yesReader"]/@href")

zhang_list

=

tp

i=1

for

next_zhang

in

zhang_list:

i=i+1

j=0

hui_url

=

r_url+next_zhang

name1

=

"第"+str(i)+"回"

file

=

"C:/Users/wangyueke/Desktop/"+keyword+"/{}/".format(name1)

#

這里需要自己設(shè)置路徑

if

not

os.path.exists(file):

os.makedirs(file)

print("創(chuàng)建文件夾:",

file)

response

=

requests.get(url=hui_url,

headers=headers)

data

=

etree.HTML(response.text)

#

tp

=

data.xpath("http://div[@class="no-pic"]//img/@src")

tp

=

data.xpath("http://div[@class="main-content"]//ul//li//div[@class="no-pic"]//img/@src")

ye_list

=

tp

for

k

in

ye_list:

download_url

=

tp[j]

print(download_url)

j=j+1

file_name="第"+str(j)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論