瑞客论坛

 找回密码
 立即注册
查看: 2543|回复: 2

申请会员ID:wty1641

[复制链接]
匿名  发表于 2019-12-19 08:49 |阅读模式



1

2

3

4

5

6

7

8

9

#建立 分析目录页,提取详情页的函数parse_catalogue(),这里需要给定参数url,

def parse_catalogue(url):
     #调用requests库中的get命令,获取要爬取的目录页内容

          req = requests.get(url=url, headers=HEADER)
#通过lxml库中etree.HTML将解析字符串格式的HTML文档对象,注意:使用req.content获取的是网页的bytes型也就是二进制的数据。

          html = etree.HTML(req.content)




      #在这里我们通过分析网页源代码,使用xpath命令进行定位,可以看出其中的href就是我们的要获得的网页地址(……的一部分)。如图2-2。




01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

          href = html.xpath("//div[@id='content']/li/a/@href")

#在我们得到了所有的href后,通过for循环将其取出,通过字符串的组合我们我们就能得到详情页的真是网址,即content_url。例:“https://manhua.fzdm.com/1/ + brc25/ ”


        for x in href:


            content_url = URL + x

#打印组合完成的新网址,这样在爬取的时候,我们就可以看到下载到了哪里。


            print(content_url)

#将content_url得到的网址传入到parse_content函数,这里使用的parse_content函数是下面要建立的详情页解析函数。


            parse_content(content_url)

#使用time函数,每次解析一个网页后停滞2秒。


            time.sleep(2)


   


    到这里,我们完成了爬虫功能的一半,实现了对所有详情页的网址的获取及将详情页网址导入详情页解析函数的操作。这样我们在启动爬虫的的时候,只需要调用一个函数(parse_catalogue)就能实现完整解析下载功能。


三、详情页解析,下载漫画
<font]进入到详情页中,我们首先来对详情页进行分析,这里该网站采用的是一个页面显示一张漫画的方法,想看下一页漫画,只能通过点击下一页或者点击可见到的数字来跳转到相关页面。如图3-1.



3-1 详情页跳转方式


3-2 详情页跳转方式源码
[color=rgb(51,][Python] [color=rgb(51, 102, 153) !important]纯文本查看 [color=rgb(51, 102, 153) !important]复制代码
[backcolor=rgb(27, 36, 38) !important]
[Python] [color=rgb(51, 102, 153) !important]纯文本查看 [color=rgb(51, 102, 153) !important]复制代码

[backcolor=rgb(27, 36, 38) !important]

爬取结果如图3-4,图3-5。













01.jpg
02.jpg
回复

使用道具

金币5214  第244名

21

主题

430

回帖

2万

积分

管理员

Rank: 9Rank: 9Rank: 9

威望
8526
贡献
7405
热心值
350
金币
5214
注册时间
2019-3-15
发表于 2019-12-20 12:50 | 显示全部楼层
这个排版有点乱,看不懂。可以整理一下
回复

使用道具 举报

匿名  发表于 2019-12-25 19:45
重新发布了,请管理员大大审核一下

匿名  发表于 2019-12-29 14:49
已重新排版上传,请版主大大审阅啊

金币561  第2834名

0

主题

239

回帖

1764

积分

金牌会员

Rank: 6Rank: 6

威望
717
贡献
486
热心值
0
金币
561
注册时间
2021-10-9
发表于 2021-11-19 23:36 | 显示全部楼层
看到这帖子真是高兴!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies |上传

本版积分规则

Archiver|手机版|小黑屋|瑞客论坛 |网站地图

GMT+8, 2024-12-4 01:26

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表