全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 915|回复: 2

小说精品屋plus的爬虫规则

[复制链接]
发表于 2020-5-17 12:08:48 | 显示全部楼层 |阅读模式
本帖最后由 mzh 于 2020-5-17 12:17 编辑

首先非常感觉201206030大佬的程序,还得请大佬看看有哪里说的不对

1.爬虫站点的选择

选择目录列表为以固定前缀+分类数字+列表标号为目录的站
例如:
http://www.biquge.info/list/2_3.html   这种是好的
https://www.farpop.com/list1_2/ 或者这种,虽然没有明显的分页按钮,但是改地址可以的
https://www.230book.com/dushixiaoshuo/3_4.html 这种第一级前缀不固定不符合当前爬虫规则,不选
https://www.xbiquge.cc/xiuzhenxiaoshuo/  这种站没有目录遍历的功能,而且改地址不可以的,不选

2.规则的设置
其实核心原则只有一个,就是F12查源码

依旧以http://www.biquge.info/list/2_3.html为例,按下F12
在右框element标签下选择小箭头,点击网页中的小说名字
能看到类似这样的界面
这里是列表页,有很多小说的链接地址,对应着爬虫设置中的“列表页小说ID正则表达式”

额,到这里就出现问题了,85_85352这个字符串没法用\d+表示
真的要表示得用这个href="http://www.biquge.info/(\d+_\d+)/
(此处可能没法爬取,我没看源码)
所有最好还是多找找有没有能用一个\d+就表示出来的站
我暂时除了示例的http://www.xdingdiann.com/还没看到其他的


以此类推,可以全部依靠F12查源码的方式填入爬虫源信息的对于表格里

或者

对着爬虫源信息填写表格的示例,依次按F12找对应的网址,看其中的哪个部分出现了和示例匹配字符串。这样一步一步理解就好了


但是真的,源站不好找啊
发表于 2020-5-17 12:10:13 来自手机 | 显示全部楼层
好的源站太难,绝大分都是采集
 楼主| 发表于 2020-5-17 12:17:41 | 显示全部楼层
guonning2000 发表于 2020-5-17 12:10
好的源站太难,绝大分都是采集

太难了,我放弃了。不爬了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-24 03:00 , Processed in 0.059029 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表