全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1056|回复: 8

[疑问] 一个小图站的爬虫

[复制链接]
发表于 2021-8-13 15:16:41 | 显示全部楼层 |阅读模式
本帖最后由 qianmianyao 于 2021-8-20 08:19 编辑

其实爬这些图站的逻辑都是一个样的,没啥意思,现在的脚本是单线程,没有异步和多线程,我也是边写边学,这几天在学异步,学会了我就改一下脚本再在这个贴里发一遍,爬的是这个站:https://zazhitaotu.cc
需要的依赖是
iasyncio
os
random
re
bs4
requests
httpx
aiofiles
python 版本大于 3.7 就行
脚本地址:https://github.com/qianmianyao/python_learn/blob/main/小爬虫.py


小爬虫更新啦!
更新了异步下载,基本是3 秒一套图,提一嘴,原先的是 80 秒一套图
方案是同步请求,异步下载,全部用异步逻辑太复杂,其次是会被网站拒绝链接。
发表于 2021-8-13 15:21:56 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2021-8-13 15:22:04 | 显示全部楼层
技术贴必顶
发表于 2021-8-13 15:25:36 | 显示全部楼层
虽然写得很简单,不过还是鼓励继续迭代更新
发表于 2021-8-13 15:32:02 | 显示全部楼层
哎呀,漏点的啊,我喜欢,收下了
发表于 2021-8-13 15:36:58 | 显示全部楼层
进来学习一下技术
 楼主| 发表于 2021-8-13 17:15:00 | 显示全部楼层
萌墨 发表于 2021-8-13 15:25
虽然写得很简单,不过还是鼓励继续迭代更新

估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了
发表于 2021-8-13 17:27:33 | 显示全部楼层
qianmianyao 发表于 2021-8-13 17:15
估计更新也就是优化一下爬取速度了,不过大多数图站的模式差不多,改一下匹配方式可以通用了 ...

要稳定的话我还是建议单线程爬取,设置时间延迟,还又可以按照底部页码进行爬取,而不是通过 固定url+数字
匹配方式可以换着其它的 正则,xpath,bs4,可以换着使用看看哪个效率高,熟悉一下

进阶:多线程,协程,代理ip,对网站更新的内容进行爬取

scarpy框架是个不错的东西
 楼主| 发表于 2021-8-20 07:34:58 来自手机 | 显示全部楼层
异步速度是真的快
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-6 07:46 , Processed in 0.065716 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表