全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 3377|回复: 25

[疑问] 抓取6000W谷歌的搜索结果,打算做个大点的垃圾站试试

[复制链接]
发表于 2017-9-25 21:13:05 | 显示全部楼层 |阅读模式
RT,
Google的防护做的挺严格的,6000W数据用了近一个月。
下一步开始弄站,一个月后汇报下结果。
发表于 2017-9-25 21:14:55 | 显示全部楼层
mark,一个月后来看大佬结果
发表于 2017-9-25 22:00:48 | 显示全部楼层
mark,一个月后来看大佬结果

评分

参与人数 1威望 -15 收起 理由
我是人 -15 会员举报,复读机。

查看全部评分

发表于 2017-9-25 22:01:45 | 显示全部楼层
你是怎么抓的  GOOGLE  封IP 啊
发表于 2017-9-25 22:05:05 | 显示全部楼层
大佬牛 谷歌都爬下来了  多大的硬盘 数据库搜索会不会直接卡死?
 楼主| 发表于 2017-9-25 22:08:21 | 显示全部楼层
zhoutiancai 发表于 2017-9-25 22:05
大佬牛 谷歌都爬下来了  多大的硬盘 数据库搜索会不会直接卡死?

刚抓取完还没入库,数据大概500G左右,只抓取了前20个结果
 楼主| 发表于 2017-9-25 22:09:29 | 显示全部楼层
Polymer_dg 发表于 2017-9-25 22:01
你是怎么抓的  GOOGLE  封IP 啊

多IP轮流,要是不封IP也不用这么久了
发表于 2017-9-25 22:29:11 | 显示全部楼层
爬虫部落 发表于 2017-9-25 22:09
多IP轮流,要是不封IP也不用这么久了

大概多少个ip?策略方便说一下吗?我准备抓取一点行业相关网站给客服用
 楼主| 发表于 2017-9-25 22:32:22 | 显示全部楼层
miven 发表于 2017-9-25 22:29
大概多少个ip?策略方便说一下吗?我准备抓取一点行业相关网站给客服用

500个 依次调用,出现异常就sleep,多次异常递增sleep时间(同时减少线程数)
发表于 2017-9-25 22:33:25 | 显示全部楼层
爬虫部落 发表于 2017-9-25 22:32
500个 依次调用,出现异常就sleep,多次异常递增sleep时间(同时减少线程数) ...

多谢指教
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-25 12:04 , Processed in 0.067203 second(s), 13 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表