全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: 你说的都对

采集一个网站1亿条数据

[复制链接]
发表于 2020-5-30 20:52:05 | 显示全部楼层
向對方買.快靚正
发表于 2020-5-30 21:28:58 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2020-5-30 21:33:26 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2020-5-30 21:40:51 | 显示全部楼层
封ip无解只能搞代理IP池,如果内容不复杂的话可以在写爬虫效率应该更快
发表于 2020-5-30 21:46:39 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2020-5-31 00:26:04 | 显示全部楼层
这种数据级别肯定爬虫也不少,比如amazon就有公开的爬虫项目貌似
发表于 2020-5-31 00:52:45 | 显示全部楼层
那就3*365线程
发表于 2020-5-31 01:01:58 | 显示全部楼层
本帖最后由 yjsx86 于 2020-5-31 01:03 编辑

谁能等一年, 如果对面反爬, 一天30万的数据应该都没
我之前爬过一家, 一天单台机器大概23万数据
先单台机器爬取测试 最优设置 机器呢最好动态vps
之后写分布式爬虫
别把分布式想得很高大上
就是写socket 一个服务端, 一个客服端
发表于 2020-5-31 02:13:49 来自手机 | 显示全部楼层
爬虫仓鼠党不请自来,一亿条爬完了应该很有成就感,发个链接看看呗,想试试看
发表于 2020-5-31 03:25:26 | 显示全部楼层
火车头最原始方案 adsl断线重播,开多个pc,数据库用一个就好, 火车头支持外部插件,ip被封直接重新拨号,好多年前采58,封了我们一个c段,代理池算了下没有拉电话线便宜,老板拉了几条电话线,这多少年前的了,现在应该都是headless+代理池+分布式采集吧,话说这么大个站,没限制分页么 好奇你怎么能翻那么多页的,之前也采过黄页,数据也N多,后来限制了分页数量我们就采集不到那么多了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-4 15:40 , Processed in 0.068299 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表