全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2098|回复: 30

采集一个网站1亿条数据

[复制链接]
发表于 2020-5-30 14:54:13 | 显示全部楼层 |阅读模式
本帖最后由 你说的都对 于 2020-5-30 15:01 编辑

采集一个网站1亿条数据,开火车头采的话,3线程一天大概能采不到30W,1年大概能采完。
但是一般不到一天就被封IP了。
如果采用代理IP的话,1年的费用会很高
而且总得不停的手动获取代理ip,导入到火车采集器,验证。

有没有更好的火车头能用的方案?
发表于 2020-5-31 03:25:26 | 显示全部楼层
火车头最原始方案 adsl断线重播,开多个pc,数据库用一个就好, 火车头支持外部插件,ip被封直接重新拨号,好多年前采58,封了我们一个c段,代理池算了下没有拉电话线便宜,老板拉了几条电话线,这多少年前的了,现在应该都是headless+代理池+分布式采集吧,话说这么大个站,没限制分页么 好奇你怎么能翻那么多页的,之前也采过黄页,数据也N多,后来限制了分页数量我们就采集不到那么多了。
发表于 2020-5-30 14:55:34 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2020-5-30 14:55:47 来自手机 | 显示全部楼层
有更好的方案,前提是不用火车头。
发表于 2020-5-30 14:57:05 来自手机 | 显示全部楼层
纯文字内容还是还有图片文件之类的?想试试。
发表于 2020-5-30 15:06:30 | 显示全部楼层
你要不那你那个采集的站点收购了
发表于 2020-5-30 15:16:19 | 显示全部楼层
发出来链接才能知道方案
发表于 2020-5-30 15:22:46 来自手机 | 显示全部楼层
哪个站 有那么多
发表于 2020-5-30 15:24:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
 楼主| 发表于 2020-5-30 15:27:31 | 显示全部楼层
1号城管 发表于 2020-5-30 15:24
1天才不到30W? 一定是哪里出了问题了, 你的服务器带宽? 你的服务器CPU或磁盘IO?  ...

默认设置开了3个线程,我怕开太多对目标网站造成太多困扰
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-25 14:33 , Processed in 0.065124 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表