全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: 爬虫部落

[疑问] 抓取6000W谷歌的搜索结果,打算做个大点的垃圾站试试

[复制链接]
发表于 2017-9-25 22:52:17 | 显示全部楼层
看ID就知道楼主是个大牛,话不多说,求分享数据
发表于 2017-9-25 23:27:23 | 显示全部楼层
數據多K站也快...做google就是這個下場
我都有幾個億數據
发表于 2017-9-25 23:56:12 | 显示全部楼层
500个IP怎么搞?大佬求带,是用火车头吗?
发表于 2017-9-26 00:04:33 | 显示全部楼层
搜索结果??这个要做百度吗
 楼主| 发表于 2017-9-26 01:03:28 | 显示全部楼层
njav 发表于 2017-9-25 23:27
數據多K站也快...做google就是這個下場
我都有幾個億數據

6KW数据精简了所有不必要的内容后只保留纯json格式大概600G
假设你有6亿数据差不多就是6T
这个数据量不是每个人都能玩好
 楼主| 发表于 2017-9-26 01:04:46 | 显示全部楼层
houset 发表于 2017-9-25 23:56
500个IP怎么搞?大佬求带,是用火车头吗?

这个各凭本事吧:
有钱的去买
没钱的去抓
火车头我没用过,自己写了一段Python代码抓取的
 楼主| 发表于 2017-9-26 01:08:03 | 显示全部楼层
flashack 发表于 2017-9-26 00:04
搜索结果??这个要做百度吗

这个数量和百度的索引量比 九牛一毛(有点夸张)
发表于 2017-9-26 01:14:46 来自手机 | 显示全部楼层
关注的是一下子上6000万数据如何不k站
发表于 2017-9-26 07:41:54 | 显示全部楼层
爬虫部落 发表于 2017-9-25 22:09
多IP轮流,要是不封IP也不用这么久了

HTTP 代理?
发表于 2017-9-26 11:26:12 | 显示全部楼层
爬虫部落 发表于 2017-9-26 01:04
这个各凭本事吧:
有钱的去买
没钱的去抓

大佬,都采集什么内容?6000万
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-4 17:53 , Processed in 0.060831 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表