全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2096|回复: 16

谁知道google 爬虫是咋写的

[复制链接]
发表于 2020-12-28 23:29:40 | 显示全部楼层 |阅读模式
全球域名这么多,怎么保证几天就抓一次呢,有的还时时抓

得是多少台服务器,啥样的服务器能实现啊

怎么我写的爬虫并发几十就到极限了。。。。
发表于 2020-12-28 23:39:58 来自手机 | 显示全部楼层
因为你写的爬虫是辣鸡
发表于 2020-12-29 07:50:45 | 显示全部楼层
2016年google有250万台server
发表于 2020-12-28 23:38:37 | 显示全部楼层
这个问题,只能说有点高端。
发表于 2020-12-28 23:40:03 | 显示全部楼层
难道google也是拿台小鸡爬?
发表于 2020-12-28 23:44:03 | 显示全部楼层
这就超出了我的知识范围呀
发表于 2020-12-28 23:46:04 | 显示全部楼层
几十万台机器总是有的,一台机器一天爬1万个站,你算算够吗
发表于 2020-12-29 00:31:07 来自手机 | 显示全部楼层
我要知道咋写的我还在这跟mjj们吹牛逼?
发表于 2020-12-29 00:32:49 | 显示全部楼层
商业机密,恕我不能透露



/**
* 这个世上有很多事是解释不通的
* 比如突然的失落
* 莫名其妙的孤独
* 没有由来的落寞
* 以及突然离开的你
*
* MJJ专用全球主机论坛紫薯补丁。
*/
发表于 2020-12-29 00:33:48 来自手机 | 显示全部楼层
异步多线程,垃圾笔记本一天爬几亿条数据小意思
发表于 2020-12-29 02:08:47 来自手机 | 显示全部楼层
肯定是异步,然后多线程,多进程拉满,然后分布式也弄上。然后去重也是个很麻烦的问题用布隆呗,数据库的话感觉一半是no sql一半是普通的数据库。而且这么大的数据写入量,优化sql语句,分布式数据库如何同步就是盲区了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-19 17:29 , Processed in 0.064761 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表