全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2067|回复: 7

有个难题请教爬虫大佬

[复制链接]
发表于 2018-3-26 12:53:13 | 显示全部楼层 |阅读模式
本帖最后由 kumotobi 于 2018-3-26 12:54 编辑

因为项目需要,想用Python爬虫爬LinkedIn上的公司公开主页信息,页面总数可能上百万,但是LinkedIn号称有全球最强反爬虫技术,通过谷歌搜索进入公司页面前几次可以不用登录之后则出现登录界面,挂VP/N、清cookies无效。同一账号登录后大量爬去则被封号。据说谷歌爬虫可以无限制爬LinkedIn页面,有没有可能利用这一点伪装成谷歌爬虫?其他目前能想到的就是找大量IP代理池,注册大量账号轮换使用,那么哪里能低价买到大量账号?或者还有什么思路?谢谢各位大佬
发表于 2018-3-26 14:34:39 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2018-3-26 14:09:47 | 显示全部楼层
google爬虫估计linkedin家有白名单的,不是那么好伪装的
发表于 2018-3-26 14:35:51 | 显示全部楼层
楼上说的对 直接抓谷歌就好了  别自己给自己找麻烦
发表于 2018-3-26 14:45:54 来自手机 | 显示全部楼层
eqblog 发表于 2018-3-26 14:35
楼上说的对 直接抓谷歌就好了  别自己给自己找麻烦

eq大佬现身,最近还有什么新爬虫教程吗
发表于 2018-3-26 14:49:24 | 显示全部楼层
fei2018 发表于 2018-3-26 14:45
eq大佬现身,最近还有什么新爬虫教程吗

没什么好玩的网站啊,没动力
发表于 2018-3-26 14:49:31 | 显示全部楼层
那就试试谷歌UA咯
发表于 2018-3-26 14:50:38 | 显示全部楼层
另外挂微屁恩的话,识别很方便,服务器的段早就被盯上了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-24 23:42 , Processed in 0.067607 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表