全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 10647|回复: 60

关于淘宝的丝袜爬虫历史贴

  [复制链接]
发表于 2019-3-6 17:44:04 | 显示全部楼层 |阅读模式
本帖最后由 今晚我是你的 于 2019-3-19 06:30 编辑

https://www.hostloc.com/thread-507739-1-1.html

https://h5.m.taobao.com/ocean/privatenode/shop.html?sellerId=109043255


这个淘宝瀑布流技术难点在于 没有单独的列表页,而那个json的地址又不能单独打开,page也不能直接修改。

集思广益,找出自动爬下一页列表页url的方法。(目前只知道手动去抓下一页的,我已经爬完了,不过依然没有学会如何自动爬下一页,因为下一页的page不能单独改的,url里面的各种参数值也是随机的)

仅供交流学习,提高自己的技术水平,不要老想着撸啊撸
发表于 2019-3-6 19:21:48 | 显示全部楼层
https://h5.m.taobao.com/ocean/privatenode/shop.html?sellerId=673336836

点评

啊....我设了  发表于 2019-3-6 20:42
发表于 2019-3-8 18:59:27 | 显示全部楼层
本帖最后由 冰镇苏打水 于 2019-3-8 19:02 编辑

为了回复帖子,专门买了个注册吗.洋洋洒洒写了签名过程.
贴了个超链接,然后说不能发地址.然后都给我删了.
醉了 ....

t.(删括号以及内容)cn/EMvA4mo
发表于 2019-3-7 11:18:50 | 显示全部楼层
好不容易上次网 不仅花了钱 营养还流失了
发表于 2019-3-6 17:57:03 | 显示全部楼层
666,那就分享出了吧,大佬

点评

没什么要的,只是做个记录  发表于 2019-3-6 17:58
发表于 2019-3-9 00:25:48 | 显示全部楼层
打开淘宝的任何一个具体商品页,在控制台输入一下代码.替换掉网址中的"sellerId"的值

  1. (function getUserId(){
  2.     var name = "userid=";
  3.     var ca = document.querySelector('meta[name="microscope-data"]').content.split(';');
  4.     for(var i=0; i<ca.length; i++) {
  5.         var c = ca[i].trim().toLocaleLowerCase();
  6.         if (c.indexOf(name)==0) { return c.substring(name.length,c.length)*1; }
  7.     }
  8.     return "";
  9. })()
复制代码
发表于 2019-3-6 18:05:49 来自手机 | 显示全部楼层
分享出来,今晚我是你的
发表于 2019-3-6 18:08:13 | 显示全部楼层
这种爬虫可以写, 无限抓取, 但是目前还在学.
十香 该用户已被删除
发表于 2019-3-6 18:08:27 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2019-3-6 18:12:21 | 显示全部楼层
十香 发表于 2019-3-6 18:08
卧槽.够劲,这论坛就这样,说着说着就开车了

说着说着就开车了
发表于 2019-3-6 18:55:07 | 显示全部楼层
小白表示只会用远古火车头,感谢提供网址,晚点用火车头试试
发表于 2019-3-6 19:15:57 | 显示全部楼层
农村的孩子营养跟不上了.
十香 该用户已被删除
发表于 2019-3-6 19:22:26 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-23 21:08 , Processed in 0.072683 second(s), 16 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表