全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 2084|回复: 13

[Windows VPS] MJJ真会玩,loc即将又一轮人手一个图片站了,那我分享个...

  [复制链接]
发表于 2020-2-21 00:27:13 | 显示全部楼层 |阅读模式
MJJ真会玩,loc即将又一轮人手一个图片站了,那我分享个.工具吧,论坛某MJJ昨天问的,感觉挺好玩这工具
可以把网站上的套图爬到本地并按文件夹放好

原贴在52,超好用的爬图软件PicGather

软件名称:PicGather
最新版本:2.2.0
项目Github主页:https://github.com/Licoy/pic-gather
项目Gitee主页:https://gitee.com/licoy/pic-gather

软件下载地址:https://github.com/Licoy/pic-gather/releases
收藏源地址可以使用本地路径,例如:I:\AppData\source.json

收藏源规则:

  1.    [{
  2.         "name": "图片站", //采集源站标题
  3.         "key":"key", //标示KEY
  4.         "url": "https://www.xxx.com", //域名,主要用于组合链接
  5.         "tags": [ //分类列表
  6.             {"name": "女神", "url": "https://www.xxx.com/t/nvshen/"},  //name:分类名称, url:分类地址
  7.         ],
  8.         "pages": { //外层页面采集规则
  9.             "element": "body > div.main > div.boxs > ul > li",  //元素selector
  10.             "name": { //名称采集规则
  11.                 "element": "p.p_title > a", //元素selector
  12.                 "attr": "@text" //@text是取html元素的text值,非此值则取attr属性,如title
  13.             },
  14.             "url": { //图集采集规则
  15.                 "element": "p.p_title > a", //元素selector
  16.                 "attr": "href", //@text是取html元素的text值,非此值则取attr属性,如title
  17.                 "needMerge": false, //是否需要合并地址
  18.             },
  19.             "nextPageUrlMode": { //下一页采集规则
  20.                 "mode": "add", //模式:add(添加) replace(替换)
  21.                 "replaceSearchValue": ".html", //替换搜索字符串
  22.                 "replaceValue": "_{page}.html", //目标替换值
  23.                 "addValue": "{page}.html" //添加值
  24.             },
  25.             "lastPage": { //最后一页匹配规则,主要是用于统计总页码
  26.                 "element": "#pages > a",  //元素selector
  27.                 "minPageLength": 2, //最小采集的到页码数量才进行匹配,否则只执行当页
  28.                 "attr": "@text", //@text是取html元素的text值,非此值则取attr属性,如title
  29.                 "descIndex": 2, //页码的元素index,倒序
  30.                 "isNeedSplit": false, //是否需要分割
  31.                 "splits": [ //分割,例如xxx_xx_1.html的格式需要用到此值
  32.                     {"str":"_","index":2}, // str: 分割字符串, index: 下次分页的字符索引
  33.                     {"str":".","index":0}
  34.                  ]
  35.             }
  36.         },
  37.         "imgs": { //内页图片采集规则
  38.             "element": "body > div.content > center > img", //元素selector
  39.             "attr":"href", //[v2] 图片的属性值
  40.             "singlePage":true, //[v2] 是否是单页面,即所有图片呈现在一个页面上
  41.             "urlNeedMerge": true, //[v2] 图片链接是否需要合并拼接
  42.             "imgUrlMode":{ //[v2]图片url变换规则,同上,此值与urlNeedMerge不冲突,urlNeedMerge优先执行
  43.                 "mode":"replace",
  44.                 "addValue": "",
  45.                 "replaceSearchValue": "//",
  46.                 "replaceValue": "http://"
  47.             },
  48.             "nextPageUrlMode": { //同上
  49.                 "incrementMode": "image", //采集增长模式 image:图片 page:页面
  50.                 "mode": "replace", //页面页码替换模式,当incrementMode为image时此值无效
  51.                 "imageSuffix":"jpg" //图片后缀名
  52.                 "replaceSearchValue": ".html", //同pages此属性,当incrementMode为image时此值无效
  53.                 "replaceValue": "_{page}.html",  //同pages此属性,当incrementMode为image时此值无效
  54.                 "addValue": "{page}.html" //同pages此属性,当incrementMode为image时此值无效
  55.             },
  56.             "lastPage": { //通pages此属性
  57.                 "element": "#pages > a",
  58.                 "minPageLength": 2,
  59.                 "attr": "@text",
  60.                 "descIndex": 2,
  61.                 "isNeedSplit": false,
  62.                 "splits": []
  63.             }
  64.         },
  65.         "supportReptileVersion": 1 //支持采集器的版本号
  66.     }]
复制代码


作者提供的几个收藏源下载 含软件
链接: https://pan.baidu.com/s/1c--HDDMsnRQYeozT2b6jcw 提取码: zy5a

发表于 2020-2-21 00:28:07 | 显示全部楼层
马克         
     
发表于 2020-2-21 01:54:16 | 显示全部楼层
马克  紫薯布丁
发表于 2020-2-21 02:11:10 来自手机 | 显示全部楼层
马克,规则好复杂
发表于 2020-2-21 02:40:21 | 显示全部楼层
好复杂啊  
发表于 2020-2-21 07:08:18 来自手机 | 显示全部楼层
战略性马克
发表于 2020-2-21 11:29:11 | 显示全部楼层
马克一下,不知道怎么用
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-3-29 06:38 , Processed in 0.082517 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表