全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1799|回复: 12

Java采集程序开源了

[复制链接]
发表于 2019-6-9 21:46:09 | 显示全部楼层 |阅读模式
本帖最后由 揽月 于 2019-6-9 21:57 编辑

https://dev.tencent.com/u/iht/p/crawler/git

目前master分支是单线程采集的,

上午我采集了m.mm131.net,30分钟就采集了全站将近5000套图的信息

刚才写了多线程的,在v1.0分支,实际采集效果还不如master分支的单线程

是一个maven项目,数据库建表语句在album.sql里



这是采集的程序,图片下载程序晚点写出来,

这都是改写以前的代码,代码更加优雅,更容易看,

晚点放出下载图片和导入Typecho的代码

估计m.mm131.net整站的图片有20GB,18万张左右

代码稍微改改就可以采集其他图片站、视频站和文章站了

之前采集过蝌蚪窝,搭建个几万个视频的站轻松的

还采集过飞华健康网 https://sex.fh21.com.cn/ ,难就难在处理数据上,去掉友联,修改关键词等等

来个会Java多线程的大佬,完善一下多线程采集
发表于 2019-6-9 21:47:24 来自手机 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
发表于 2019-6-9 21:48:56 | 显示全部楼层
马克一下, 围观技术大佬
 楼主| 发表于 2019-6-9 21:49:22 | 显示全部楼层
kxxzz.com 发表于 2019-6-9 21:47
做图片站,好做么?

不知道啊,我没打算做图片站,就写着玩,导入数据库后每天更新一套图的话10年都不用管
发表于 2019-6-9 21:51:27 | 显示全部楼层
前排围观
我是会python写点爬虫
发表于 2019-6-9 21:52:22 | 显示全部楼层
mark,有空看看
 楼主| 发表于 2019-6-9 21:52:54 | 显示全部楼层
pulpfunction 发表于 2019-6-9 21:51
前排围观
我是会python写点爬虫

以前学过一点python,早忘了,够用就行,语言都差不多
发表于 2019-6-9 21:55:00 | 显示全部楼层
揽月 发表于 2019-6-9 22:52
以前学过一点python,早忘了,够用就行,语言都差不多

我写那些垃圾自己都看不下去……
估计开源都没人看
发表于 2019-6-9 21:56:31 | 显示全部楼层
围观大佬,linux下的火车头采集器
发表于 2019-6-9 23:47:20 | 显示全部楼层
本帖最后由 我是一个大水怪 于 2019-6-9 23:53 编辑

你这并发有问题,两个获取的图片id冲突了。

你这ServiceImpl是线程安全的,可以弄个线程池,在一个循环里面,丢给执行Service的线程就行了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-3-29 23:10 , Processed in 0.073144 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表