全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 3040|回复: 6

[经验] 可视化的网页内容抓取工具 Portia

[复制链接]
发表于 2014-7-11 11:42:43 | 显示全部楼层 |阅读模式
Portia Spider(孔蛛)号称世界上最聪明的蜘蛛,孔蛛属,英文名 Portia,也翻译为波西亚蜘蛛(波西亚跳蛛)。

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。

这些规则可以在#Scrapy#中使用,用于抓取页面。



具体请参考:http://blog.scrapinghub.com/2014/04/01/announcing-portia/

Github: https://github.com/scrapinghub/portia

视频介绍:http://v.youku.com/v_show/id_XNjkzNjkwODE2.html
发表于 2014-7-11 11:44:15 | 显示全部楼层
看不懂   上个教程吧  也懒得看 那么多字
发表于 2014-7-11 11:45:17 | 显示全部楼层
手动选取DOM节点,全自动化,很好很喜欢。
发表于 2014-7-11 11:58:55 | 显示全部楼层
本帖最后由 h0stl0c 于 2014-7-11 12:00 编辑

搞定了。还行。
QQ20140711-1.png (227.64 KB, 下载次数: 3)
发表于 2014-7-11 14:26:49 | 显示全部楼层
py运行,浏览9001端口下的某网页,然后~~~啪啪啪
发表于 2014-7-11 17:58:13 | 显示全部楼层
看起来非常不错啊。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-4-26 23:35 , Processed in 0.095355 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表