全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 4204|回复: 18

手把手教你扒网站数据——详细教程,简单易学

[复制链接]
发表于 2018-8-26 06:31:10 | 显示全部楼层 |阅读模式
本帖最后由 shc 于 2018-8-26 08:31 编辑

今天介绍一下怎样使用Beautiful Soup写爬虫扒网站的数据

整个过程非常简单,我将详细介绍语段分析、处理翻页等等细节,使得和我一样的小白朋友们能够轻松上手编写爬虫

Beautiful Soup是一个用于网页处理的Python库,使用Beautiful Soup可以解析HTML和XML,生成树状结构,从而让我们方便地提取需要的信息。

本文我们将以xxxx网为例,试图从xxxx上获取杭州二手笔记本电脑的相关发布信息。

我们希望通过简单的变成,搜集到二手笔记本电脑的出售条目并列入Excel。



由于代码太多,这里没办法列出全部代码,请移步原文哈

https://qing.su/article/140.html

由于不常用Python, 所以有的地方代码比较乱,让大佬见笑了

有问题欢迎在文章下面留言哈,谢谢大家

EDIT: 某网站欠我100万广告费…………
发表于 2018-8-26 06:49:50 | 显示全部楼层
看完了,感觉还是火车头方便,另外博主博客怎么变快了,记得以前很慢
 楼主| 发表于 2018-8-26 07:02:08 | 显示全部楼层
Smart 发表于 2018-8-26 06:49
看完了,感觉还是火车头方便,另外博主博客怎么变快了,记得以前很慢

以前套了cloudflare, 现在拿掉了
发表于 2018-8-26 07:10:21 来自手机 | 显示全部楼层
这个外链软文不错
发表于 2018-8-26 07:14:38 来自手机 | 显示全部楼层
软文非常棒
发表于 2018-8-26 07:17:04 | 显示全部楼层
shc 发表于 2018-8-26 07:02
以前套了cloudflare, 现在拿掉了

浙江电信表示并不快
发表于 2018-8-26 08:17:29 来自手机 | 显示全部楼层
我就是来看看
 楼主| 发表于 2018-8-26 08:27:04 | 显示全部楼层
木易酱 发表于 2018-8-26 07:10
这个外链软文不错

58同城欠我1000万广告费
 楼主| 发表于 2018-8-26 08:52:20 | 显示全部楼层
Gh0st 发表于 2018-8-26 07:17
浙江电信表示并不快

毕竟还是200ms左右延迟……
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-3-7 16:42 , Processed in 0.061304 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表