全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1777|回复: 19

[Windows VPS] 抓取動態網頁產生的資料?

[复制链接]
发表于 2019-4-26 14:44:55 | 显示全部楼层 |阅读模式
我想抓一個網頁上會變動的數字,
但是因為它是 node.js 產生,所以我 curl/wget 只能抓到 html、css 這些標籤,

"<span class="details">{{'@'}}{{ number }}</span>"

我要怎樣可以抓到頁面上那個 number 所帶進的數字?
 楼主| 发表于 2019-4-30 14:01:08 | 显示全部楼层
後來用 websocket 取得特定欄位資料與透過一般網頁擷取資料兩種方式都試出來了.
websocket 是透過 jq 去抓指定的 json 資料欄位,然後再切斷連線.
不過試了以後,用 websocket + jq 取資料要超過 0.5 秒,有時甚至超過 1 秒,
抓取另一個網頁上的指定字串只要 0.2 秒以內.
所以就不用 websocket 的連線取得資料了
发表于 2019-4-26 14:46:59 | 显示全部楼层
直接抓它 ajax 的接口啊,数据哪来的、从哪里套上去的,直接抓那个数据
发表于 2019-4-26 14:48:36 | 显示全部楼层
1、一般这种是通过异步请求获取数据,分析接口直接抓取接口
2、通过无头浏览器模拟抓取元素
 楼主| 发表于 2019-4-26 15:12:22 | 显示全部楼层
本帖最后由 ghost 于 2019-4-26 15:14 编辑

因為是要抓公開網頁上的資料,所以沒有它的 api,
所以想用指令或程式去處理,像爬蟲,但只是要爬頁面裡的一個 span class 裡的動態數字而已...
发表于 2019-4-26 15:14:43 来自手机 | 显示全部楼层
动态网页。最终也是静态显示的。你给个地址。别人看一下就知道怎么回答你了
 楼主| 发表于 2019-4-26 15:17:22 | 显示全部楼层
本帖最后由 ghost 于 2019-4-26 15:18 编辑

https://ethstats.net/
我要抓左上角那個 block 裡 7 開頭的數字.
发表于 2019-4-26 15:29:41 | 显示全部楼层
这类页面我还是第一次见。。。孤陋寡闻了。。

点评

可能因為你沒在碰 dashboard 之類的應用吧.  发表于 2019-4-26 15:38
发表于 2019-4-26 15:32:11 | 显示全部楼层
Selenium或PhantomJS

点评

一定得要用 python + module 嗎 我本來想用 shell command 弄一弄就好了...  发表于 2019-4-26 15:37
发表于 2019-4-26 15:40:55 | 显示全部楼层

膜拜大佬。。。这个页面好就是websocket通信的
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-6 04:32 , Processed in 0.063339 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表