[其他] web scraping一問

小弟想係某啲網站keep住拎文字及相片
過程需要web scraping
以我所知主流有puppeteer/selenium/tampermonkey/chrome extension
如果講求效能,速度,及多平台運行(要output去其他電腦run,最好唔洗裝package)
呢四款邊樣最適合?
剩係講速度係咪puppeteer?始終係headless Chromium
寫個chrome extension會唔會比較方便?速度唔會差好遠?

最後我決定寫個chrome extension , thanks

TOP

回覆 19# Sora

bs4解決唔到動態JS同埋complex環境

TOP

好似各位師兄唔太識近期啲新野
puppeteer係基於Headless Chrome配Node.js
selenium係base on java,但多數用家配合Python使用
另外兩者就係browser插件 都係直接run javascript既

TOP

回覆 18# Rolf

但係我個四款都係自己寫code , base on python/javascript喎

TOP

python + bs4

TOP

回覆 17# sobad
要效能,要速度一定係自己寫code
用現成tools限制多,未必啱自己需要,更有可能要俾錢
揀隻多平台language就可以了,例如go/node等

TOP

好似未有人答到我

TOP

回覆 15# KinChungE
Yes
好似股票報價API咁,官方就緊係要俾錢
但搵啲第三方SPA網,就可以偷偷地用佢API(當然要再做啲嘢,直接call唔到)
一般List data類API都唔會話保安好嚴密,有心試實試到

而家除咗Crawl傳統網頁或冇SSR的SPA,我一般都直接研究佢API拎
Data靚仔直接用
係DOM拎又煩又易拎錯嘢,又要再加logic check,check完又唔一定100%準,好多仲要冇得check(如plain text類)
人地一改頁面,DOM structure 一唔同,DB就一咋垃圾data要清,諗起都怕

TOP

回覆  KinChungE
HKTVMALL好似唔係SPA? 冇用過冇研究

我指的API唔係官方開放有哂document嗰類
而係做得SP ...
Rolf 發表於 2020-7-25 22:41


寫得crawler既, 9成都係專登crawl D人地唔預你拎既野

TOP