回覆 13# KinChungE
HKTVMALL好似唔係SPA? 冇用過冇研究

我指的API唔係官方開放有哂document嗰類
而係做得SPA網頁,或多或少一定要開放一啲public的API Endpoint
原意係俾佢自己web app用,唔預你直接call,更可能會有少少防護機制

所以先話要自己研究
你研究到佢call的request方式,你就可以用

TOP

回覆  KinChungE
例如商品類的話,有做SEO的可以輕鬆read meta

冇的話只能靠DOM,例如某id/div內的第n個e ...
Rolf 發表於 2020-7-25 21:03


有時唔係冇API, 而係API要俾錢

另外, 例如我想mon住hktvmall某D商品幾時減價, 呢D會俾API你嗎?

TOP

很奇怪, 為甚麼大家都喜歡用 SSR

疫情嚴重, 大家分散在家工作, 公司成本減少, 不是更好 ?

TOP

web driver?

TOP

本帖最後由 Rolf 於 2020-7-25 21:25 編輯

回覆 7# KinChungE
例如商品類的話,有做SEO的可以輕鬆read meta

冇的話只能靠DOM,例如某id/div內的第n個element咁
缺點係拎嘅資料未必正確(因為要假設data永遠在某一個位置)
可以再加logic去檢查先儲落DB(e.g. http link的話先試GET確定是200拎到,睇media type確定是想要的資料etc)

p.s. 即使冇SSR,SPA類網頁肯定有API去拎data,研究到佢API request 模式嘅話直接API拎更輕鬆

TOP

本帖最後由 Rolf 於 2020-7-25 21:09 編輯

回覆 6# kong3883
如果網站有做SSR
任何HTTP client(browser或programming language client等)GET method 都會拎到完整的HTML content
只要根據自己需要拎想要的東西就得(e.g. parse to DOM,read tag / id等等)

重點係issue HTTP GET request時,目標網站回什麼response
只要有完整內容再來就自由發揮

TOP

先不理是否 SSR, 如果沒 browser 怎做?
例如在自己 server 是一條龍 send quest, response  回來的資料, 根 ...
kong3883 發表於 2020-7-25 19:02


https://www.httrack.com/
冇browser, 純http crawling

TOP

回覆  KinChungE
都係睇個網站有冇做SSR
一般你會有興趣crawl佢資料嘅網站都幾乎肯定有SSR (佢自己都要做 ...
Rolf 發表於 2020-7-25 18:10


如果我想crawl既係圖片/影片呢

TOP

先不理是否 SSR, 如果沒 browser 怎做?
例如在自己 server 是一條龍 send quest, response  回來的資料, 根據 logic 取出有用的資料, 每隔3小時自動做一次

但 server 上沒 browser, 樓主的東西是否一樣可以做到一條龍全自動
還是要人手介入 ?
有時間要再 research 一下...

TOP

回覆 4# KinChungE
都係睇個網站有冇做SSR
一般你會有興趣crawl佢資料嘅網站都幾乎肯定有SSR (佢自己都要做SEO)

TOP