[技術討論] 有個Project 要讀取唔同網站既價格

例如某年月日到某年月日A酒店在甲乙丙丁酒店上既價格

2 Mar - 5 Mar 2017
Example Hotel
甲 $500
乙 $530
丙 $540
丁 $520

可以用咩方法去做?酒店大約有1000間,網站最少有4、5個
價錢要係request 果時既realtime,每日大約會call 9萬次

budget 6位HKD,server錢/VPN錢另計
你地諗到咩方法做?最緊要唔會比人Block

如果冇正規API開比你用, 都幾難搞
要realtime,反應慢好難避免
又要假扮真user去爬data
一日9萬call *5
static ip就算分100粒ip爬,一日一個網都要成900頁per ip,應該會ban
仲要搵個人keep住更新parser

server/vpn/ip錢一定好大開銷

TOP

html source parser 方法來攞人哋data, 唔block 都幾難

TOP

難道就係度,只可以用html source parser 方法黎囉…
仲要唔比人block … 如果難道太高… 其實6位數都唔值得接

TOP

本帖最後由 清仔 於 2017-3-2 21:48 編輯
如果冇正規API開比你用, 都幾難搞
要realtime,反應慢好難避免
又要假扮真user去爬data
一日9萬call *5
stat ...
537923 發表於 2017-3-2 08:32 PM


其實只係想check下有客search果時…有無酒店個價平過自己
所以real time 到幾分鐘內其實都可以接受

仲要搵個人keep住更新parser
<<黎樣可以係contract 度寫埋,唔一定係one off project 黎

server 錢我諗佢地出到…但就要寫個proposal 比佢地睇

TOP

有冇人知果幾個酒店網D資料點得返黎?
用真人每日update?

TOP

本帖最後由 starone 於 2017-3-3 00:03 編輯

回覆 6# twaiho2003

買返來, 或合作
再有API 放出來比Developer 用 e.g.
http://developer.ean.com/

TOP

回覆 6# twaiho2003


個客自己係hotel group黎,有1000間酒店
咁佢想要expedia/booking.com 果d網賣房會唔會平過自己直營
其實就係想咁… expedia 佢自己賣,資料就係佢自己個價目表姐…

TOP

回覆  twaiho2003

買返來, 或合作
再有API 放出來比Developer 用 e.g.
starone 發表於 2017-3-3 12:01 AM


expedia 應該唔會比,因為個客自己係酒店group
expeida 又會賣番自己d房…

TOP

如果real time等幾分鐘都接受到
90000call ,每月個洗一萬幾千,租10-20部dynamic ip server(國內外)
eg: 90000/20/12hours = 375per hour per server
每部server定時轉ip ,寫好proxy容錯機制
針對有需要既網寫模擬真user操作(反反爬虫)
有人定時更新parser($$$)
淨底只係socket,db等等果d野
再預少少錢解決法律問題
成個project重點應該係:ip,容錯,反反爬虫,更新parser

TOP