藍天采集器可以幫助用戶快速爬取網站數據,可將數據全部存儲在云上,無需在本地進行管理,節省了大量的硬盤空間,支持多級多頁等采集方式與內容發布功能,需要的用戶快來下載吧。
軟件介紹
藍天采集器是一款免費的數據采集發布爬蟲軟件,采用php+mysql開發,可部署在云服務器,幾乎能采集所有類型的網頁,無縫對接各類CMS建站程序,免登錄實時發布數據,全自動無需人工干預,是大數據、云時代網站數據自動化采集的最佳云端爬蟲軟件!
軟件特色
關于軟件
藍天采集器(SkyCaiji),致力于網站數據自動化采集發布,系統采用PHP+Mysql開發,可部署在云端服務器,使數據采集便捷化、智能化、云端化,讓您隨時隨地移動辦公!
數據采集
支持多級、多頁、分頁采集,自定義采集規則(支持正則、XPATH、JSON等)精準匹配任意信息流,幾乎能采集所有類型的網頁,絕大多數文章類型頁面內容可實現智能識別
內容發布
無縫對接各類CMS建站程序,實現免登陸導入數據,支持自定義數據發布插件,也可以直接導入數據庫、存儲為Excel文件、生成API接口等
自動化及云平臺
軟件實現定時定量全自動采集發布,無需人工干預!內置云平臺,用戶可分享及下載采集規則,發布供求信息以及社區求助、交流等
使用方法
升級軟件
可直接在后臺首頁中檢測更新后點擊升級,或者將壓縮包上傳至服務器解壓覆蓋即可!
安裝軟件
將下載的軟件上傳至您的服務器,如果根目錄有站點建議放在子目錄里,解壓后打開瀏覽器輸入您的服務器域名或ip地址(存放在子目錄則加上子目錄的名稱),進入安裝界面
點擊“接受”,進入環境檢測頁面
必須確保所有參數都正確,否則使用中會出現錯誤,點擊“下一步”進入數據安裝界面
填寫好數據庫及創始人配置,點擊“下一步”
最后安裝完成,現在可以使用藍天采集器了!
匹配規則
“規則”支持:(*)(通配符)、正則表達式,使用[內容](通用匹配)或捕獲組(正則捕獲組)將匹配的數據保存為標簽,在“拼接內容”中引用[內容N]標簽組成結果
[內容]和捕獲組的區別:[內容]會自動轉換成固定格式捕獲組:(?<content>.*?)
而捕獲組:(?<content>[\s\S]*?),可以編寫任意正則表達式
[內容]適用于精準度不高的通用匹配,捕獲組適用于精準匹配
默認為單個匹配,多個匹配可勾選“允許匹配多個元素”
裝機必備軟件
網友評論