
功能介紹
1、集成化圖形界面
包括網頁結構窗口、工作臺、顯示窗口等子窗口。選取被抓取內容時,三個子窗口聯動,并顯示HTML節點的重要屬性
2、抓取規則自動生成
指定抓取內容,定義抓取結果存放結構(整理箱),然后將網頁內容分別映射給整理箱中的抓取內容,MS謀數臺即可自動生成抓取規則
3、原始網頁內容糾錯
網頁的發布者在寫網頁的時候可能存在語法和詞法錯誤,只要是火狐瀏覽器能打開的,都能定義抓取規則并進行抓取
4、防屏蔽抓取
有些目標網站可能根據點擊行為特征屏蔽網絡爬蟲的過度訪問,集搜客GooSeeker采用技術手段盡量避免被屏蔽
5、清理運行狀態
使用ADSL等動態分配地址的部署方式,定期撥號更換IP地址,也可在火狐瀏覽器上清除cookie和緩存
軟件特色
1、直觀標注采數據

不用程序思維,不要技術基礎,點擊想要的內容,軟件自動管理所選內容,自動放進整理箱
2、可視化免編程

抓取軟件操作簡單,完全可視化操作,無需編程基礎,熟悉電腦操作即可輕松掌握
3、模板資源套用

在抓取規則的詳情頁面,您可以仔細考察一個規則的抓取結果是否滿足您的需要,如果滿足,只需點擊“下載”按鈕,即可在會員中心一鍵啟動集搜客網絡爬蟲,抓取到你想要的數據
4、通用網絡爬蟲

采用功能強大的火狐瀏覽器內核,所見即所得
5、會員互助抓取

這是爬蟲群并行抓取的一種特殊情形,利用這個功能,可以低成本快速匯集海量數據
6、不限深度不限廣度

以盡量低的成本獲得數據,而且只獲取需要的網頁內容
7、抓取指數圖表

集搜客網絡爬蟲具有強大的圖表數據抓取能力,而且提供一個開發者擴展接口,允許技術基礎高的用戶用Javascript自定義更高級的網絡爬蟲動作
8、本地化存儲保護隱私

把所有采集結果數據直接存儲在用戶個人電腦上,便于用戶對采集結果數據做各種處理
9、自動登錄驗證碼識別

具有自動登錄功能,只需要設置相關參數,就可以控制集搜客網絡爬蟲定期自動登錄相應的賬號
11、爬蟲群并行抓取

集搜客的并行抓取功能,一方面可以幫助個人解決效率低下的問題,另一方面也促進社區閑散資源的整合利用
12、一鍵“集搜”啟動多爬蟲抓取數據

可選擇分布式采集的方式,把采集任務分配到多臺電腦上執行
13、手機網站數據抓取

使用GooSeeker采集手機網站數據和采用PC網站數據同樣簡單, 可視化定義抓取規則的過程完全一樣
軟件用法
1、安裝好gooseeker軟件,下圖為安裝好的界面:

2、點擊右上方的“MS謀數臺”,彈出如下界面:

3、在左上方的網址欄輸入想要爬取的網站,我這里輸入天氣網站,并在工作臺里面創建任務,進行命名和查重,直到可以使用:

4、在工作臺上方標題欄中選擇創建規則,選擇“新建”并命名,點擊確定:

5、點擊“抓取內容”中自己的命名的一欄,選中點擊右鍵,選擇“添加”,選擇“包容”:

6、輸入你想抓取的內容名稱并保存,我這里重復此步驟,創建抓取內容“日期”、“最高氣溫”、“最低氣溫”、“天氣”、“風向風力”、“空氣質量指數”,并將“日期”勾選為關鍵內容:

7、在“瀏覽器”窗口中點擊你想要獲取的內容,比如現在要獲取“日期”,就在“日期”那個區域進行鼠標點擊,這時候MS謀數臺會自動定位“日期”,即在HTML中結點的DIV結點位置。展開結點,找到text結點,右擊鼠標,選擇內容映射,然后選擇你想要映射至的抓取內容:

8、重復進行第七步,知道把想要抓取的內容給全部映射:

9、創建爬蟲路線,點擊工作臺標題欄中的“爬蟲路線”,點擊“新建”:

10、創建翻頁定位編號,在瀏覽器中點擊上一月,網頁會自動定位該文本的結點,右擊結點選擇“翻頁映射”,“作為翻頁區”,“線索一”:

11、創建記號定位編號,在游覽器中點擊上一月,在網頁標簽里會自動該文本定位的結點,打開該結點,可以看到text屬性,右擊text(此處只能右擊text,不能右擊結點),選擇 “翻頁映射”,“ 作為翻頁記號”:

12、創建樣例復制映射,點擊工作臺標題欄里面的新建規則,勾選右方的啟用,啟動樣例復制管理功能:

13、分別找到該頁面想要爬取的第一條數據的日期欄和第二條數據對應的日期欄的節點,右擊第一條數據的日期欄對應的結點,選擇“樣例復制映射”,“第一個”,右擊第二條數據的日期欄對應的結點,選擇“樣例復制映射”,“第二個”:

14、點擊工作臺左方的測試,對當前的規則進行測試:

15、當測試爬取內容為想要的爬取內容時就可以保存當前規則了,點擊“MS謀數臺”右上方的“存規則”即可保存規則,然后可以使用我們創建的規則進行數據爬取了,想要看自己是否保存規則,就在工作臺標題欄里面的“搜規則”查看:

16、打開“DS打數機”,“DS打數機”在Gooseeker瀏覽器中的右上方,打開“DS打數機”,點擊“文件”,“存儲路徑”,“ 自定義數據的存儲路徑”:

17、點擊“單搜”,設置抓取網頁數量,即可開始抓取:

18、然后打開存儲地址,然后可以看到爬取的數據以XML文件保存:

19、用EXCEL打開其中一個文件,可以看到爬取的數據集,數據爬取完成:

常見問題
1、網絡爬蟲狀態錯誤,無法從FAILED狀態啟動爬蟲?
這個報錯是說服務器連接失敗,失敗的時候顯示為紅色狀態,正常是綠色
2、保存信息結構描述文件失敗:not writable?
①主題名重復了,換個主題名就行
②“爬蟲路線”工作臺上,如果有下級線索,也要注意不能與別人重名。都有“查重”按鈕,可以檢查一下
3、為什么謀數臺又打不開了,打數機能打開?
①火狐自動升級后跟爬蟲不配套,就不能正常使用了,所以,安裝火狐的時候要去工具菜單->選項->高級->更新里設置不檢查更新
②下載了更高版本或中國版火狐,里面安裝很多插件,可能影響到gooseeker爬蟲的正常使用
③電腦安裝了360等殺毒軟件,會悄悄破壞其他程序,只需禁止其安全防護功能
裝機必備軟件



網友評論