功能介紹
1、集成化圖形界面
包括網(wǎng)頁(yè)結(jié)構(gòu)窗口、工作臺(tái)、顯示窗口等子窗口。選取被抓取內(nèi)容時(shí),三個(gè)子窗口聯(lián)動(dòng),并顯示HTML節(jié)點(diǎn)的重要屬性
2、抓取規(guī)則自動(dòng)生成
指定抓取內(nèi)容,定義抓取結(jié)果存放結(jié)構(gòu)(整理箱),然后將網(wǎng)頁(yè)內(nèi)容分別映射給整理箱中的抓取內(nèi)容,MS謀數(shù)臺(tái)即可自動(dòng)生成抓取規(guī)則
3、原始網(wǎng)頁(yè)內(nèi)容糾錯(cuò)
網(wǎng)頁(yè)的發(fā)布者在寫(xiě)網(wǎng)頁(yè)的時(shí)候可能存在語(yǔ)法和詞法錯(cuò)誤,只要是火狐瀏覽器能打開(kāi)的,都能定義抓取規(guī)則并進(jìn)行抓取
4、防屏蔽抓取
有些目標(biāo)網(wǎng)站可能根據(jù)點(diǎn)擊行為特征屏蔽網(wǎng)絡(luò)爬蟲(chóng)的過(guò)度訪問(wèn),集搜客GooSeeker采用技術(shù)手段盡量避免被屏蔽
5、清理運(yùn)行狀態(tài)
使用ADSL等動(dòng)態(tài)分配地址的部署方式,定期撥號(hào)更換IP地址,也可在火狐瀏覽器上清除cookie和緩存
軟件特色
1、直觀標(biāo)注采數(shù)據(jù)
不用程序思維,不要技術(shù)基礎(chǔ),點(diǎn)擊想要的內(nèi)容,軟件自動(dòng)管理所選內(nèi)容,自動(dòng)放進(jìn)整理箱
2、可視化免編程
抓取軟件操作簡(jiǎn)單,完全可視化操作,無(wú)需編程基礎(chǔ),熟悉電腦操作即可輕松掌握
3、模板資源套用
在抓取規(guī)則的詳情頁(yè)面,您可以仔細(xì)考察一個(gè)規(guī)則的抓取結(jié)果是否滿足您的需要,如果滿足,只需點(diǎn)擊“下載”按鈕,即可在會(huì)員中心一鍵啟動(dòng)集搜客網(wǎng)絡(luò)爬蟲(chóng),抓取到你想要的數(shù)據(jù)
4、通用網(wǎng)絡(luò)爬蟲(chóng)
采用功能強(qiáng)大的火狐瀏覽器內(nèi)核,所見(jiàn)即所得
5、會(huì)員互助抓取
這是爬蟲(chóng)群并行抓取的一種特殊情形,利用這個(gè)功能,可以低成本快速匯集海量數(shù)據(jù)
6、不限深度不限廣度
以盡量低的成本獲得數(shù)據(jù),而且只獲取需要的網(wǎng)頁(yè)內(nèi)容
7、抓取指數(shù)圖表
集搜客網(wǎng)絡(luò)爬蟲(chóng)具有強(qiáng)大的圖表數(shù)據(jù)抓取能力,而且提供一個(gè)開(kāi)發(fā)者擴(kuò)展接口,允許技術(shù)基礎(chǔ)高的用戶用Javascript自定義更高級(jí)的網(wǎng)絡(luò)爬蟲(chóng)動(dòng)作
8、本地化存儲(chǔ)保護(hù)隱私
把所有采集結(jié)果數(shù)據(jù)直接存儲(chǔ)在用戶個(gè)人電腦上,便于用戶對(duì)采集結(jié)果數(shù)據(jù)做各種處理
9、自動(dòng)登錄驗(yàn)證碼識(shí)別
具有自動(dòng)登錄功能,只需要設(shè)置相關(guān)參數(shù),就可以控制集搜客網(wǎng)絡(luò)爬蟲(chóng)定期自動(dòng)登錄相應(yīng)的賬號(hào)
11、爬蟲(chóng)群并行抓取
集搜客的并行抓取功能,一方面可以幫助個(gè)人解決效率低下的問(wèn)題,另一方面也促進(jìn)社區(qū)閑散資源的整合利用
12、一鍵“集搜”啟動(dòng)多爬蟲(chóng)抓取數(shù)據(jù)
可選擇分布式采集的方式,把采集任務(wù)分配到多臺(tái)電腦上執(zhí)行
13、手機(jī)網(wǎng)站數(shù)據(jù)抓取
使用GooSeeker采集手機(jī)網(wǎng)站數(shù)據(jù)和采用PC網(wǎng)站數(shù)據(jù)同樣簡(jiǎn)單, 可視化定義抓取規(guī)則的過(guò)程完全一樣
軟件用法
1、安裝好gooseeker軟件,下圖為安裝好的界面:
2、點(diǎn)擊右上方的“MS謀數(shù)臺(tái)”,彈出如下界面:
3、在左上方的網(wǎng)址欄輸入想要爬取的網(wǎng)站,我這里輸入天氣網(wǎng)站,并在工作臺(tái)里面創(chuàng)建任務(wù),進(jìn)行命名和查重,直到可以使用:
4、在工作臺(tái)上方標(biāo)題欄中選擇創(chuàng)建規(guī)則,選擇“新建”并命名,點(diǎn)擊確定:
5、點(diǎn)擊“抓取內(nèi)容”中自己的命名的一欄,選中點(diǎn)擊右鍵,選擇“添加”,選擇“包容”:
6、輸入你想抓取的內(nèi)容名稱并保存,我這里重復(fù)此步驟,創(chuàng)建抓取內(nèi)容“日期”、“最高氣溫”、“最低氣溫”、“天氣”、“風(fēng)向風(fēng)力”、“空氣質(zhì)量指數(shù)”,并將“日期”勾選為關(guān)鍵內(nèi)容:
7、在“瀏覽器”窗口中點(diǎn)擊你想要獲取的內(nèi)容,比如現(xiàn)在要獲取“日期”,就在“日期”那個(gè)區(qū)域進(jìn)行鼠標(biāo)點(diǎn)擊,這時(shí)候MS謀數(shù)臺(tái)會(huì)自動(dòng)定位“日期”,即在HTML中結(jié)點(diǎn)的DIV結(jié)點(diǎn)位置。展開(kāi)結(jié)點(diǎn),找到text結(jié)點(diǎn),右擊鼠標(biāo),選擇內(nèi)容映射,然后選擇你想要映射至的抓取內(nèi)容:
8、重復(fù)進(jìn)行第七步,知道把想要抓取的內(nèi)容給全部映射:
9、創(chuàng)建爬蟲(chóng)路線,點(diǎn)擊工作臺(tái)標(biāo)題欄中的“爬蟲(chóng)路線”,點(diǎn)擊“新建”:
10、創(chuàng)建翻頁(yè)定位編號(hào),在瀏覽器中點(diǎn)擊上一月,網(wǎng)頁(yè)會(huì)自動(dòng)定位該文本的結(jié)點(diǎn),右擊結(jié)點(diǎn)選擇“翻頁(yè)映射”,“作為翻頁(yè)區(qū)”,“線索一”:
11、創(chuàng)建記號(hào)定位編號(hào),在游覽器中點(diǎn)擊上一月,在網(wǎng)頁(yè)標(biāo)簽里會(huì)自動(dòng)該文本定位的結(jié)點(diǎn),打開(kāi)該結(jié)點(diǎn),可以看到text屬性,右擊text(此處只能右擊text,不能右擊結(jié)點(diǎn)),選擇 “翻頁(yè)映射”,“ 作為翻頁(yè)記號(hào)”:
12、創(chuàng)建樣例復(fù)制映射,點(diǎn)擊工作臺(tái)標(biāo)題欄里面的新建規(guī)則,勾選右方的啟用,啟動(dòng)樣例復(fù)制管理功能:
13、分別找到該頁(yè)面想要爬取的第一條數(shù)據(jù)的日期欄和第二條數(shù)據(jù)對(duì)應(yīng)的日期欄的節(jié)點(diǎn),右擊第一條數(shù)據(jù)的日期欄對(duì)應(yīng)的結(jié)點(diǎn),選擇“樣例復(fù)制映射”,“第一個(gè)”,右擊第二條數(shù)據(jù)的日期欄對(duì)應(yīng)的結(jié)點(diǎn),選擇“樣例復(fù)制映射”,“第二個(gè)”:
14、點(diǎn)擊工作臺(tái)左方的測(cè)試,對(duì)當(dāng)前的規(guī)則進(jìn)行測(cè)試:
15、當(dāng)測(cè)試爬取內(nèi)容為想要的爬取內(nèi)容時(shí)就可以保存當(dāng)前規(guī)則了,點(diǎn)擊“MS謀數(shù)臺(tái)”右上方的“存規(guī)則”即可保存規(guī)則,然后可以使用我們創(chuàng)建的規(guī)則進(jìn)行數(shù)據(jù)爬取了,想要看自己是否保存規(guī)則,就在工作臺(tái)標(biāo)題欄里面的“搜規(guī)則”查看:
16、打開(kāi)“DS打數(shù)機(jī)”,“DS打數(shù)機(jī)”在Gooseeker瀏覽器中的右上方,打開(kāi)“DS打數(shù)機(jī)”,點(diǎn)擊“文件”,“存儲(chǔ)路徑”,“ 自定義數(shù)據(jù)的存儲(chǔ)路徑”:
17、點(diǎn)擊“單搜”,設(shè)置抓取網(wǎng)頁(yè)數(shù)量,即可開(kāi)始抓取:
18、然后打開(kāi)存儲(chǔ)地址,然后可以看到爬取的數(shù)據(jù)以XML文件保存:
19、用EXCEL打開(kāi)其中一個(gè)文件,可以看到爬取的數(shù)據(jù)集,數(shù)據(jù)爬取完成:
常見(jiàn)問(wèn)題
1、網(wǎng)絡(luò)爬蟲(chóng)狀態(tài)錯(cuò)誤,無(wú)法從FAILED狀態(tài)啟動(dòng)爬蟲(chóng)?
這個(gè)報(bào)錯(cuò)是說(shuō)服務(wù)器連接失敗,失敗的時(shí)候顯示為紅色狀態(tài),正常是綠色
2、保存信息結(jié)構(gòu)描述文件失敗:not writable?
①主題名重復(fù)了,換個(gè)主題名就行
②“爬蟲(chóng)路線”工作臺(tái)上,如果有下級(jí)線索,也要注意不能與別人重名。都有“查重”按鈕,可以檢查一下
3、為什么謀數(shù)臺(tái)又打不開(kāi)了,打數(shù)機(jī)能打開(kāi)?
①火狐自動(dòng)升級(jí)后跟爬蟲(chóng)不配套,就不能正常使用了,所以,安裝火狐的時(shí)候要去工具菜單->選項(xiàng)->高級(jí)->更新里設(shè)置不檢查更新
②下載了更高版本或中國(guó)版火狐,里面安裝很多插件,可能影響到gooseeker爬蟲(chóng)的正常使用
③電腦安裝了360等殺毒軟件,會(huì)悄悄破壞其他程序,只需禁止其安全防護(hù)功能
標(biāo)簽: 網(wǎng)頁(yè)抓取 信息收集
下載地址
精品推薦
-
wetool(微信管理工具)
詳情 -
Ngrok(內(nèi)網(wǎng)穿透軟件)
詳情 -
詞達(dá)人做題軟件
詳情 -
Boson NetSim 11
詳情 -
easyconnect(遠(yuǎn)程管理軟件)
詳情 -
Wireshark
詳情 -
云盤(pán)搜索助手
詳情 -
神卓互聯(lián)內(nèi)網(wǎng)穿透軟件
詳情 -
推流小助手軟件
詳情 -
Cisco Packet Tracer漢化包
詳情 -
Autodesk Licensing Service
詳情 -
紀(jì)念幣預(yù)約助手
詳情 -
抖音注冊(cè)器
詳情 -
東東自動(dòng)化助手
詳情 -
Yy全自動(dòng)廣播器
詳情 -
wifi密碼破解工具
詳情
-
6 IDM工具安裝包
裝機(jī)必備軟件
網(wǎng)友評(píng)論