豆瓣租房爬蟲是房源信息的采集軟件,專用于最近非常年輕人查詢租房信息的豆瓣小組,上面有很多房屋優質且價格優惠的房源,而這款工具可以讓用戶在設置關鍵字和價格后自動爬取收集房源信息。
軟件介紹
豆瓣租房小組爬蟲是一款能夠幫助中介或者找房源的用戶快速找到適合自己的房源的軟件,很多在豆瓣租房小組找房的用戶面對琳瑯滿目的房子不知該如何甄別,利用軟件能夠快速篩選出適合自己價位的房源。
軟件特色
此爬蟲用python開發,基于gevent、pymongo、requests、lxml、Flask。
流程也相對較簡單:
配置需要爬取的URL;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置監控周期、最大頁數、并發數等;
運行爬蟲,等待抓取,會自動根據配置定時爬取;
啟動web服務,在前臺搜索、排序等;
使用說明
一、下載打開軟件,首先設置要找的房源的地址。
二、接下來設置理想價位和排除關鍵詞。
三、點擊爬取即可獲取房源信息,等待軟件獲取相關關鍵詞房源。
四、利用typora軟件打開爬取下來的MD文件即可看到房源信息。
常見問題
如何設置豆瓣群組鏈接?
首先搜索某個地區租房,例如:北京租房
點進去要爬取的某個小組,例如第一個:北京租房
將頁面拉到最下面有個> 更多小組討論超鏈接,點進去
復制地址欄中地址(從/group開始復制到結尾),粘貼到軟件設置豆瓣群組鏈接
有時候粘貼進軟件會崩潰,不知道什么原因,建議把軟件中原來的鏈接刪除再粘貼進去。
將start=后邊的數字50改成%d
完成
如何設置排除關鍵字?
排除關鍵字是標題和內容只要出現關鍵字就會排除掉該條租房信息。
例如默認是限女這個關鍵字,只要租房信息中包含限女生入住,只限女生等出現限女關鍵字的一律不爬。
多個關鍵字用|分隔,注意是英文的。
例如:限女|短租|整租,這三個關鍵字設置后,只要標題和內容出現這三個關鍵字軟件就不會爬取。
關于識別標題中的價格
使用正則\b\d{4}\b識別標題中的價格信息,無法爬取少于1000元的信息。
關于爬取結果排序
先根據價格從小到大排序,價格相同根據發帖時間排序。
裝機必備軟件
網友評論