該文介紹的是Gerapy 0.9.x版本
Gerapy這個框架是干嘛的?
注意的坑!
效果展示
部署流程
項目安裝
主機(jī)管理
項目管理
任務(wù)管理
Gerapy這個框架是干嘛的?
將我們爬蟲工程師通過Scrapy爬蟲框架寫好的項目整合到Django的Web環(huán)境進(jìn)行統(tǒng)一管理的后臺。簡單理為一個Admin后臺進(jìn)行控制我們寫好的爬蟲腳本,進(jìn)行有針對性的網(wǎng)絡(luò)數(shù)據(jù)采集(比如固定時間、固定間隔、或者一次性采集)方便管理,并且對項目進(jìn)行簡單的項目管理,對于了解Django的Web開發(fā)的小伙伴來說后期如果需要報表功能可以基于這個框架自己增加Admin中的模塊功能,比較容易。該框架對于初學(xué)者非常友好,并且使用簡單、高效。
注意的坑!
Gerapy的Django版本是1.x,如果使用的Django環(huán)境是2.x、3.x或者更高版本是不兼容的,有能力的童鞋自行修改對應(yīng)源碼即可,如果懶得修改的話直接弄2臺機(jī)器吧。處理方案傳送
部署服務(wù)器的話需要開一個端口進(jìn)行遠(yuǎn)程訪問,切記不要開6800裸奔。
遠(yuǎn)程服務(wù)器配置和scrapy配置版本要相同。
效果展示
部署流程
gerapy 安裝 注意自己的版本
pip install gerapy1
scrapyd 安裝
pip install scrapyd1
創(chuàng)建工作的文件目錄,該目錄下初始化項目(文件名隨意)用命令行執(zhí)行
gerapy init1
初始化數(shù)據(jù)庫
cd gerapy gerapy migrate12
gerapy initadmin1
然后就可以啟動服務(wù)了,啟動服務(wù)(可指定url和port)
gerapy runserver 你的ip+端口(0.0.0.0:8000) scrapyd 或者 /usr/local/python3/bin/scrapyd12
進(jìn)入管理平臺(瀏覽器輸入) 舉例這樣在本地打開
http://127.0.0.1:80001
這個地方有點坑,網(wǎng)上很多教程沒有用戶名密碼創(chuàng)建登陸過程,不創(chuàng)建用戶無法使用。創(chuàng)建超級用戶(用戶名和密碼都是admin),創(chuàng)建完畢之后進(jìn)入管理平臺進(jìn)行密碼修改即可。
gerapy initadmin1
創(chuàng)建主機(jī)名稱(機(jī)器名稱:能區(qū)分出來就行)
創(chuàng)建主機(jī)IP(IP網(wǎng)段:略)
創(chuàng)建主機(jī)端口(端口號:一般默認(rèn)6800)
認(rèn)證:目前這個用戶名對和錯都能正常運行
將我們寫好的scrapy的工程project目錄復(fù)制到gerapy中的project復(fù)制過來就行,然后會在頁面中直接顯示你的項目目錄。
部署之
創(chuàng)建任務(wù) 包括名稱(自定義)、項目(需要和項目管理一致)、爬蟲(單獨spider文件)
執(zhí)行任務(wù):主機(jī) + 調(diào)度方式 + 運行時間 + 時區(qū),大陸選擇Asia/Hong_Kong
聯(lián)系客服