- 包含一个Scrapy爬虫项目
- 包含一个Django站点, 用来显示书籍
- 爬虫与站点的数据模型相关联
- 爬虫实现了以下站点的内容收集:
| 网站域名 | 爬虫名称 |
|---|---|
| www.86696.cc | douluo |
- 站点已完成功能:
- 用户登录
- 用户书架
- 书籍书签的增加与删除
- 手机端样式的适配
- 按书籍名称搜索
- 按作者浏览
- 分类浏览
- 排行榜
- 点击排行
- 收藏排行
- 未完成事项:
- 书目整理
- 评论系统
- 投票系统
- 排行榜
- 推荐排行
- 书籍更新内容获取方式
- 安装Python 2.7
- 安装Pip
- 使用pip安装Scrapy Django
- clone本项目
cd booksite && python setup.py develop- 配置Django项目的
local_settings.py文件,位于:PROJECT_DIR/booksite/booksite,配置数据库, 如:
DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': 'bookspider', 'USER': 'spider', 'PASSWORD': 'admin', 'HOST': '127.0.0.1', } } - 生成数据库
python manage.py syncdb - 进入目录
PROJECT_DIR/bookspider - 使用Scrapy进行抓取,
scrapy crawl "爬虫名称"