欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Scrapy环境搭建

程序员文章站 2022-05-28 18:51:17
...

Win7系统下搭建Scrapy环境:

1.进入cmd创建虚拟环境:

python -m venv venv

Scrapy环境搭建

2.进入虚拟环境,安装scrapy的依赖包文件:

以我电脑F盘创建的venv为例 →
1.cd venv
2.cd Scripts
3.activte/deactivate (进入/退出 虚拟环境)
4.cd ../..
5.pip install C:\Users\Administrator\Desktop\Twisted-18.4.0-cp36-cp36m-win32.whl 
6.pip install scrapy
这样便搭建好了Scrapy的基础环境了
PS:如有其它报错信息,请留言或者自行面向百度编程

Twisted安装包传送门

3.创建你的第一个Scrapy爬虫

以我爬取的豆瓣网为例
1.scrapy startproject movie .
2.scrapy genspider movie https://movie.douban.com/top250 --template=crawl
这样便创建好了你的第一个Scrapy爬虫了

4.爬虫的运行

1.scrapy crawl movie 开始爬取网站
2.scrapy crway movie -o result.json 生成json格式

scrapy的整体框架如下:
Scrapy环境搭建

Attention: 使用scrapy的一个小坑 –>
报错:DEBUG: Filtered offsite request to…
官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。
request1 = scrapy.Request(url=url, callback=self.parse_content, dont_filter=True) dont_filter=True即可解决.

5.几个学习scrapy的网站:

官方文档(中文)
官方教程(英文)
JasonDing的学习Scrapy入门
young-hz 的Scrapy研究探索系列

基础必备!