Scrapy环境搭建
程序员文章站
2022-05-28 18:51:17
...
Win7系统下搭建Scrapy环境:
1.进入cmd创建虚拟环境:
python -m venv venv
2.进入虚拟环境,安装scrapy的依赖包文件:
以我电脑F盘创建的venv为例 →
1.cd venv
2.cd Scripts
3.activte/deactivate (进入/退出 虚拟环境)
4.cd ../..
5.pip install C:\Users\Administrator\Desktop\Twisted-18.4.0-cp36-cp36m-win32.whl
6.pip install scrapy
这样便搭建好了Scrapy的基础环境了
PS:如有其它报错信息,请留言或者自行面向百度编程
3.创建你的第一个Scrapy爬虫
以我爬取的豆瓣网为例
1.scrapy startproject movie .
2.scrapy genspider movie https://movie.douban.com/top250 --template=crawl
这样便创建好了你的第一个Scrapy爬虫了
4.爬虫的运行
1.scrapy crawl movie 开始爬取网站
2.scrapy crway movie -o result.json 生成json格式
scrapy的整体框架如下:
Attention: 使用scrapy的一个小坑 –>
报错:DEBUG: Filtered offsite request to…
官方对这个的解释,是你要request的地址和allow_domain里面的冲突,从而被过滤掉。可以停用过滤功能。
request1 = scrapy.Request(url=url, callback=self.parse_content, dont_filter=True) dont_filter=True即可解决.
5.几个学习scrapy的网站:
官方文档(中文)
官方教程(英文)
JasonDing的学习Scrapy入门
young-hz 的Scrapy研究探索系列
基础必备!
上一篇: 阿里面试P6以上必问:并发编程
下一篇: Java中如何获取枚举的长度