XPath 结合 requests 爬取网站存储格式可选有json、csv、txt

程序员文章站 2023-12-04 18:19:28

因为项目需要，最近在爬取非遗相关的网站，但目标url 有做源码的保护，不同元素的辨识度特别低，点开审查网页，好几个关键字都是cye-Im-tag就打算用XPath获取节点信息嘻嘻，这边引用大佬wsmrzx的爬取猫眼电影TOP250电影信息废话不多说，上链接猫眼爬取大佬写得很详细，user-agent改一下即可哈关于lxml库的安装只需要执行：pip install lxml不知道为什么，使用这个命令安装，一次成功的很少，不知道为啥，就是各种报错那就先执行命令，安装wheel库pip...

因为项目需要，最近在爬取非遗相关的网站，但目标url 有做源码的保护，不同元素的辨识度特别低，点开审查网页，好几个关键字都是cye-Im-tag
就打算用XPath获取节点信息
嘻嘻，这边引用大佬wsmrzx的爬取猫眼电影TOP250电影信息
废话不多说，上链接猫眼爬取

大佬写得很详细，user-agent改一下即可哈

关于lxml库的安装

只需要执行：
pip install lxml

不知道为什么，使用这个命令安装，一次成功的很少，不知道为啥，就是各种报错

那就先执行命令，安装wheel库
pip install wheel

然后再执行上一个cmd就OK啦

wheel有官网，但直接用pip安装简单粗暴，哈哈哈

友情tip

爬取结果保存成txt格式，比较麻烦，特别是要导入数据库的

本文地址：https://blog.csdn.net/weixin_44412468/article/details/107426984

XPath 结合 requests 爬取网站 存储格式可选 有json、csv、txt

关于lxml库的安装

友情tip