Python使用scrapy抓取网站sitemap信息的方法

程序员文章站 2023-01-30 20:21:39

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下： import re from scrapy.spi...

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

上一篇： Photoshop设计时尚大气的化妆品活动电商banner海报

下一篇：最近楼主负责的一个厂区的电梯故障率很高

Python使用scrapy抓取网站sitemap信息的方法

Python 抓取微信公众号账号信息的方法

C#使用WebClient登录网站并抓取登录后的网页信息实现方法

Python实现抓取百度搜索结果页的网站标题信息

Python多进程方式抓取基金网站内容的方法分析

python实现根据用户输入从电影网站获取影片信息的方法

使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

python使用BeautifulSoup分析网页信息的方法

使用Python自动化破解自定义字体混淆信息的方法实例

C#使用WebClient登录网站并抓取登录后的网页信息实现方法

Python基于scrapy采集数据时使用代理服务器的方法