Python爬虫之网页图片抓取的方法

程序员文章站 2023-11-04 10:55:34

一、引入这段时间一直在学习python的东西，以前就听说python爬虫多厉害，正好现在学到这里，跟着小甲鱼的python视频写了一个爬虫程序，能实现简单的网页图片下载...

一、引入

这段时间一直在学习python的东西，以前就听说python爬虫多厉害，正好现在学到这里，跟着小甲鱼的python视频写了一个爬虫程序，能实现简单的网页图片下载。

二、代码

__author__ = "jentzhang"
import urllib.request
import os
import random
import re
def url_open(url):
  '''
  打开网页
  :param url:
  :return:
  '''
  req = urllib.request.request(url)
  req.add_header('user-agent',
          'mozilla/5.0 (windows nt 10.0; wow64) applewebkit/537.36 (khtml, like gecko) chrome/49.0.2623.75 safari/537.36')
  # 应用代理
  '''
  proxyies = ["111.155.116.237:8123","101.236.23.202:8866","122.114.31.177:808"]
  proxy = random.choice(proxyies)
  proxy_support = urllib.request.proxyhandler({"http": proxy})
  opener = urllib.request.build_opener(proxy_support)
  urllib.request.install_opener(opener)
  '''
  response = urllib.request.urlopen(url)
  html = response.read()
  return html
def save_img(folder, img_addrs):
  '''
  保存图片
  :param folder: 要保存的文件夹
  :param img_addrs: 图片地址（列表）
  :return:
  '''
  # 创建文件夹用来存放图片
  if not os.path.exists(folder):
    os.mkdir(folder)
  os.chdir(folder)
  for each in img_addrs:
    filename = each.split('/')[-1]
    try:
      with open(filename, 'wb') as f:
        img = url_open("http:" + each)
        f.write(img)
    except urllib.error.httperror as e:
      # print(e.reason)
      pass
  print('完毕！')
def find_imgs(url):
  '''
  获取全部的图片链接
  :param url: 连接地址
  :return: 图片地址的列表
  '''
  html = url_open(url).decode("utf-8")
  img_addrs = re.findall(r'src="(.+?\.gif)', html)
  return img_addrs
def get_page(url):
  '''
  获取当前一共有多少页的图片
  :param url: 网页地址
  :return:
  '''
  html = url_open(url).decode('utf-8')
  a = html.find("current-comment-page") + 23
  b = html.find("]</span>", a)
  return html[a:b]
def download_mm(url="http://jandan.net/ooxx/", folder="ooxx", pages=1):
  '''
  主程序（下载图片）
  :param folder:默认存放的文件夹
  :param pages: 下载的页数
  :return:
  '''
  page_num = int(get_page(url))
  for i in range(pages):
    page_num -= i
    page_url = url + "page-" + str(page_num) + "#comments"
    img_addrs = find_imgs(page_url)
    save_img(folder, img_addrs)
if __name__ == "__main__":
  download_mm()

三、总结

由于代码中访问的网址已经运用了反爬虫的算法。所以已经爬不到想要的图片啦，so，就当是记了个爬虫的笔记吧。仅供学习参考[捂脸]。。。。

最后：我把jpg格式换成gif，还能爬到可怜的一张gif图：

Python爬虫之网页图片抓取的方法

第一张正是反爬虫机制的一个图片占位符，完全没有任何内容

总结

以上所述是小编给大家介绍的python爬虫之网页图片抓取的方法，希望对大家有所帮助

上一篇： cdr怎么制作羽化效果? cdr羽化效果的技巧

下一篇： Photoshop打造一颗晶莹通透的水珠

Python爬虫之网页图片抓取的方法

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

Python实现抓取HTML网页并以PDF文件形式保存的方法

零基础写python爬虫之使用urllib2组件抓取网页内容

Python爬虫之网页图片抓取的方法

python抓取网页图片示例(python爬虫)

编写Python爬虫抓取暴走漫画上gif图片的实例分享

Python获取网页上图片下载地址的方法

python爬虫之urllib,伪装,超时设置,异常处理的方法

用python处理图片之打开\显示\保存图像的方法

Python爬虫之网页图片抓取的方法

python爬虫 下载一个网页内的图片解决分页以及图片懒加载的问题

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

Python实现抓取HTML网页并以PDF文件形式保存的方法

零基础写python爬虫之使用urllib2组件抓取网页内容

Python爬虫之网页图片抓取的方法

python抓取网页图片示例(python爬虫)

编写Python爬虫抓取暴走漫画上gif图片的实例分享

Python获取网页上图片下载地址的方法

python爬虫之urllib,伪装,超时设置,异常处理的方法

用python处理图片之打开\显示\保存图像的方法

python爬虫下载一个网页内的图片解决分页以及图片懒加载的问题