python爬虫练习（二）使用selenium +浏览器Firefox驱动爬取美女图片

程序员文章站 2022-05-09 21:16:15

...

同样是百度”图片“随便点开的一个网站，经过前面一章的练习，我们这次就说的快一点。

因为这次的网站后台使用了js做动态显示，需要使用鼠标滚轮滑倒最最最底部才能显示网页的全部内容，使用urllib已经不能满足我们的需求了

这里介绍另一种获取网页源码的方式

js = "return document.body.innerHTML;"
page_source = driver.execute_script(js)

呀~，不想哔哔了，上章都讲的差不多了，直接贴源码得了：

注意：这次不能直接复制回去运行，得记得下载Firefox驱动"geckodriver"，驱动放在当前文件的目录下就好。

import re  # 正则
import requests
from selenium import webdriver
import time

'''
这个网站坏得很，需要页面下拉到底部才能抓取网页的完整内容（js影响），
这里与前面用不同的方式抓取网址，需要下载Firefox驱动，并将驱动复制到当前目录下。
'''


url = 'http://pic.hao123.com/meinv?style=xl'

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
                  ' AppleWebKit/537.36 (KHTML, like Gecko)'
                  ' Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400'
                  ' QQBrowser/10.6.4208.400'
}
pic_index = 47


def download_pic_3(u):
    global pic_index
    # 驱动下载地址： https://github.com/mozilla/geckodriver/releases
    driver = webdriver.Firefox()
    driver.get(u)
    last_height = driver.execute_script("return document.body.scrollHeight")
    while True:  # 将页面滑动到底部
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(0.5)
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height
    page_source = driver.execute_script("return document.body.innerHTML;")
    driver.close()
    # print(page_source)
    '''
    这个人坏得很，用\/\/来干扰我拿链接，我还要把所有的\都去掉了
    '''
    list_ht = list(page_source)
    str_new = ''
    for list_ht_i in list_ht:
        if list_ht_i == '\\':
            continue
        str_new += str(list_ht_i)
    print("new::", str_new)
    res = re.findall('"(http://hbimg.b0.upaiyun.com/\w+-\w+)"', str_new)
    print("有没有啊：", res)
    print(len(res))
    old_url = ''
    for res_i in res:
        if res_i == old_url:
            continue
        else:
            old_url = res_i
        print("!!!:", res_i)
        a = requests.get(res_i)  # 这里是requests 不是request
        f = open('E:/PIC_YW/%s.jpg' % pic_index, 'wb')
        f.write(a.content)
        f.close()
        print('%s.jpg' % pic_index, '已保存！o(*￣▽￣*)ブ')
        pic_index += 1
    print('-----华丽的分割线-------------------------------------------------------------------')


if __name__ == "__main__":
    url_2 = url
    download_pic_3(url_2)
    print('就这么几张，没了(；′⌒`)')