python爬虫（中国大学排名定向爬虫--解析）

程序员文章站 2023-11-19 18:13:28

需要爬取的网页：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html右键单击 -> 查看网页源代码：找到需要爬取的信息的位置：(可以Ctrl+F 搜索 "清华大学" 快速找到位置)自诩观察网页源代码可以发现：所有的大学信息都放在了标签下每个大学信息都放在了对应的标签下每个大学的每一条信息都放在了对应的标签中打开网页：http:/......

需要爬取的网页：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html

右键单击 -> 查看网页源代码：

找到需要爬取的信息的位置：(可以Ctrl+F 搜索 "清华大学" 快速找到位置)

python爬虫（中国大学排名定向爬虫--解析）

自诩观察网页源代码可以发现：

所有的大学信息都放在了 <tbody> 标签下
每个大学信息都放在了对应的 <tr> 标签下
每个大学的每一条信息都放在了对应的 <td> 标签中

打开网页：http://www.zuihaodaxue.cn/robots.txt 检查定向爬虫的可行性，404证明定性爬虫没有被限制

python爬虫（中国大学排名定向爬虫--解析）

编写代码：

import requests
from bs4 import BeautifulSoup
import bs4

#爬取网页信息代码:
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)#爬取信息
        r.raise_for_status()#异常识别
        r.encoding=r.apparent_encoding#修改编码
        return r.text#返回text
    except:
        return ""#异常返回 空

#提取出html代码中的大学信息存储到ulist列表中
def fillUnivList(ulist,html):
    soup=BeautifulSoup(html,"html.parser")#解析 html
    for tr in soup.find('tbody').children:#遍历tbody的孩子标签 每个tr代表一所大学
        if isinstance(tr,bs4.element.Tag): #过滤掉非标签类型的元素
            tds=tr('td')#等价于 tr.find_all('td')
            #存储所有的td标签的内容
            ulist.append([tds[0].string,tds[1].string,tds[3].string])#排名  名称  得分(tds[3])  加入到列表中

#输出ulist列表中前num个大学信息
def printUnivList(ulist,num):
    tplt="{0:^10}\t{1:^10}\t{2:^10}"#输出模板变量
    print(tplt.format("排名","学校名称","总分",chr(12288)))#print的format格式化输出,并填充中文空格,使得界面更加美观
    for i in range(num):
        u=ulist[i]
        print(tplt.format(u[0],u[1],u[2],chr(12288)))

#主函数
def main():
    uinfo=[]
    url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html"#将要爬取的url
    #调用编写好的功能函数
    html=getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)

main()#调用主函数

程序运行结果：

python爬虫（中国大学排名定向爬虫--解析）

参考课程：中国大学MOOC_北京理工大学_Python网络爬虫与信息提取

本文地址：https://blog.csdn.net/qq_44786250/article/details/107128362

上一篇：佛山十大老字号餐厅物美价廉口感佳，没吃到你绝对要后悔

下一篇： windows下调试 detectron2或者mmdetection 的c++ 扩展模块，如nms,ROIAlign,dcn等

python爬虫（中国大学排名定向爬虫--解析）

python爬虫（中国大学排名定向爬虫--解析）

python爬虫系列Selenium定向爬取虎扑篮球图片详解

Python HTML解析模块HTMLParser用法分析【爬虫工具】

Python HTML解析器BeautifulSoup用法实例详解【爬虫解析器】

Python开发实例分享bt种子爬虫程序和种子解析

Python selenium爬虫实现定时任务过程解析

Python爬虫的两套解析方法和四种爬虫实现过程

Python爬虫【解析库之pyquery】

python爬虫之解析库正则表达式

从入门到放弃：python爬虫系列-xpath解析库的使用