Python程序设计之爬虫读取(1)

程序员文章站 2022-04-12 11:53:05

...

1.网页读取基础

Python3.x主要使用urlib库来读取网页内容！

2.网页内容读取方法

①使用简单的urlib.request来获取网页内容

import urllib
import urllib.request
def pa():
	#请求打开网页
    fp=urllib.request.urlopen(r'http://www.python.org')
    #打印未解码的前100个字符
    print(fp.read(100))
    #打印解码的前一百个字符
    print(fp.read(100).decode())
    #关闭网页
    fp.close()

②使用get方法来读取指定域名的网页内容

import urllib.parse
def pa1():
    params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    url="http://www.musi-cal.com/cgi-bin/query?%s"%params
    url1="http://www.python.org?%s"%params
    with urllib.request.urlopen(url1) as f:
        print(f.read(100).decode('utf-8'))

③使用post方法提交参数并读取指定页面内容

def post():
    data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    data=data.encode('ascii')
    with urllib.request.urlopen("http://www.python.org",data) as f:
        print(f.read(100).decode('utf-8'))

3.使用调用浏览器打开网页

import webbrowser
def web():
    webbrowser.open('http://www.python.org')

4.域名解析

from urllib.parse import urlparse
def jiexi():
    o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
    #端口号
    print(o.port)
    #域名
    print(o.hostname)

上一篇： vue 配置baseurl

下一篇：拍出大长腿把女孩拍高拍瘦的诀窍

Python程序设计之爬虫读取(1)

1.网页读取基础

2.网页内容读取方法

3.使用调用浏览器打开网页

4.域名解析

Python爬虫之pandas基本安装与使用方法示例

玩转python爬虫之URLError异常处理

Python爬虫实战之爬取某宝男装信息

Python 爬虫学习笔记之正则表达式

Python 爬虫学习笔记之单线程爬虫

Python 爬虫学习笔记之正则表达式

Python 爬虫学习笔记之单线程爬虫

零基础写python爬虫之抓取百度贴吧代码分享

零基础写python爬虫之HTTP异常处理

零基础写python爬虫之爬虫的定义及URL构成