欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python程序设计之爬虫读取(1)

程序员文章站 2022-04-12 11:53:05
...
1.网页读取基础

Python3.x主要使用urlib库来读取网页内容!

2.网页内容读取方法

①使用简单的urlib.request来获取网页内容

import urllib
import urllib.request
def pa():
	#请求打开网页
    fp=urllib.request.urlopen(r'http://www.python.org')
    #打印未解码的前100个字符
    print(fp.read(100))
    #打印解码的前一百个字符
    print(fp.read(100).decode())
    #关闭网页
    fp.close()

②使用get方法来读取指定域名的网页内容

import urllib.parse
def pa1():
    params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    url="http://www.musi-cal.com/cgi-bin/query?%s"%params
    url1="http://www.python.org?%s"%params
    with urllib.request.urlopen(url1) as f:
        print(f.read(100).decode('utf-8'))

③使用post方法提交参数并读取指定页面内容

def post():
    data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    data=data.encode('ascii')
    with urllib.request.urlopen("http://www.python.org",data) as f:
        print(f.read(100).decode('utf-8'))
3.使用调用浏览器打开网页
import webbrowser
def web():
    webbrowser.open('http://www.python.org')
4.域名解析
from urllib.parse import urlparse
def jiexi():
    o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
    #端口号
    print(o.port)
    #域名
    print(o.hostname)