Python -BS4详细介绍

时间 2021-01-11

Python -BS4详细介绍

Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.
在应用过程中有很多模块是非常方便的,先尝试使用BeautifulSoup和Urllib进行网页的处理,仅供学习.
首先列举所需要导入的模块:
from bs4 import BeautifulSoup # 处理获取的网页信息
import bs4                                    # 用于判读各类类型
import os                                      #系统模块,详细信息整理于下一章节
import re                                      # 正则表达式,其实用不到
import time                                  # 时间模块,用于设置超时处理等
from urllib import request              # 用于获取网页信息
相关操作:
url = 'HTTP://XXXX' # 定义网页地址
respons = request.urlopen(url,data=None,timeout=2) # 打开地址
data = respons.read().decode('utf-8') # 读取网页信息
soup = BeautifulSoup(data, "html5lib")                          # 用BeautifulSoup 解析
href = soup.find_all('a',target = "XXXX") # BS4最重要的函数,获取相关节点儿,详细信息自行学习
###
剩下的就自己处理就行了.

于2018-6-5 补充如下：

关于解析器引用官方文档截图：

对象：

1. tag

tag中最重要的属性: name和attributes

tag.name 和tag["XXX"]

2. tag.string 和 tag.strings 获取字符内容

3. find_all( name , attrs , recursive , text , **kwargs )

name：tag的name

attrs ：属性