Python -BS4详细介绍

Python -BS4详细介绍
Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.
在应用过程中有很多模块是非常方便的,先尝试使用
BeautifulSoup和Urllib进行网页的处理,仅供学习.
首先列举所需要导入的模块:
from bs4 import BeautifulSoup    # 处理获取的网页信息
import bs4                                    # 用于判读各类类型                  
import os                                       #系统模块,详细信息整理于下一章节
import re                                        # 正则表达式,其实用不到
import time                                    # 时间模块,用于设置超时处理等
from urllib import request               # 用于获取网页信息
相关操作:
url = 'HTTP://XXXX'    # 定义网页地址
respons request.urlopen(url,data=None,timeout=2)     # 打开地址
data respons.read().decode('utf-8')   # 读取网页信息
soup BeautifulSoup(data, "html5lib")                          # 用BeautifulSoup 解析
href soup.find_all('a',target "XXXX")  # BS4最重要的函数,获取相关节点儿,详细信息自行学习
###
剩下的就自己处理就行了.
于2018-6-5 补充如下:

关于解析器引用官方文档截图:


对象:





        1. tag  

        tag中最重要的属性: name和attributes

        tag.name 和tag["XXX"]

        2. tag.string 和 tag.strings  获取字符内容

        3.    find_all( name , attrs , recursive , text , **kwargs )

                name:tag的name

                attrs : 属性