python之Beautiful Soup库

时间 2019-11-10 标签 python beautiful soup 库

一、简介

　　简单来讲，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释以下：css

　　Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，经过解析文档为用户提供须要抓取的数据，由于简单，因此不须要多少代码就能够写出一个完整的应用程序。html

　　Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不须要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。而后，你仅仅须要说明一下原始编码方式就能够了。html5

　　Beautiful Soup已成为和lxml、html6lib同样出色的python解释器，为用户灵活地提供不一样的解析策略或强劲的速度。python

二、环境安装

　　Beautiful Soup 3 目前已经中止开发，推荐在如今的项目中使用Beautiful Soup 4，不过它已经被移植到BS4了，也就是说导入时咱们须要 from bs4 import BeautifulSoup 。因此这里咱们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。web

　　一、快速安装浏览器

 
         pip install beautifulsoup4

　　二、若是想安装最新的版本，请直接下载安装包来手动安装，也是十分方便的方法scrapy

　　　　一、Beautiful Soup3.2.1函数

　　　　https://pypi.python.org/pypi/BeautifulSoup/3.2.1工具

　　　　二、Beautiful Soup4.3.2测试

　　　 https://pypi.python.org/pypi/beautifulsoup4/

　　　　下载完成以后解压

　　　　运行下面的命令便可完成安装

　　　　python setup.py install

　　三、而后须要安装 lxml

　　　pip install lxml

　　　另外一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,能够选择下列方法来安装html5lib:

　　　pip install html5lib

　　 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，若是咱们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更增强大，速度更快，推荐安装。

3. 使用方法

　　最佳方法参考官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

　　如下内容测试css和xpath分别提取文本和属性的区别，方便后续查看

from scrapy.selector import Selector
from scrapy.http import HtmlResponse
from bs4 import BeautifulSoup as bs

body = '''<html>
         <head>
          <base href='http://example.com/' />
          <title id="txt">Example website</title>
         </head>
         <body>
          <div id='images'>
           <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
           <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
           <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
           <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
           <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>"div text"</div>
          <div>helloworld test</div>
         </body>
        </html>'''
soup = bs(body, "lxml")
print("css获取属性:",soup.select("div")[0].attrs["id"])
print("xpath获取属性:",Selector(text=body).xpath("//div/@id").extract()[0])

print("css获取文本:", soup.select("title[id='txt']")[0].string)
print("xpath获取文本:",Selector(text=body).xpath("//title[@id='txt']/text()").extract()[0])