Python爬虫入门教程 79-100 Python Portia爬虫框架-在Win7里面配置起来

写在前面

曾经有人问我,为什么要写100篇关于爬虫的博客?我想说,由于吹牛吹过头了呗,100篇是真的难写。git

但愿在将来爬虫100例系列博客能在Python爬虫教学领域有那么一点点的位置。github

今天开始,我将从一些成熟框架入手,继续提升你的爬虫知识面。web

Portia是啥?

这个框架在最开始就计划写一下了,没想到拖到这里,Portia属于可视化爬虫,基本描述参照下述内容编程

Portia is a tool that allows you to visually scrape websites without any programming knowledge required. With Portia you can annotate a web page to identify the data you wish to extract, and Portia will understand based on these annotations how to scrape data from similar pages.api

大意是:Portia是一个工具,它容许你在不须要任何编程知识的状况下可视化地抓取网站。看来是不用写代码就能够操做了,不事后面的实操告诉我,没那么简单~服务器

github地址:https://github.com/scrapinghub/portia
文档地址:https://portia.readthedocs.io/en/2.0-docs/框架

若是你使用的是Linux或者CentOS这种服务器,那配置Portia起来就很是简单了,很不巧,我最近刚弄了个Windows7的台式机,在本地搭建着实还废了一些功夫。ide

若是不是非用Windows7开svg