对一个爬虫爱好者来讲,或多或少都有这么一点点的收集癖
~ 发现好的图片,发现好的书籍,发现各类能存放在电脑上的东西,都喜欢把它批量的爬取下来。 而后放着,是的,就这么放着…而后慢慢的遗忘掉…html
打开网址 http://www.allitebooks.com/
发现特别清晰的小页面,一看就好爬
web
在点击一本图书进入,发现下载的小连接也很明显的展现在了咱们面前,小激动一把,这么清晰无广告的网站很少见了。
多线程
此次我采用了一个新的模块 requests-html
这个模块的做者以前开发了一款 requests
,svg