python爬虫添加

时间 2021-01-15 标签添加

爬虫的URL：统一资源定位符（网址）

写一个爬虫：（1）定位一个目标数据{网站/页面}

（2）分析数据+加载流程（在这里是分析目标数据对应的URL）

（3）下载数据

（4）清洗处理到的数据

(5)保持数据的持久化

这个例子是爬一个网站中的小说，把这个小说找到并下载下来保存：

在这里使用requests库得到实现。

.加上re.S表示能匹配到所有字符，如果不加的话，那些空格等非可见字符，换行无法匹配的到
不用加号，可能会增加内存，用%