python爬虫添加

爬虫的URL:统一资源定位符(网址)

写一个爬虫:(1)定位一个目标数据{网站/页面}

                       (2)分析数据+加载流程(在这里是分析目标数据对应的URL)

                        (3)下载数据

                        (4)清洗处理到的数据

                          (5)保持数据的持久化

这个例子是爬一个网站中的小说,把这个小说找到并下载下来保存:

在这里使用requests库得到实现。

 

.加上re.S表示能匹配到所有字符,如果不加的话,那些空格等非可见字符,换行无法匹配的到
不用加号,可能会增加内存,用%