代码仓库地址:https://gitee.com/taisan/reptile
项目背景
个人在业余时间,写的一个以微信公众号爬虫为主要功能,普通网页爬虫、浏览器控制、邮件群发功能为辅的简单DEMO。功能简单,给开发者巨大的学习和发挥的空间。对spring boot和html有一些经验的人来说,上手简单,学习成本低.
功能介绍
爬虫项目,微信公众号文章爬虫,网站文章爬虫,群发邮件系统
项目架构
springBoot 单项目架构
已知爬取微信公众号有三种方法:
第一种:用搜狗微信公众号搜过,这个只能收到前10条;(亲试,好多公众号连近10条都获取不到,放弃)
第二种:用fiddler或手机抓包,从访问链接去获得appmsg_token,发现虽然这个值就在html页面里,但只有抓包的数据里含有效值,直接访问的是空的,而且还有时效性。这样,每次都要抓包获取,就很麻烦。
第三种:就是这种用公众号搜公众号的,虽然速度慢点,但便捷了不少。(每天请求次数限制,约为100次)
使用须知
程序原理:
通过selenium登录获取token和cookie,再自动爬取和下载
使用前提:
1、修改项目中Chrome驱动的路径改为自己本地的
2、有自己的公众号,没有可以申请一个微信公众号(个人订阅版)(https://mp.weixin.qq.com)
3、修改reptile.properties文件中的账号和密码
安装教程
使用说明
功能简介
简单的爬虫系统和邮件系统 1.爬虫分为微信公众号爬虫和和普通网页爬虫(主要通过selenium和jsoup实现) 2.java邮箱发送系统,可以实现邮件群发(主要通过javax.mail实现)
系统运行视图
可视化页面
技术交流&问题反馈
联系QQ:1334512682 微信号:vxhqqh
捐赠