python 如何爬取审查元素中Elements里有的元素，而源代码里没有的标签？

时间 2020-02-11 标签 python 如何爬取审查元素中 elements 里有的元素源代码里没有的标签

在这里咱们能够看到，这个网站的新闻页面的做者，发布时间那一栏的标签在审查元素的Elements里有的元素，而源代码里却没有，若是单纯的使用xpath或者css没法匹配解析出想要的信息。html

而且咱们能够看到这个元素是使用JavaScript进行渲染的，在源代码中的开头咱们能够看到如下这张图片的代码：正则表达式

解决方案有不少，接下来咱们来看看网站

方法1：正则表达式.net

在这推荐一个验证正则表达式的网站：http://tool.oschina.net/regexcode

所以这里举一个例子，解析代码是这样的：htm

news_author = response.xpath('//script').re('v.{2}\ss.{4}e\s=\s\"[\u4e00-\u9fa5]+\"')[0][13:].replace('"','')

其余方法后续再补充blog