python之正则表达式（基础篇）

时间 2019-12-07 标签 python 正则表达式基础篇

前言

在向网页进行了提交请求之类的以后，咱们能够获得了网页的返回内容，里面天然而然会有咱们想要的数据，可是html元素文本这么多，咱们不可能一一去找咱们须要的数据，这时就须要用到正则表达式了，正则表达式是学爬虫必须学的内容，并且不止python能够用，java等其余语言均可以用，因此学了好处大大。php

正文

什么是正则表达式？css

正则表达式就是一个特殊的字符序列，能够用于检测一个字符串是否与咱们的所设定的字符串相匹配。功能有快速检索文本和快速替换一些文本的操做。html

python里面有个处理正则表达式的库 re。有个方法java

findall(pattern,string,flags)python

用来匹配正则达式，咱们就先用这个方法处理下。git

参数以下：github

pattern：正则表达式
string：要进行匹配的字符串
flags：匹配的模式
结果是一个匹配内容的列表。web

常见的匹配模式正则表达式

模式	描述
\w	匹配字母、数字及下划线
\W	匹配不是字母、数字及下划线的字符
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，若是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，若是存在换行，同时还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串的开头
$	匹配一行字符串的结尾
.	匹配任意字符，除了换行符，当re.DATALL标记被指定时，则能够匹配包括换行符的任意字符
[…]	用来表示一组字符，单独列出，好比[amk]匹配a、m或k
[^…]	不在[]中的字符，好比[^abc]匹配除了a、b、c以外的字符
*	匹配0个或多个表达式
+	匹配1个或多个表达式
?	匹配0个或1个前面的正则表达式定义的片断，非贪婪模式
{n}	精确匹配n个前面的表达式
{n,m}	匹配n到m次由前面正则表达式定义的片断，贪婪模式
a\|b	匹配a或b
()	匹配括号内的表达式，也表示一个组

‘\d’ : 这个表示匹配单个0-9数字
‘\D’ : 与\d相反，匹配数字之外的内容
用代码来感觉下：json

import re#这个库是用来使用正则表达式的
a='gfsxg+sad12sakdj34nva5kfh6k78'
r=re.findall('\d',a)#这个就是根据\d的正则表达式来查找对应字符，其中\d是对应0-9的数字
#查找非数字用\D
r1=re.findall('\D',a)
print(r)
print(r1)

结果：

['1', '2', '3', '4', '5', '6', '7', '8']
['g', 'f', 's', 'x', 'g', '+', 's', 'a', 'd', 's', 'a', 'k', 'd', 'j', 'n', 'v', 'a', 'k', 'f', 'h', 'k']

能够看到找出了字符串中的数字和非数字

若是咱们在匹配一个字符串时，中间内容是有多个变化的，咱们须要应变多种不一样的字符，如这个字符串：

a='aac,abc,acc,adc,aec,afc,agc'

若是须要匹配这个字符串时，咱们就须要用到 [ ] ,用中括号括起来的字符，里面的内容表示或关系，那来看看代码：

import re
a='aac,abc,acc,adc,aec,afc,agc'
#如今查找上面的中间字符为b或者g的字符串
#这个要求能够用到字符集来实现
r=re.findall('a[bg]c',a)#[]表示字符集，里面的内容是或关系
print(r)

结果：

# 结果
['abc', 'agc']

上面匹配了中间字符是b或者是g的字符串，匹配中间字符非c和非f,能够在前面加个 ^ 符号:

import re
a='aac,abc,acc,adc,aec,afc,agc'
#如今查找上面的中间字符为b或者g的字符串
#这个要求能够用到字符集来实现
r=re.findall('a[^bg]c',a)#[]表示字符集，里面的内容是或关系
print(r)

结果：

['aac', 'acc', 'adc', 'aec', 'afc']

上面只处理了中间字符为b者g的字符串，可是没有匹配所有的，若要匹配所有，能够加个 - 符号，表示范围，以下：

import re
r=re.findall('a[b-f]c',a)#[b-f]就是表示从b到f
print(r)

结果：

['abc', 'acc', 'adc', 'aec', 'afc']

归纳字符集：
用一个 \ + 字母表示一系列的字符的元字符，只能匹配单个字符，经常使用的以下

\w：匹配数字和字符「不包括&符号」只匹配单词，数字和下划线
\W：与\w相反，这个包括空格和回车
\s：匹配空格字符，如空格，回车和制表符
\S：与\s相反
.：匹配除换行符以外的其余字符
还有前面的\d和\D也是

有个小技巧：若是想要匹配全部字符，就能够把上面的两个相反的合并起来就能够了。

代码以下：

#归纳字符集,就是用一个\加个字母来表示一类字符，好比刚开始的\d,\D
import re
a='fdsg\n134\rs3$ ghj%tyu36\t5&'
r=re.findall('\w',a)#这个是匹配数字和单词
print(r)
#也能够匹配非数字非单词
r=re.findall('\W',a)
print(r)
#匹配空格字符和制表符等其余字符
r=re.findall('\s',a)
print(r)
#匹配除换行符以外的其余字符
r=re.findall('.',a)
print(r)

结果：

['f', 'd', 's', 'g', '1', '3', '4', 's', '3', 'g', 'h', 'j', 't', 'y', 'u', '3', '6', '5']
['\n', '\r', '$', ' ', '%', '\t', '&']
['\n', '\r', ' ', '\t']
['f', 'd', 's', 'g', '1', '3', '4', '\r', 's', '3', '$', ' ', 'g', 'h', 'j', '%', 't', 'y', 'u', '3', '6', '\t', '5', '&']

数量词：
当一个字符须要连续重复匹配屡次时，就要用到这个。如匹配三个字符组成的字符串：
[a-zA-z]{3} ，大括号里面的表示重复次数。
若要匹配三到六个字符，大括号的就须要这样写：{3,6}.

代码以下：

#数量词，当一个字符须要屡次重复匹配时就须要用到
import re
a='python java0000php12 html4 css'
r=re.findall('[a-z]{3}',a)#重复屡次就用大括号，括号内的数表示重复的次数
print(r)
#也能够重复一个范围，表示匹配3到6个字符
r=re.findall('[a-z]{3,6}',a)
print(r)#这样就能够把单词都找出来了

结果：

['pyt', 'hon', 'jav', 'php', 'htm', 'css']
['python', 'java', 'php', 'html', 'css']

其余数量词表示：
* ：匹配零次或无限屡次
+：匹配一次或以上
?：匹配零次或者一次

a='pytho243python34pythonn'
#*表示匹配对应内容0次或者无限次
r=re.findall('python*',a)#这个就是表明对n字符的数量词匹配
print(r)
#+表示匹配内容1次或者无限次
r=re.findall('python+',a)
print(r)
#?表示能够匹配0次或者1次,注意这个？和上面的非贪婪表明的意思不同
r=re.findall('python?',a)
print(r)
# 结果
['pytho', 'python', 'pythonn']
['python', 'pythonn']
['pytho', 'python', 'python']

贪婪匹配：正则表达式默认为贪婪匹配，即匹配符合字符串的最大长度，如上面的[a-zA-z]{3,6}，他会趋于匹配长度为6的字符串，匹配到条件不知足时才中止匹配。
非贪婪匹配：就是趋于匹配长度最小的字符串，匹配知足第一个条件就会中止匹配。

总结

本文只是介绍了正则表达式的基础用法，以后会有一篇稍微高级的用法。

正则表达式相关的jupyter的笔记已经上传的到个人GitHub上，有须要的能够下载下来看看，给个star也是能够的：
https://github.com/ldz0/Python-jupyter-notebooks