python正则表达式基础(一)

时间 2020-08-09 标签 python 正则表达式基础一

基本语法:元字符 metacharacter正则表达式

代码	说明	举例
.	匹配除换行符外任意一个字符	.点号匹配后的结果是单个单个的元素
[abc]	匹配中括号内任意字母	[abc]匹配plain中的’a’, 有中括号,匹配后的结果是单个单个的元素
[^abc]	除了小写字母’a’,‘b’,'c’均可以匹配	[^abc]能够匹配plain中的’p’、‘l’、‘i’或者’n’ ,'a’不能被匹配, 有中括号,匹配后的结果是单个单个的元素
[a-z]	小写字母均可以匹配	匹配任何小写字母, 有中括号,匹配后的结果是单个单个的元素
[^a-z]	除了小写字母均可以匹配	有中括号,匹配后的结果是单个单个的元素
\b	匹配的字符是单词的边界(词头或词尾)	'\bc,'以’c’开头的’c’字符，例如cache,匹配的结果只是首字母的’c’字符。
\B	匹配的字符不能是单词边界(词头或词尾)	'\Bc,'除了首字母’c’外,后面的’c’字母均可以匹配，例如cache,匹配的结果是中间位置的’c’字符
\d	[0-9]匹配1位数字	匹配出来的元素是单个字符
\D	[^0-9]匹配1位非数字	匹配出来的元素是单个字符
\s	匹配1位空白字符	包括换行符\n、制表符t、空格换页符\f,回车符\r,纵向制表符\v
\S	匹配1位非空白字符
\w	匹配[a-zA-Z0-9_]，包括中文的字	说明,只匹配数字和字母
\W	匹配除了数字和字母以外的字符

代码	说明	举例
*	表示前面的正则表达式会重复0次或屡次	e\w* 单词中e后面能够有非空白字符.号遇到空白字符就被阻断,属于贪婪模式*
+	表示前面的正则表达式重复至少1次	e\w+ 单词中e后面至少有一个非空白字符, 属于贪婪模式
?	表示前面的正则表达式会重复0次或1次	e\w? 单词中e后面至多有一个非空白字符
{n}	重复固定的n次	\w{1} 单词中e后面只能有一个非空白字符
{n,}	重复至少n次	e\w{1,} 等价 e\w+; e\w{0,} 等价 e\w* ;e\w{0,1} 等价 e\w?
{n,m}	重复n到m次	e\w{1,10} 单词中e后面至少1个，至多10个非空白字符

代码	说明	举例
x \| y	匹配x或者y	wood took foot food 使用 w\|food 或者 (w \|f)ood
捕获
(pattern)	使用小括号指定一个子表达式，也叫分组,捕获后会自动分配组号从1开始能够改变优先级
\数字	匹配对应的分组	例如:(very) \1[a-z]+\d+ \1\1，捕获的组group是very,能够捕获’‘very veryerwe123 veryvery’'中的very,共4个
(?:pattern)	若是仅仅为了改变优先级，就不须要捕获分组	(?:w\|f)ood; ‘industr(?:y\|ies)等价’industry\|industries’
(?exp) (?'name’exp)	命名分组捕获，可是能够经过name访问分组Python语法必须是(?Pexp)
零宽断言
(?=exp)	零宽度正预测先行断言断言exp必定在匹配的右边出现，也就是说断言后面必定跟个expf	(?=oo) f后面必定有oo出现
(?<=exp)	零宽度正回顾后发断言断言exp必定出如今匹配的左边出现，也就是说前面必定有个exp前缀	(?<=f)ood、(?<=t)ook分别匹配ood、ook，ook前必定有t出现
负向零宽断言
(?!exp)	零宽度负预测先行断言断言exp必定不会出如今右侧，也就是说断言后面必定不是exp	\d{3}(?!\d)匹配3位数字，断言3位数字后面必定不能是数字foo(?!d) foo后面必定不是d
(?<!exp)	零宽度负回顾后发断言断言exp必定不能出如今左侧，也就是说断言前面必定不能是exp	(?<!f)ood ood的左边必定不是f
注释
(?#comment)	注释	f(?=oo)(?#这个后断言不捕获

代码	说明	Python
IgnoreCase	匹配时忽略大小写	re.I re.IGNORECASE
Singleline	单行模式 . 能够匹配全部字符，包括\n	re.S re.DOTALL
Multiline	多行模式 ^ 行首、$ 行尾	re.M re.MULTILINE
IgnorePatternWhitespace	忽略表达式中的空白字符，若是要使用空白字符用转义，#能够用来作注释	re.X re.VERBOSE

单行模式：vim
- . 号能够匹配全部字符，包括换行符
- ^ 表示整个字符串的开头，$整个字符串的结尾
多行模式：svg
- . 能够匹配除了换行符以外的字符，多行不影响.点号
- ^ 表示行首，$行尾，只不过这里的行是每个
默认模式：测试
- 能够看作待匹配的文本是一行，不能看作多行，. 点号不能匹配换行符，^和$表示行首和行尾，而行首行尾就是整个字符串的开头和结尾spa
- 单行模式：基本和默认模式同样，只是.点号终于能够匹配任意一个字符包括换行符，这时全部文本就是一个长长的只有一行的字符串。^就是这一行字符串的行首，$就是这一行的行尾。code
- 多行模式：从新定义了行的概念，但不影响.点号的行为，^和$仍是行首行尾的意思，只不过由于多行模式能够识别换行符了。"开始"指的是\n后紧接着下一个字符；"结束"指的是\n前的字符，注意最后一行结尾能够没有\nregexp

简单讲，单行模式只影响.点号行为，多行模式从新定义行影响了^和$注意：  
注意字符串中看不见的换行符,\r\n会影响e$的测试，$只能匹配\n