爬虫经常使用的正则表达方式

时间 2020-07-25 标签爬虫经常使用正则表达方式

python里的正则化库re，使用方法：python

import re
line = 'boooooobby123'
regex_str = "^b.*3$"
re.match(regex_str, line)

正则化用到的特殊字符

^ $ * ? {2} {2, } {2,5} |
[] [^] [] [^] [a-z]
\s \S \w \W
[\u4E00-\u9FA5] () \d

`^`

^a 匹配以字符a 开头的字符串web

`$`

3$ 匹配以3结尾的字符串svg

`*`

^b.*3$ 匹配以b开头以3结尾的，中间有若干重复或不重复的字符（>=0）的字符串spa

`?`

非贪婪匹配方式。若是要匹配字符串'boooooobby123' 的子串 'boooooob'。按正常的想法：code

line = 'boooooobby123'
regex_str = ".*(b.*b).*"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))

可是返回的结果是bb 。这是由于默认的是从后向前的贪婪匹配。使用非贪婪的匹配方法：xml

regex_str = ".*?(b.*b).*"

但输出结果是boooooobb 由于虽然前面使用了非贪婪匹配，但后面仍是贪婪的，因此应该是：字符串

regex_str = ".*?(b.*?b).*"

`+`

前面字符至少出现一次，如b.+b 匹配的就是bbbstring

`{2}`

限定字符出现的个数为2it

`{2,}`

限定出现字符个数超过2class

`{2,5}`

限定出现字符个数在2到5之间

`|`

或关系

line = 'boobby123'
regex_str = "(bobby|boobby)123"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))

结果为boobby，若是想取完整的再加一个括号"((bobby|boobby)123)"，获得boobby123。print(match_obj.group(2)) 获得boobby 。

`[]`

表明知足中括号里的条件。[abcd]oobby123，指第一个字符是abcd中的任意一个，[0-9]表明0-9之间的数，[^1] 表明非1 。

比较经常使用的是匹配电话号码：

line = "18782902222"
regex_str = "(1[48357][0-9]{9})"
match_obj = re.match(regex_str, line)
print(match_obj.group(1))

`.`

表明任意字符

`\s`

反斜杠小s：一个空格符号

line = "你 好"
regex_str = "(你\s好)"

`\S`

反斜杠大s：一个不为空格的符号

`\w`

反斜杠小w：指[a-zA-Z0-9_]中的任意字符

`\W`

反斜杠大w：指不为[a-zA-Z0-9_]字符的任意字符

`[\u4E00-\u9FA5]`

指出现汉字

line = "study in 清华大学"
regex_str = ".*?([\u4E00-\u9FA5]+大学)"

获得清华大学 ，若是没有?则贪婪匹配到华大学

`()`

用来取子串

`\d`

提取数字

line = "XXX出生于2011年"
regex_str = ".*(\d{4})年" # 或者 ".*?(\d+)年"

实例

# 能知足匹配下面的5种状况
line = "xxx出生于2001年6月"
line = "xxx出生于2001/6/1"
line = "xxx出生于2001-6-1"
line = "xxx出生于2001-06-01"
line = "xxx出生于2001-06"
regex_str = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]$|$))"