Python 爬虫库之三正则表达式 (re)

网络爬虫之正则表达式

正则表达式

一、元字符
- \b是正则表达式规定的一个特殊代码（元字符），代表着单词的开头或结尾，也就是单词的分界处。
  
  如果要精确地查找hi这个单词的话，我们应该使用\bhi\b。
- 这里，.是另一个元字符，匹配除了 换行符 以外的任意字符。.*连在一起就意味着任意数量的不包含换行的字符。
  
  现在 \bhi\b.*\bLucy\b 的意思就很明显了：先是一个单词hi , 然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词。
- 换行符就是\n，ASCII编码为10(十六进制0x0A)的字符。
- \d是个新的元字符，匹配一位数字，等价于(0~9)。- 不是元字符，只匹配它本身。
  
  0\d\d-\d\d\d\d\d\d\d\d匹配这样的字符串：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字。
  
  为了避免那么多烦人的重复，我们也可以这样写这个表达式：0\d{2}-\d{8}。这里\d后面的{2}({8})的意思是前面\d必须连续重复匹配2次(8次)。
- \s匹配任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等。等价于（\t\n\r\f）
- \S匹配任意非空字符
- \w匹配字母或数字或下划线或汉字等。
- \W匹配不是字母、数字、及下划线的字符。
- 下面来看看更多的例子：\ba\w*\b匹配以字母a开头的单词——先是某个单词开始处(\b)，然后是字母a,然后是任意数量的字母或数字(\w*)，最后是单词结束处(\b)。
- \d+匹配 1 个或更多连续的数字。这里的+是和*类似的元字符，不同的是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次。
- \b\w{6}\b 匹配刚好6个字符的单词。
- {n}精确匹配 n 个前面的表达式。
- {n,m}匹配 n 到 m 次由前面正则表达式定义的片段，贪婪方式。
  
  填写的QQ号必须为5位到12位数字时，可以使用：^\d{5,12}$。
- *匹配 0 个或多个表达式
- +匹配 1 个或多个表达式
- ?匹配 0 个或 1 个前面的正则表达式定义的片段，非贪婪模式。
- a｜b 匹配 a 或 b 。
二、字符转义

查找元字符本身，比如你查找.，或者*，你应该使用\.和\*。当然，要查找\本身，你也得用\\。
三、重复

你已经看过了前面的*，+，{2}，{5,12}这几个匹配重复的方式了。下面是正则表达式中所有的限定符(指定数量的代码，例如*，{5,12}等)：

下面是一些使用重复的例子：

Windows\d+ 匹配Windows后面跟1个或更多数字

^\w+ 匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)
四、字符类
- 如果你想匹配没有预定义元字符的字符集合(比如元音字母a，e，i，o，u)，应该怎么办？
  
  很简单，你只需要在方括号里列出它们就行了，像[aeiou]就匹配任何一个英文元音字母，[.?!]匹配标点符号(. 或? 或! )。
- 我们也可以轻松地指定一个字符范围，像[0-9]代表的含意与\d就是完全一致的：一位数字；同理[a-z0-9A-Z_]也完全等同于\w（如果只考虑英文的话）。
- 下面是一个更复杂的表达式：\(?0\d{2}[) -]?\d{8}。
  
  这个表达式可以匹配几种格式的电话号码，像(010)88886666，或022-22334455，或02912345678等。我们对它进行一些分析吧：首先是一个转义字符(,它能出现0次或1次(?),然后是一个0，后面跟着2个数字(\d{2})，然后是)或-或空格中的一个，它出现1次或不出现(?)，最后是8个数字(\d{8})。
五、分枝条件
六、分组
七、反义
八、后向引用
九、零宽断言

re 模块:

match() 函数：

match()函数会尝试从字符串的开始位置尝试匹配正则表达式，也就是说只有在 0 位置匹配成功的话才有返回。如果不是开始位置匹配成功的话，match() 就返回 none。
```
re.match(pattern, string, flags)
```
- 第一个参数：传入正则表达式；
- 第二个参数：传入要匹配的字符串；
- flags 是可选参数，跟 compile 用法相似；
- 匹配成功 re.match 方法返回一个匹配的对象，否则返回None。
search() 函数：
findall() 函数：
sub() 函数：
compile() 函数：

可参考此文 Python 正则表达式

欢迎关注我的公众号：「韧桂」

Python 爬虫库之三 正则表达式 (re)

正则表达式

re 模块:

Python 爬虫库之三正则表达式 (re)