正则表达式

这一篇参考https://www.runoob.com/regexp/regexp-syntax.html

什么是正则

正则指的是正则表达式，从runoob找的定义是一种用于匹配和操作文本的强大工具，它是由一系列字符和特殊字符组成的模式，用于描述要匹配的文本模式。正则表达式可以在文本中查找、替换、提取和验证特定的模式。

abc+d,可以匹配abcd、abccd、abccccd、aaabcd等，+号代表前面的字符必须至少出现一次
abcd,可以匹配d、abcd、abcabcd等，号代表前面的字符可以不出现、出现一次或多次
abc?d 可以匹配abcd或abd，？问号表示前面的字符最多可以出现一次

普通字符

我们经常看到的/[a-zA-z]/这就属于普通字符，普通字符包括没有显式指定为元字符的所有可打印或不可打印字符。包括所有大小写字母，数字，标点和一些其他字符

接下来列举一些普通字符：

[abc] 表示字符串中与[]中相同的字符

[^abc]表示字符串中与[] 中不同的字符

[A-Z] 表示A到Z区间的所有字符

 .   表示匹配除了(\n、\r)之外的其他字符，可以相当于[^\n\r  ]

[\s\S] \s匹配所有空白符，\S匹配所有非空白符

(一般大写和小写对应的会是相反的)

\w 表示为[A-Za-z0-9_] 匹配含有字母数字下划线的字符

非打印字符

这里引用下runoob的描述

\cx 表示匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 'c' 字符。

\f     匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于\x0a和\cJ

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\t 匹配一个制表符。等价于\x09和\cl.

\v 匹配一个垂直制表符.等价于\x0b和\cK

特殊字符

特殊字符如上面的abc d中的 ,这些特殊字符在查找的时候需要进行转义，即在其前面加一个\

下面列举一些特殊字符

$ 匹配 输入字符串的结尾位置，如果设置了RegExp对象，则$也匹配‘\n’或‘\r’，要匹配$字符本身，则需要使用\$

() 表示一个子表达式开始和结尾的位置 。匹配则要使用\( 和 \)

[ 表示一个表达式的开始

\ 表示将下一个字符标记为特殊字符 或原义字符 或向后引用 或八进制转义符 若要匹配\ 则需要使用\\ 

{ 表示标记限定符表达式的开始

| 指明两项之间的一个选择

限定符

限定符是用来指定正则表达式的某个部分必须要出现几次才能满足匹配

* 匹配前面的字符出现零次或多次 等价于{0,}

+ 匹配前面的子表达式一次或多次 等价于{1,}

？匹配前面的子表达式出现零次或一次 例：ab(cd)？ 可以匹配ab abcd abef 等价于{0,1}

{n} n为非负整数 匹配确定的n次 例如a{3} 可以匹配aaabcd 中的三个a

{n,} n位非负整数 匹配至少n次

{n,m} n,m 都为非负整数，n<=m 最少匹配n次且最多m次

*和+限定符都是贪婪的，因为它们会尽可能匹配文字，只有在它们的后面加上一个? 就可以实现非贪婪或最小匹配

贪婪：下列的表达式匹配从开始小于字符(<)到关闭h1标记的大于字符(>)之间的所有内容