九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
正則表達式

引言

    正則表達式(regular expression)就是用一個“字符串”來描述一個特征,然后去驗證另一個“字符串”是否符合這個特征。比如 表達式“ab+” 描述的特征是“一個 'a' 和 任意個 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合這個特征。

    正則表達式可以用來:(1)驗證字符串是否符合指定特征,比如驗證是否是合法的郵件地址。(2)用來查找字符串,從一個長的文本中查找符合指定特征的字符串,比查找固定字符串更加靈活方便。(3)用來替換,比普通的替換更強大。

   正則表達式學習起來其實是很簡單的,不多的幾個較為抽象的概念也很容易理解。之所以很多人感覺正則表達式比較復雜,一方面是因為大多數(shù)的文檔沒有做到由淺入深地講解,概念上沒有注意先后順序,給讀者的理解帶來困難;另一方面,各種引擎自帶的文檔一般都要介紹它特有的功能,然而這部分特有的功能并不是我們首先要理解的。

    文章中的每一個舉例,都可以點擊進入到測試頁面進行測試。閑話少說,開始。


1. 正則表達式規(guī)則

1.1 普通字符

    字母、數(shù)字、漢字、下劃線、以及后邊章節(jié)中沒有特殊定義的標點符號,都是"普通字符"。表達式中的普通字符,在匹配一個字符串的時候,匹配與之相同的一個字符。

    舉例1:表達式 "c",在匹配字符串 "abcde" 時,匹配結果是:成功;匹配到的內容是:"c";匹配到的位置是:開始于2,結束于3。(注:下標從0開始還是從1開始,因當前編程語言的不同而可能不同)

    舉例2:表達式 "bcd",在匹配字符串 "abcde" 時,匹配結果是:成功;匹配到的內容是:"bcd";匹配到的位置是:開始于1,結束于4。


1.2 簡單的轉義字符

    一些不便書寫的字符,采用在前面加 "\" 的方法。這些字符其實我們都已經(jīng)熟知了。

表達式

可匹配

\r, \n

代表回車和換行符

\t

制表符

\\

代表 "\" 本身

    還有其他一些在后邊章節(jié)中有特殊用處的標點符號,在前面加 "\" 后,就代表該符號本身。比如:^, $ 都有特殊意義,如果要想匹配字符串中 "^" 和 "$" 字符,則表達式就需要寫成 "\^" 和 "\$"。

表達式

可匹配

\^

匹配 ^ 符號本身

\$

匹配 $ 符號本身

\.

匹配小數(shù)點(.)本身

    這些轉義字符的匹配方法與 "普通字符" 是類似的。也是匹配與之相同的一個字符。

    舉例1:表達式 "\$d",在匹配字符串 "abc$de" 時,匹配結果是:成功;匹配到的內容是:"$d";匹配到的位置是:開始于3,結束于5。


1.3 能夠與 '多種字符' 匹配的表達式

    正則表達式中的一些表示方法,可以匹配 '多種字符' 其中的任意一個字符。比如,表達式 "\d" 可以匹配任意一個數(shù)字。雖然可以匹配其中任意字符,但是只能是一個,不是多個。這就好比玩撲克牌時候,大小王可以代替任意一張牌,但是只能代替一張牌。

表達式

可匹配

\d

任意一個數(shù)字,0~9 中的任意一個

\w

任意一個字母或數(shù)字或下劃線,也就是 A~Z,a~z,0~9,_ 中任意一個

\s

包括空格、制表符、換頁符等空白字符的其中任意一個

.

小數(shù)點可以匹配除了換行符(\n)以外的任意一個字符

    舉例1:表達式 "\d\d",在匹配 "abc123" 時,匹配的結果是:成功;匹配到的內容是:"12";匹配到的位置是:開始于3,結束于5。

    舉例2:表達式 "a.\d",在匹配 "aaa100" 時,匹配的結果是:成功;匹配到的內容是:"aa1";匹配到的位置是:開始于1,結束于4。


1.4 自定義能夠匹配 '多種字符' 的表達式

    使用方括號 [ ] 包含一系列字符,能夠匹配其中任意一個字符。用 [^ ] 包含一系列字符,則能夠匹配其中字符之外的任意一個字符。同樣的道理,雖然可以匹配其中任意一個,但是只能是一個,不是多個。

表達式

可匹配

[ab5@]

匹配 "a" 或 "b" 或 "5" 或 "@"

[^abc]

匹配 "a","b","c" 之外的任意一個字符

[f-k]

匹配 "f"~"k" 之間的任意一個字母

[^A-F0-3]

匹配 "A"~"F","0"~"3" 之外的任意一個字符

    舉例1:表達式 "[bcd][bcd]" 匹配 "abc123" 時,匹配的結果是:成功;匹配到的內容是:"bc";匹配到的位置是:開始于1,結束于3。

    舉例2:表達式 "[^abc]" 匹配 "abc123" 時,匹配的結果是:成功;匹配到的內容是:"1";匹配到的位置是:開始于3,結束于4。


1.5 修飾匹配次數(shù)的特殊符號

    前面章節(jié)中講到的表達式,無論是只能匹配一種字符的表達式,還是可以匹配多種字符其中任意一個的表達式,都只能匹配一次。如果使用表達式再加上修飾匹配次數(shù)的特殊符號,那么不用重復書寫表達式就可以重復匹配。

    使用方法是:"次數(shù)修飾"放在"被修飾的表達式"后邊。比如:"[bcd][bcd]" 可以寫成 "[bcd]{2}"。

表達式

作用

{n}

表達式重復n次,比如:"\w{2}" 相當于 "\w\w";"a{5}" 相當于 "aaaaa"

{m,n}

表達式至少重復m次,最多重復n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa"

{m,}

表達式至少重復m次,比如:"\w\d{2,}"可以匹配 "a12","_456","M12344"...

匹配表達式0次或者1次,相當于 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad"

+

表達式至少出現(xiàn)1次,相當于 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"...

*

表達式不出現(xiàn)或出現(xiàn)任意次,相當于 {0,},比如:"\^*b"可以匹配 "b","^^^b"...

    舉例1:表達式 "\d+\.\d*" 在匹配 "It costs $12.5" 時,匹配的結果是:成功;匹配到的內容是:"12.5";匹配到的位置是:開始于10,結束于14。

    舉例2:表達式 "go{2,8}gle" 在匹配 "Ads by goooooogle" 時,匹配的結果是:成功;匹配到的內容是:"goooooogle";匹配到的位置是:開始于7,結束于17。


1.6 其他一些代表抽象意義的特殊符號

    一些符號在表達式中代表抽象的特殊意義:

表達式

作用

^

與字符串開始的地方匹配,不匹配任何字符

$

與字符串結束的地方匹配,不匹配任何字符

\b

匹配一個單詞邊界,也就是單詞和空格之間的位置,不匹配任何字符

    進一步的文字說明仍然比較抽象,因此,舉例幫助大家理解。

    舉例1:表達式 "^aaa" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "^" 要求與字符串開始的地方匹配,因此,只有當 "aaa" 位于字符串的開頭的時候,"^aaa" 才能匹配,比如:"aaa xxx xxx"。

    舉例2:表達式 "aaa$" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "$" 要求與字符串結束的地方匹配,因此,只有當 "aaa" 位于字符串的結尾的時候,"aaa$" 才能匹配,比如:"xxx xxx aaa"。

    舉例3:表達式 ".\b." 在匹配 "@@@abc" 時,匹配結果是:成功;匹配到的內容是:"@a";匹配到的位置是:開始于2,結束于4。
    進一步說明:"\b" 與 "^" 和 "$" 類似,本身不匹配任何字符,但是它要求它在匹配結果中所處位置的左右兩邊,其中一邊是 "\w" 范圍,另一邊是 非"\w" 的范圍。

    舉例4:表達式 "\bend\b" 在匹配 "weekend,endfor,end" 時,匹配結果是:成功;匹配到的內容是:"end";匹配到的位置是:開始于15,結束于18。

    一些符號可以影響表達式內部的子表達式之間的關系:

表達式

作用

|

左右兩邊表達式之間 "或" 關系,匹配左邊或者右邊

( )

(1). 在被修飾匹配次數(shù)的時候,括號中的表達式可以作為整體被修飾
(2). 取匹配結果的時候,括號中的表達式匹配到的內容可以被單獨得到

    舉例5:表達式 "Tom|Jack" 在匹配字符串 "I'm Tom, he is Jack" 時,匹配結果是:成功;匹配到的內容是:"Tom";匹配到的位置是:開始于4,結束于7。匹配下一個時,匹配結果是:成功;匹配到的內容是:"Jack";匹配到的位置時:開始于15,結束于19。

    舉例6:表達式 "(go\s*)+" 在匹配 "Let's go go go!" 時,匹配結果是:成功;匹配到內容是:"go go go";匹配到的位置是:開始于6,結束于14。

    舉例7:表達式 "(\d+\.\d*)" 在匹配 "$10.9,¥20.5" 時,匹配的結果是:成功;匹配到的內容是:"¥20.5";匹配到的位置是:開始于6,結束于10。單獨獲取括號范圍匹配到的內容是:"20.5"。


2. 正則表達式中的一些高級規(guī)則

2.1 匹配次數(shù)中的貪婪與非貪婪

    在使用修飾匹配次數(shù)的特殊符號時,有幾種表示方法可以使同一個表達式能夠匹配不同的次數(shù),比如:"{m,n}", "{m,}", "?", "*", "+",具體匹配的次數(shù)隨被匹配的字符串而定。這種重復匹配不定次數(shù)的表達式在匹配過程中,總是盡可能多的匹配。比如,針對文本 "dxxxdxxxd",舉例如下:

表達式

匹配結果

(d)(\w+)

"\w+" 將匹配第一個 "d" 之后的所有字符 "xxxdxxxd"

(d)(\w+)(d)

"\w+" 將匹配第一個 "d" 和最后一個 "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個 "d",但是為了使整個表達式匹配成功,"\w+" 可以 "讓出" 它本來能夠匹配的最后一個 "d"

    由此可見,"\w+" 在匹配的時候,總是盡可能多的匹配符合它規(guī)則的字符。雖然第二個舉例中,它沒有匹配最后一個 "d",但那也是為了讓整個表達式能夠匹配成功。同理,帶 "*" 和 "{m,n}" 的表達式都是盡可能地多匹配,帶 "?" 的表達式在可匹配可不匹配的時候,也是盡可能的 "要匹配"。這 種匹配原則就叫作 "貪婪" 模式 。

    非貪婪模式:

    在修飾匹配次數(shù)的特殊符號后再加上一個 "?" 號,則可以使匹配次數(shù)不定的表達式盡可能少的匹配,使可匹配可不匹配的表達式,盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式,也叫作 "勉強" 模式。如果少匹配就會導致整個表達式匹配失敗的時候,與貪婪模式類似,非貪婪模式會最小限度的再匹配一些,以使整個表達式匹配成功。舉例如下,針對文本 "dxxxdxxxd" 舉例:

表達式

匹配結果

(d)(\w+)

"\w+?" 將盡可能少的匹配第一個 "d" 之后的字符,結果是:"\w+?" 只匹配了一個 "x"

(d)(\w+)(d)

為了讓整個表達式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配,從而使整個表達式匹配成功。因此,結果是:"\w+?" 匹配 "xxx"

    更多的情況,舉例如下:

    舉例1:表達式 "<td>(.*)</td>" 與字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配時,匹配的結果是:成功;匹配到的內容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整個字符串, 表達式中的 "</td>" 將與字符串中最后一個 "</td>" 匹配。 

    舉例2:相比之下,表達式 "<td>(.*)</td>" 匹配舉例1中同樣的字符串時,將只得到 "<td><p>aa</p></td>", 再次匹配下一個時,可以得到第二個 "<td><p>bb</p></td>"。


2.2 反向引用 \1, \2...

    表達式在匹配時,表達式引擎會將小括號 "( )" 包含的表達式所匹配到的字符串記錄下來。在獲取匹配結果的時候,小括號包含的表達式所匹配到的字符串可以單獨獲取。這一點,在前面的舉例中,已經(jīng)多次展示了。在實際應用場合中,當用某種邊界來查找,而所要獲取的內容又不包含邊界時,必須使用小括號來指定所要的范圍。比如前面的 "<td>(.*)</td>"。

    其實,"小括號包含的表達式所匹配到的字符串" 不僅是在匹配結束后才可以使用,在匹配過程中也可以使用。表達式后邊的部分,可以引用前面 "括號內的子匹配已經(jīng)匹配到的字符串"。引用方法是 "\" 加上一個數(shù)字。"\1" 引用第1對括號內匹配到的字符串,"\2" 引用第2對括號內匹配到的字符串……以此類推,如果一對括號內包含另一對括號,則外層的括號先排序號。換句話說,哪一對的左括號 "(" 在前,那這一對就先排序號。

    舉例如下:

    舉例1:表達式 "('|")(.*)(\1)" 在匹配 " 'Hello', "World" " 時,匹配結果是:成功;匹配到的內容是:" 'Hello' "。再次匹配下一個時,可以匹配到 " "World" "。

    舉例2:表達式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時,匹配結果是:成功;匹配到的內容是 "ccccc"。再次匹配下一個時,將得到 999999999。這個表達式要求 "\w" 范圍的字符至少重復5次,注意與 "\w{5,}" 之間的區(qū)別。

    舉例3:表達式 "<(\w+)\s*(\w+(=('|").*\4)\s*)*>.*</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 時,匹配結果是成功。如果 "<td>" 與 "</td>" 不配對,則會匹配失敗;如果改成其他配對,也可以匹配成功。


2.3 預搜索,不匹配;反向預搜索,不匹配

    前面的章節(jié)中,我講到了幾個代表抽象意義的特殊符號:"^","$","\b"。它們都有一個共同點,那就是:它們本身不匹配任何字符,只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個條件。理解到這個概念以后,本節(jié)將繼續(xù)介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的,更加靈活的表示方法。

    正向預搜索:"(?=xxxxx)","(?!xxxxx)"

    格式:"(?=xxxxx)",在被匹配的字符串中,它對所處的 "縫隙" 或者 "兩頭" 附加的條件是:所在縫隙的右側,必須能夠匹配上 xxxxx 這部分的表達式。因為它只是在此作為這個縫隙上附加的條件,所以它并不影響后邊的表達式去真正匹配這個縫隙之后的字符。這就類似 "\b",本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進行了一下判斷,不會影響后邊的表達式來真正的匹配。

    舉例1:表達式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時,將只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字樣則不被匹配。

    舉例2:表達式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時,將可以匹配6個"f"的前4個,可以匹配9個"9"的前7個。這個表達式可以讀解成:重復4次以上的字母數(shù)字,則匹配其剩下最后2位之前的部分。當然,這個表達式可以不這樣寫,在此的目的是作為演示之用。

    格式:"(?!xxxxx)",所在縫隙的右側,必須不能匹配 xxxxx 這部分表達式。

    舉例3:表達式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時,將從頭一直匹配到 "stop" 之前的位置,如果字符串中沒有 "stop",則匹配整個字符串。

    舉例4:表達式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時,只能匹配 "do"。在本條舉例中,"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。

    反向預搜索:"(?<=xxxxx)","(?<!xxxxx)"

    這兩種格式的概念和正向預搜索是類似的,反向預搜索要求的條件是:所在縫隙的 "左側",兩種格式分別要求必須能夠匹配和必須不能夠匹配指定表達式,而不是去判斷右側。與 "正向預搜索" 一樣的是:它們都是對所在縫隙的一種附加條件,本身都不匹配任何字符。

    舉例5:表達式 "(?<=\d{4})\d+(?=\d{4})" 在匹配 "1234567890123456" 時,將匹配除了前4個數(shù)字和后4個數(shù)字之外的中間8個數(shù)字。由于 JScript.RegExp 不支持反向預搜索,因此,本條舉例不能夠進行演示。很多其他的引擎可以支持反向預搜索,比如:Java 1.4 以上的 java.util.regex 包,.NET 中System.Text.RegularExpressions 命名空間,以及本站推薦的最簡單易用的 DEELX 正則引擎。


3. 其他通用規(guī)則

    還有一些在各個正則表達式引擎之間比較通用的規(guī)則,在前面的講解過程中沒有提到。

3.1 表達式中,可以使用 "\xXX" 和 "\uXXXX" 表示一個字符("X" 表示一個十六進制數(shù))

形式

字符范圍

\xXX

編號在 0 ~ 255 范圍的字符,比如:空格可以使用 "\x20" 表示

\uXXXX

任何字符可以使用 "\u" 再加上其編號的4位十六進制數(shù)表示,比如:"\u4E2D"

3.2 在表達式 "\s","\d","\w","\b" 表示特殊意義的同時,對應的大寫字母表示相反的意義

表達式

可匹配

\S

匹配所有非空白字符("\s" 可匹配各個空白字符)

\D

匹配所有的非數(shù)字字符

\W

匹配所有的字母、數(shù)字、下劃線以外的字符

\B

匹配非單詞邊界,即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時的字符縫隙

3.3 在表達式中有特殊意義,需要添加 "\" 才能匹配該字符本身的字符匯總

字符

說明

^

匹配輸入字符串的開始位置。要匹配 "^" 字符本身,請使用 "\^"

$

匹配輸入字符串的結尾位置。要匹配 "$" 字符本身,請使用 "\$"

( )

標記一個子表達式的開始和結束位置。要匹配小括號,請使用 "\(" 和 "\)"

[ ]

用來自定義能夠匹配 '多種字符' 的表達式。要匹配中括號,請使用 "\[" 和 "\]"

{ }

修飾匹配次數(shù)的符號。要匹配大括號,請使用 "\{" 和 "\}"

.

匹配除了換行符(\n)以外的任意一個字符。要匹配小數(shù)點本身,請使用 "\."

修飾匹配次數(shù)為 0 次或 1 次。要匹配 "?" 字符本身,請使用 "\?"

+

修飾匹配次數(shù)為至少 1 次。要匹配 "+" 字符本身,請使用 "\+"

*

修飾匹配次數(shù)為 0 次或任意次。要匹配 "*" 字符本身,請使用 "\*"

|

左右兩邊表達式之間 "或" 關系。匹配 "|" 本身,請使用 "\|"

3.4 括號 "( )" 內的子表達式,如果希望匹配結果不進行記錄供以后使用,可以使用 "(?:xxxxx)" 格式

    舉例1:表達式 "(?:(\w)\1)+" 匹配 "a bbccdd efg" 時,結果是 "bbccdd"。括號 "(?:)" 范圍的匹配結果不進行記錄,因此 "(\w)" 使用 "\1" 來引用。

3.5 常用的表達式屬性設置簡介:Ignorecase,Singleline,Multiline,Global

表達式屬性

說明

Ignorecase

默認情況下,表達式中的字母是要區(qū)分大小寫的。配置為 Ignorecase 可使匹配時不區(qū)分大小寫。有的表達式引擎,把 "大小寫" 概念延伸至 UNICODE 范圍的大小寫。

Singleline

默認情況下,小數(shù)點 "." 匹配除了換行符(\n)以外的字符。配置為 Singleline 可使小數(shù)點可匹配包括換行符在內的所有字符。

Multiline

默認情況下,表達式 "^" 和 "$" 只匹配字符串的開始 ① 和結尾 ④ 位置。如:

①xxxxxxxxx②\n
③xxxxxxxxx④

配置為 Multiline 可以使 "^" 匹配 ① 外,還可以匹配換行符之后,下一行開始前 ③ 的位置,使 "$" 匹配 ④ 外,還可以匹配換行符之前,一行結束 ② 的位置。

Global

主要在將表達式用來替換時起作用,配置為 Global 表示替換所有的匹配。


4. 其他提示

4.1 如果想要了解高級的正則引擎還支持那些復雜的正則語法,可參見本站 DEELX 正則引擎的說明文檔

4.2 如果要要求表達式所匹配的內容是整個字符串,而不是從字符串中找一部分,那么可以在表達式的首尾使用 "^" 和 "$",比如:"^\d+$" 要求整個字符串只有數(shù)字。

4.3 如果要求匹配的內容是一個完整的單詞,而不會是單詞的一部分,那么在表達式首尾使用 "\b",比如:使用 "\b(if|while|else|void|int……)\b" 來匹配程序中的關鍵字。

4.4 表達式不要匹配空字符串。否則會一直得到匹配成功,而結果什么都沒有匹配到。比如:準備寫一個匹配 "123"、"123."、"123.5"、".5" 這幾種形式的表達式時,整數(shù)、小數(shù)點、小數(shù)數(shù)字都可以省略,但是不要將表達式寫成:"\d*\.\d*",因為如果什么都沒有,這個表達式也可以匹配成功。更好的寫法是:"\d+\.\d*|\.\d+"。

4.5 能匹配空字符串的子匹配不要循環(huán)無限次。如果括號內的子表達式中的每一部分都可以匹配 0 次,而這個括號整體又可以匹配無限次,那么情況可能比上一條所說的更嚴重,匹配過程中可能死循環(huán)。雖然現(xiàn)在有些正則表達式引擎已經(jīng)通過辦法避免了這種情況出現(xiàn)死循環(huán)了,比如 .NET 的正則表達式,但是我們仍然應該盡量避免出現(xiàn)這種情況。如果我們在寫表達式時遇到了死循環(huán),也可以從這一點入手,查找一下是否是本條所說的原因。

4.6 合理選擇貪婪模式與非貪婪模式,參見話題討論

4.7 或 "|" 的左右兩邊,對某個字符最好只有一邊可以匹配,這樣,不會因為 "|" 兩邊的表達式因為交換位置而有所不同。

==================================================================================================

正則表達式

 

正則表達式 (或 regexes ) 是通用的文本模式匹配的方法。Django URLconfs 允許你 使用任意的正則表達式來做強有力的URL映射,不過通常你實際上可能只需要使用很少的一 部分功能。下面就是一些常用通用模式:

 

3
符號匹配
. (dot)任意字符
\d任意數(shù)字
[A-Z]任意字符, A-Z (大寫)
[a-z]任意字符, a-z (小寫)
[A-Za-z]任意字符, a-z (不區(qū)分大小寫)
+匹配一個或更多 (例如, \d+ 匹配一個或 多個數(shù)字字符)
[^/]+不是/的任意字符
*匹配0個或更多 (例如, \d* 匹配0個 或更多數(shù)字字符)
{1,3}匹配1個到3個(包含)

This module provides regular expression matching operations similar to those found in Perl. Both patterns and strings to be searched can be Unicode strings as well as 8-bit strings.

Regular expressions use the backslash character ('\') to indicate special forms or to allow special characters to be used without invoking their special meaning. This collides with Python’s usage of the same character for the same purpose in string literals; for example, to match a literal backslash, one might have to write '\\\\' as the pattern string, because the regular expression must be \\, and each backslash must be expressed as \\ inside a regular Python string literal.

The solution is to use Python’s raw string notation for regular expression patterns; backslashes are not handled in any special way in a string literal prefixed with 'r'. So r"\n" is a two-character string containing '\' and 'n', while "\n" is a one-character string containing a newline. Usually patterns will be expressed in Python code using this raw string notation.

It is important to note that most regular expression operations are available as module-level functions and RegexObject methods. The functions are shortcuts that don’t require you to compile a regex object first, but miss some fine-tuning parameters.

See also

Mastering Regular Expressions
Book on regular expressions by Jeffrey Friedl, published by O’Reilly. The second edition of the book no longer covers Python at all, but the first edition covered writing good regular expression patterns in great detail.

8.2.1. Regular Expression Syntax

A regular expression (or RE) specifies a set of strings that matches it; the functions in this module let you check if a particular string matches a given regular expression (or if a given regular expression matches a particular string, which comes down to the same thing).

Regular expressions can be concatenated to form new regular expressions; if A and B are both regular expressions, then AB is also a regular expression. In general, if a string p matches A and another string q matches B, the string pq will match AB. This holds unless A or B contain low precedence operations; boundary conditions between A and B; or have numbered group references. Thus, complex expressions can easily be constructed from simpler primitive expressions like the ones described here. For details of the theory and implementation of regular expressions, consult the Friedl book referenced above, or almost any textbook about compiler construction.

A brief explanation of the format of regular expressions follows. For further information and a gentler presentation, consult the Regular Expression HOWTO.

Regular expressions can contain both special and ordinary characters. Most ordinary characters, like 'A''a', or '0', are the simplest regular expressions; they simply match themselves. You can concatenate ordinary characters, so last matches the string 'last'. (In the rest of this section, we’ll write RE’s in this special style, usually without quotes, and strings to be matched 'in single quotes'.)

Some characters, like '|' or '(', are special. Special characters either stand for classes of ordinary characters, or affect how the regular expressions around them are interpreted. Regular expression pattern strings may not contain null bytes, but can specify the null byte using the\number notation, e.g., '\x00'.

The special characters are:

'.'
(Dot.) In the default mode, this matches any character except a newline. If the DOTALL flag has been specified, this matches any character including a newline.
'^'
(Caret.) Matches the start of the string, and in MULTILINE mode also matches immediately after each newline.
'$'
Matches the end of the string or just before the newline at the end of the string, and in MULTILINE mode also matches before a newline. foomatches both ‘foo’ and ‘foobar’, while the regular expression foo$ matches only ‘foo’. More interestingly, searching for foo.$ in'foo1\nfoo2\n' matches ‘foo2’ normally, but ‘foo1’ in MULTILINE mode; searching for a single $ in 'foo\n' will find two (empty) matches: one just before the newline, and one at the end of the string.
'*'
Causes the resulting RE to match 0 or more repetitions of the preceding RE, as many repetitions as are possible. ab* will match ‘a’, ‘ab’, or ‘a’ followed by any number of ‘b’s.
'+'
Causes the resulting RE to match 1 or more repetitions of the preceding RE. ab+ will match ‘a’ followed by any non-zero number of ‘b’s; it will not match just ‘a’.
'?'
Causes the resulting RE to match 0 or 1 repetitions of the preceding RE. ab? will match either ‘a’ or ‘ab’.
*?+?
The '*''+', and '?' qualifiers are all greedy; they match as much text as possible. Sometimes this behaviour isn’t desired; if the RE <.*> is matched against '<H1>title</H1>', it will match the entire string, and not just '<H1>'. Adding '?' after the qualifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using .*? in the previous expression will match only'<H1>'.
{m}
Specifies that exactly m copies of the previous RE should be matched; fewer matches cause the entire RE not to match. For example, a{6}will match exactly six 'a' characters, but not five.
{m,n}
Causes the resulting RE to match from m to n repetitions of the preceding RE, attempting to match as many repetitions as possible. For example, a{3,5} will match from 3 to 5 'a' characters. Omitting m specifies a lower bound of zero, and omitting n specifies an infinite upper bound. As an example, a{4,}b will match aaaab or a thousand 'a' characters followed by a b, but not aaab. The comma may not be omitted or the modifier would be confused with the previously described form.
{m,n}?
Causes the resulting RE to match from m to n repetitions of the preceding RE, attempting to match as few repetitions as possible. This is the non-greedy version of the previous qualifier. For example, on the 6-character string 'aaaaaa'a{3,5} will match 5 'a' characters, whilea{3,5}? will only match 3 characters.
'\'

Either escapes special characters (permitting you to match characters like '*''?', and so forth), or signals a special sequence; special sequences are discussed below.

If you’re not using a raw string to express the pattern, remember that Python also uses the backslash as an escape sequence in string literals; if the escape sequence isn’t recognized by Python’s parser, the backslash and subsequent character are included in the resulting string. However, if Python would recognize the resulting sequence, the backslash should be repeated twice. This is complicated and hard to understand, so it’s highly recommended that you use raw strings for all but the simplest expressions.

[]

Used to indicate a set of characters. Characters can be listed individually, or a range of characters can be indicated by giving two characters and separating them by a '-'. Special characters are not active inside sets. For example, [akm$] will match any of the characters 'a''k','m', or '$'[a-z] will match any lowercase letter, and [a-zA-Z0-9] matches any letter or digit. Character classes such as \w or \S (defined below) are also acceptable inside a range, although the characters they match depends on whether LOCALE or UNICODE mode is in force. If you want to include a ']' or a '-' inside a set, precede it with a backslash, or place it as the first character. The pattern []] will match ']', for example.

You can match the characters not within a range by complementing the set. This is indicated by including a '^' as the first character of the set; '^' elsewhere will simply match the '^' character. For example, [^5] will match any character except '5', and [^^] will match any character except '^'.

Note that inside [] the special forms and special characters lose their meanings and only the syntaxes described here are valid. For example, +*(), and so on are treated as literals inside [], and backreferences cannot be used inside [].

'|'
A|B, where A and B can be arbitrary REs, creates a regular expression that will match either A or B. An arbitrary number of REs can be separated by the '|' in this way. This can be used inside groups (see below) as well. As the target string is scanned, REs separated by '|'are tried from left to right. When one pattern completely matches, that branch is accepted. This means that once A matches, B will not be tested further, even if it would produce a longer overall match. In other words, the '|' operator is never greedy. To match a literal '|', use \|, or enclose it inside a character class, as in [|].
(...)
Matches whatever regular expression is inside the parentheses, and indicates the start and end of a group; the contents of a group can be retrieved after a match has been performed, and can be matched later in the string with the \number special sequence, described below. To match the literals '(' or ')', use \( or \), or enclose them inside a character class: [(] [)].
(?...)
This is an extension notation (a '?' following a '(' is not meaningful otherwise). The first character after the '?' determines what the meaning and further syntax of the construct is. Extensions usually do not create a new group; (?P<name>...) is the only exception to this rule. Following are the currently supported extensions.
(?iLmsux)

(One or more letters from the set 'i''L''m''s''u''x'.) The group matches the empty string; the letters set the corresponding flags:re.I (ignore case), re.L (locale dependent), re.M (multi-line), re.S (dot matches all), re.U (Unicode dependent), and re.X (verbose), for the entire regular expression. (The flags are described in Module Contents.) This is useful if you wish to include the flags as part of the regular expression, instead of passing a flag argument to the re.compile() function.

Note that the (?x) flag changes how the expression is parsed. It should be used first in the expression string, or after one or more whitespace characters. If there are non-whitespace characters before the flag, the results are undefined.

(?:...)
A non-grouping version of regular parentheses. Matches whatever regular expression is inside the parentheses, but the substring matched by the group cannot be retrieved after performing a match or referenced later in the pattern.
(?P<name>...)

Similar to regular parentheses, but the substring matched by the group is accessible within the rest of the regular expression via the symbolic group name name. Group names must be valid Python identifiers, and each group name must be defined only once within a regular expression. A symbolic group is also a numbered group, just as if the group were not named. So the group named id in the example below can also be referenced as the numbered group 1.

For example, if the pattern is (?P<id>[a-zA-Z_]\w*), the group can be referenced by its name in arguments to methods of match objects, such as m.group('id') or m.end('id'), and also by name in the regular expression itself (using (?P=id)) and replacement text given to .sub() (using\g<id>).

(?P=name)
Matches whatever text was matched by the earlier group named name.
(?#...)
A comment; the contents of the parentheses are simply ignored.
(?=...)
Matches if ... matches next, but doesn’t consume any of the string. This is called a lookahead assertion. For example, Isaac (?=Asimov) will match 'Isaac ' only if it’s followed by 'Asimov'.
(?!...)
Matches if ... doesn’t match next. This is a negative lookahead assertion. For example, Isaac (?!Asimov) will match 'Isaac ' only if it’s notfollowed by 'Asimov'.
(?<=...)

Matches if the current position in the string is preceded by a match for ... that ends at the current position. This is called a positive lookbehind assertion(?<=abc)def will find a match in abcdef, since the lookbehind will back up 3 characters and check if the contained pattern matches. The contained pattern must only match strings of some fixed length, meaning that abc or a|b are allowed, but a* and a{3,4}are not. Note that patterns which start with positive lookbehind assertions will never match at the beginning of the string being searched; you will most likely want to use the search() function rather than the match() function:

>>> import re
>>> m = re.search('(?<=abc)def', 'abcdef')
>>> m.group(0)
'def'

This example looks for a word following a hyphen:

>>> m = re.search('(?<=-)\w+', 'spam-egg')
>>> m.group(0)
'egg'
(?<!...)
Matches if the current position in the string is not preceded by a match for .... This is called a negative lookbehind assertion. Similar to positive lookbehind assertions, the contained pattern must only match strings of some fixed length. Patterns which start with negative lookbehind assertions may match at the beginning of the string being searched.
(?(id/name)yes-pattern|no-pattern)

Will try to match with yes-pattern if the group with given id or name exists, and with no-pattern if it doesn’t. no-pattern is optional and can be omitted. For example, (<)?(\w+@\w+(?:\.\w+)+)(?(1)>) is a poor email matching pattern, which will match with '<user@host.com>' as well as'user@host.com', but not with '<user@host.com'.

New in version 2.4.

The special sequences consist of '\' and a character from the list below. If the ordinary character is not on the list, then the resulting RE will match the second character. For example, \$ matches the character '$'.

\number
Matches the contents of the group of the same number. Groups are numbered starting from 1. For example, (.+) \1 matches 'the the' or'55 55', but not 'the end' (note the space after the group). This special sequence can only be used to match one of the first 99 groups. If the first digit of number is 0, or number is 3 octal digits long, it will not be interpreted as a group match, but as the character with octal valuenumber. Inside the '[' and ']' of a character class, all numeric escapes are treated as characters.
\A
Matches only at the start of the string.
\b
Matches the empty string, but only at the beginning or end of a word. A word is defined as a sequence of alphanumeric or underscore characters, so the end of a word is indicated by whitespace or a non-alphanumeric, non-underscore character. Note that \b is defined as the boundary between \w and \ W, so the precise set of characters deemed to be alphanumeric depends on the values of the UNICODE and LOCALEflags. Inside a character range, \b represents the backspace character, for compatibility with Python’s string literals.
\B
Matches the empty string, but only when it is not at the beginning or end of a word. This is just the opposite of \b, so is also subject to the settings of LOCALE and UNICODE.
\d
When the UNICODE flag is not specified, matches any decimal digit; this is equivalent to the set [0-9]. With UNICODE, it will match whatever is classified as a digit in the Unicode character properties database.
\D
When the UNICODE flag is not specified, matches any non-digit character; this is equivalent to the set [^0-9]. With UNICODE, it will match anything other than character marked as digits in the Unicode character properties database.
\s
When the LOCALE and UNICODE flags are not specified, matches any whitespace character; this is equivalent to the set [ \t\n\r\f\v]. WithLOCALE, it will match this set plus whatever characters are defined as space for the current locale. If UNICODE is set, this will match the characters [ \t\n\r\f\v] plus whatever is classified as space in the Unicode character properties database.
\S
When the LOCALE and UNICODE flags are not specified, matches any non-whitespace character; this is equivalent to the set [^ \t\n\r\f\v] WithLOCALE, it will match any character not in this set, and not defined as space in the current locale. If UNICODE is set, this will match anything other than [ \t\n\r\f\v] and characters marked as space in the Unicode character properties database.
\w
When the LOCALE and UNICODE flags are not specified, matches any alphanumeric character and the underscore; this is equivalent to the set[a-zA-Z0-9_]. With LOCALE, it will match the set [0-9_] plus whatever characters are defined as alphanumeric for the current locale. If UNICODE is set, this will match the characters [0-9_] plus whatever is classified as alphanumeric in the Unicode character properties database.
\W
When the LOCALE and UNICODE flags are not specified, matches any non-alphanumeric character; this is equivalent to the set [^a-zA-Z0-9_]. With LOCALE, it will match any character not in the set [0-9_], and not defined as alphanumeric for the current locale. If UNICODE is set, this will match anything other than [0-9_] and characters marked as alphanumeric in the Unicode character properties database.
\Z
Matches only at the end of the string.

Most of the standard escapes supported by Python string literals are also accepted by the regular expression parser:

\a      \b      \f      \n
\r      \t      \v      \x
\\

Octal escapes are included in a limited form: If the first digit is a 0, or if there are three octal digits, it is considered an octal escape. Otherwise, it is a group reference. As for string literals, octal escapes are always at most three digits in length.

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
「黑知識」分享幾個 Python 編程小技巧,你還知道那些?歡迎補充
Python3 格式化字符串
Python常用模塊資料
Python截圖文字識別工具
PEP8中文翻譯(轉)
Python入門教程之字符串編碼知識小結
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服