Latest web development tutorials

Java 正則表達式

正則表達式定義了字符串的模式。

正則表達式可以用來搜索、編輯或處理文本。

正則表達式並不僅限於某一種語言,但是在每種語言中有細微的差別。

Java正則表達式和Perl的是最為相似的。

java.util.regex包主要包括以下三個類:

  • Pattern類:

    pattern對像是一個正則表達式的編譯表示。 Pattern類沒有公共構造方法。 要創建一個Pattern對象,你必須首先調用其公共靜態編譯方法,它返回一個Pattern對象。 該方法接受一個正則表達式作為它的第一個參數。

  • Matcher類:

    Matcher對像是對輸入字符串進行解釋和匹配操作的引擎。 與Pattern類一樣,Matcher也沒有公共構造方法。 你需要調用Pattern對象的matcher方法來獲得一個Matcher對象。

  • PatternSyntaxException:

    PatternSyntaxException是一個非強制異常類,它表示一個正則表達式模式中的語法錯誤。


捕獲組

捕獲組是把多個字符當一個單獨單元進行處理的方法,它通過對括號內的字符分組來創建。

例如,正則表達式(dog) 創建了單一分組,組裡包含"d","o",和"g"。

捕獲組是通過從左至右計算其開括號來編號。 例如,在表達式((A)(B(C))),有四個這樣的組:

  • ((A)(B(C)))
  • (A)
  • (B(C))
  • (C)

可以通過調用matcher對象的groupCount方法來查看表達式有多少個分組。 groupCount方法返回一個int值,表示matcher對象當前有多個捕獲組。

還有一個特殊的組(組0),它總是代表整個表達式。 該組不包括在groupCount的返回值中。

實例

下面的例子說明如何從一個給定的字符串中找到數字串:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    public static void main( String args[] ){

      // 按指定模式在字符串查找
      String line = "This order was placed for QT3000! OK?";
      String pattern = "(.*)(\\d+)(.*)";

      // 创建 Pattern 对象
      Pattern r = Pattern.compile(pattern);

      // 现在创建 matcher 对象
      Matcher m = r.matcher(line);
      if (m.find( )) {
         System.out.println("Found value: " + m.group(0) );
         System.out.println("Found value: " + m.group(1) );
         System.out.println("Found value: " + m.group(2) );
      } else {
         System.out.println("NO MATCH");
      }
   }
}

以上實例編譯運行結果如下:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

正則表達式語法

字符

說明

\

將下一字符標記為特殊字符、文本、反向引用或八進制轉義符。 例如,"n"匹配字符"n"。 "\n"匹配換行符。 序列"\\"匹配"\","\("匹配"("。

^

匹配輸入字符串開始的位置。 如果設置了RegExp對象的Multiline屬性,^還會與"\n"或"\r"之後的位置匹配。

$

匹配輸入字符串結尾的位置。 如果設置了RegExp對象的Multiline屬性,$還會與"\n"或"\r"之前的位置匹配。

*

零次或多次匹配前面的字符或子表達式。 例如,zo* 匹配"z"和"zoo"。 * 等效於{0,}。

+

一次或多次匹配前面的字符或子表達式。 例如,"zo+"與"zo"和"zoo"匹配,但與"z"不匹配。 + 等效於{1,}。

?

零次或一次匹配前面的字符或子表達式。 例如,"do(es)?"匹配"do"或"does"中的"do"。 ? 等效於{0,1}。

{n}

n是非負整數。 正好匹配n次。 例如,"o{2}"與"Bob"中的"o"不匹配,但與"food"中的兩個"o"匹配。

{ n,}

n是非負整數。 至少匹配n次。 例如,"o{2,}"不匹配"Bob"中的"o",而匹配"foooood"中的所有o。 "o{1,}"等效於"o+"。 "o{0,}"等效於"o*"。

{ n,m}

Mn是非負整數,其中n<=m。 匹配至少n次,至多m次。 例如,"o{1,3}"匹配"fooooood"中的頭三個o。 'o{0,1}' 等效於'o?'。 注意:您不能將空格插入逗號和數字之間。

?

當此字符緊隨任何其他限定符(*、+、?、{n}、{n,}、{n,m})之後時,匹配模式是"非貪心的"。 "非貪心的"模式匹配搜索到的、盡可能短的字符串,而默認的"貪心的"模式匹配搜索到的、盡可能長的字符串。 例如,在字符串"oooo"中,"o+?"只匹配單個"o",而"o+"匹配所有"o"。

.

匹配除"\r\n"之外的任何單個字符。 若要匹配包括"\r\n"在內的任意字符,請使用諸如"[\s\S]"之類的模式。

(pattern)

匹配pattern並捕獲該匹配的子表達式。 可以使用$0…$9屬性從結果"匹配"集合中檢索捕獲的匹配。 若要匹配括號字符( ),請使用"\("或者"\)"。

(?:pattern)

匹配pattern但不捕獲該匹配的子表達式,即它是一個非捕獲匹配,不存儲供以後使用的匹配。 這對於用"or"字符(|) 組合模式部件的情況很有用。 例如,'industr(?:y|ies) 是比'industry|industries' 更經濟的表達式。

(?=pattern)

執行正向預測先行搜索的子表達式,該表達式匹配處於匹配pattern的字符串的起始點的字符串。 它是一個非捕獲匹配,即不能捕獲供以後使用的匹配。 例如,'Windows (?=95|98|NT|2000)' 匹配"Windows 2000"中的"Windows",但不匹配"Windows 3.1"中的"Windows"。 預測先行不佔用字符,即發生匹配後,下一匹配的搜索緊隨上一匹配之後,而不是在組成預測先行的字符後。

(?!pattern)

執行反向預測先行搜索的子表達式,該表達式匹配不處於匹配pattern的字符串的起始點的搜索字符串。 它是一個非捕獲匹配,即不能捕獲供以後使用的匹配。 例如,'Windows (?!95|98|NT|2000)' 匹配"Windows 3.1"中的"Windows",但不匹配"Windows 2000"中的"Windows"。 預測先行不佔用字符,即發生匹配後,下一匹配的搜索緊隨上一匹配之後,而不是在組成預測先行的字符後。

x|y

匹配xy 。 例如,'z|food' 匹配"z"或"food"。 '(z|f)ood' 匹配"zood"或"food"。

[xyz]

字符集。 匹配包含的任一字符。 例如,"[abc]"匹配"plain"中的"a"。

[^xyz]

反向字符集。 匹配未包含的任何字符。 例如,"[^abc]"匹配"plain"中"p","l","i","n"。

[az]

字符範圍。 匹配指定範圍內的任何字符。 例如,"[az]"匹配"a"到"z"範圍內的任何小寫字母。

[^az]

反向范圍字符。 匹配不在指定的範圍內的任何字符。 例如,"[^az]"匹配任何不在"a"到"z"範圍內的任何字符。

\b

匹配一個字邊界,即字與空格間的位置。 例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。

\B

非字邊界匹配。 "er\B"匹配"verb"中的"er",但不匹配"never"中的"er"。

\cx

匹配x指示的控製字符。 例如,\cM 匹配Control-M 或回車符。x的值必須在AZ或az之間。 如果不是這樣,則假定c 就是"c"字符本身。

\d

數字字符匹配。 等效於[0-9]。

\D

非數字字符匹配。 等效於[^0-9]。

\f

換頁符匹配。 等效於\x0c 和\cL。

\n

換行符匹配。 等效於\x0a 和\cJ。

\r

匹配一個回車符。 等效於\x0d 和\cM。

\s

匹配任何空白字符,包括空格、製表符、換頁符等。 與[ \f\n\r\t\v] 等效。

\S

匹配任何非空白字符。 與[^ \f\n\r\t\v] 等效。

\t

製表符匹配。 與\x09 和\cI 等效。

\v

垂直製表符匹配。 與\x0b 和\cK 等效。

\w

匹配任何字類字符,包括下劃線。 與"[A-Za-z0-9_]"等效。

\W

與任何非單詞字符匹配。 與"[^A-Za-z0-9_]"等效。

\x n

匹配n ,此處的n是一個十六進制轉義碼。 十六進制轉義碼必須正好是兩位數長。 例如,"\x41"匹配"A"。 "\x041"與"\x04"&"1"等效。 允許在正則表達式中使用ASCII 代碼。

\num

匹配num ,此處的num是一個正整數。 到捕獲匹配的反向引用。 例如,"(.)\1"匹配兩個連續的相同字符。

\n

標識一個八進制轉義碼或反向引用。 如果\n前面至少有n個捕獲子表達式,那麼n是反向引用。 否則,如果n是八進制數(0-7),那麼n是八進制轉義碼。

\ nm

標識一個八進制轉義碼或反向引用。 如果\nm前面至少有nm個捕獲子表達式,那麼nm是反向引用。 如果\ nm前面至少有n個捕獲,則n是反向引用,後面跟有字符m。 如果兩種前面的情況都不存在,則\nm匹配八進制值nm,其中nm是八進制數字(0-7)。

\ nml

n是八進制數(0-3),ml是八進制數(0-7)時,匹配八進制轉義碼nml

\un

匹配n ,其中n是以四位十六進制數表示的Unicode字符。 例如,\u00A9 匹配版權符號(©)。

Matcher類的方法

索引方法

索引方法提供了有用的索引值,精確表明輸入字符串中在哪能找到匹配:

序號 方法及說明
1 public int start()
返回以前匹配的初始索引。
2 public int start(int group)
返回在以前的匹配操作期間,由給定組所捕獲的子序列的初始索引
3 public int end()
返回最後匹配字符之後的偏移量。
4 public int end(int group)
返回在以前的匹配操作期間,由給定組所捕獲子序列的最後字符之後的偏移量。

研究方法

研究方法用來檢查輸入字符串並返回一個布爾值,表示是否找到該模式:

序號 方法及說明
1 public boolean lookingAt()
嘗試將從區域開頭開始的輸入序列與該模式匹配。
2 public boolean find()
嘗試查找與該模式匹配的輸入序列的下一個子序列。
3 public boolean find(int start
重置此匹配器,然後嘗試查找匹配該模式、從指定索引開始的輸入序列的下一個子序列。
4 public boolean matches()
嘗試將整個區域與模式匹配。

替換方法

替換方法是替換輸入字符串里文本的方法:

序號 方法及說明
1 public Matcher appendReplacement(StringBuffer sb, String replacement)
實現非終端添加和替換步驟。
2 public StringBuffer appendTail(StringBuffer sb)
實現終端添加和替換步驟。
3 public String replaceAll(String replacement)
替換模式與給定替換字符串相匹配的輸入序列的每個子序列。
4 public String replaceFirst(String replacement)
替換模式與給定替換字符串匹配的輸入序列的第一個子序列。
5 public static String quoteReplacement(String s)
返回指定字符串的字面替換字符串。 這個方法返回一個字符串,就像傳遞給Matcher類的appendReplacement 方法一個字面字符串一樣工作。

start 和end 方法

下面是一個對單詞"cat"出現在輸入字符串中出現次數進行計數的例子:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static final String REGEX = "\\bcat\\b";
    private static final String INPUT =
                                    "cat cat cat cattie cat";

    public static void main( String args[] ){
       Pattern p = Pattern.compile(REGEX);
       Matcher m = p.matcher(INPUT); // 获取 matcher 对象
       int count = 0;

       while(m.find()) {
         count++;
         System.out.println("Match number "+count);
         System.out.println("start(): "+m.start());
         System.out.println("end(): "+m.end());
      }
   }
}

以上實例編譯運行結果如下:

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

可以看到這個例子是使用單詞邊界,以確保字母"c" "a" "t" 並非僅是一個較長的詞的子串。 它也提供了一些關於輸入字符串中匹配發生位置的有用信息。

Start方法返回在以前的匹配操作期間,由給定組所捕獲的子序列的初始索引,end方法最後一個匹配字符的索引加1。

matches 和lookingAt 方法

matches 和lookingAt 方法都用來嘗試匹配一個輸入序列模式。 它們的不同是matcher要求整個序列都匹配,而lookingAt 不要求。

這兩個方法經常在輸入字符串的開始使用。

我們通過下面這個例子,來解釋這個功能:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static final String REGEX = "foo";
    private static final String INPUT = "fooooooooooooooooo";
    private static Pattern pattern;
    private static Matcher matcher;

    public static void main( String args[] ){
       pattern = Pattern.compile(REGEX);
       matcher = pattern.matcher(INPUT);

       System.out.println("Current REGEX is: "+REGEX);
       System.out.println("Current INPUT is: "+INPUT);

       System.out.println("lookingAt(): "+matcher.lookingAt());
       System.out.println("matches(): "+matcher.matches());
   }
}

以上實例編譯運行結果如下:

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false

replaceFirst 和replaceAll 方法

replaceFirst 和replaceAll 方法用來替換匹配正則表達式的文本。 不同的是,replaceFirst 替換首次匹配,replaceAll 替換所有匹配。

下面的例子來解釋這個功能:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static String REGEX = "dog";
    private static String INPUT = "The dog says meow. " +
                                    "All dogs say meow.";
    private static String REPLACE = "cat";

    public static void main(String[] args) {
       Pattern p = Pattern.compile(REGEX);
       // get a matcher object
       Matcher m = p.matcher(INPUT); 
       INPUT = m.replaceAll(REPLACE);
       System.out.println(INPUT);
   }
}

以上實例編譯運行結果如下:

The cat says meow. All cats say meow.

appendReplacement 和appendTail 方法

Matcher 類也提供了appendReplacement 和appendTail 方法用於文本替換:

看下面的例子來解釋這個功能:

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
   private static String REGEX = "a*b";
   private static String INPUT = "aabfooaabfooabfoob";
   private static String REPLACE = "-";
   public static void main(String[] args) {
      Pattern p = Pattern.compile(REGEX);
      // 获取 matcher 对象
      Matcher m = p.matcher(INPUT);
      StringBuffer sb = new StringBuffer();
      while(m.find()){
         m.appendReplacement(sb,REPLACE);
      }
      m.appendTail(sb);
      System.out.println(sb.toString());
   }
}

以上實例編譯運行結果如下:

-foo-foo-foo-

PatternSyntaxException 類的方法

PatternSyntaxException 是一個非強制異常類,它指示一個正則表達式模式中的語法錯誤。

PatternSyntaxException 類提供了下面的方法來幫助我們查看發生了什麼錯誤。

序號 方法及說明
1 public String getDescription()
獲取錯誤的描述。
2 public int getIndex()
獲取錯誤的索引。
3 public String getPattern()
獲取錯誤的正則表達式模式。
4 public String getMessage()
返回多行字符串,包含語法錯誤及其索引的描述、錯誤的正則表達式模式和模式中錯誤索引的可視化指示。