Java 正則表達式

上一頁： Java日期時間

下一頁： Java方法

正則表達式定義了字符串的模式。

正則表達式可以用來搜索、編輯或處理文本。

正則表達式並不僅限於某一種語言，但是在每種語言中有細微的差別。

Java正則表達式和Perl的是最為相似的。

java.util.regex包主要包括以下三個類：

Pattern類：
pattern對像是一個正則表達式的編譯表示。 Pattern類沒有公共構造方法。要創建一個Pattern對象，你必須首先調用其公共靜態編譯方法，它返回一個Pattern對象。該方法接受一個正則表達式作為它的第一個參數。
Matcher類：
Matcher對像是對輸入字符串進行解釋和匹配操作的引擎。與Pattern類一樣，Matcher也沒有公共構造方法。你需要調用Pattern對象的matcher方法來獲得一個Matcher對象。
PatternSyntaxException：
PatternSyntaxException是一個非強制異常類，它表示一個正則表達式模式中的語法錯誤。

捕獲組

捕獲組是把多個字符當一個單獨單元進行處理的方法，它通過對括號內的字符分組來創建。

例如，正則表達式(dog) 創建了單一分組，組裡包含"d"，"o"，和"g"。

捕獲組是通過從左至右計算其開括號來編號。例如，在表達式（（A）（B（C））），有四個這樣的組：

((A)(B(C)))
(A)
(B(C))
(C)

可以通過調用matcher對象的groupCount方法來查看表達式有多少個分組。 groupCount方法返回一個int值，表示matcher對象當前有多個捕獲組。

還有一個特殊的組（組0），它總是代表整個表達式。該組不包括在groupCount的返回值中。

實例

下面的例子說明如何從一個給定的字符串中找到數字串：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    public static void main( String args[] ){

      // 按指定模式在字符串查找
      String line = "This order was placed for QT3000! OK?";
      String pattern = "(.*)(\\d+)(.*)";

      // 创建 Pattern 对象
      Pattern r = Pattern.compile(pattern);

      // 现在创建 matcher 对象
      Matcher m = r.matcher(line);
      if (m.find( )) {
         System.out.println("Found value: " + m.group(0) );
         System.out.println("Found value: " + m.group(1) );
         System.out.println("Found value: " + m.group(2) );
      } else {
         System.out.println("NO MATCH");
      }
   }
}

以上實例編譯運行結果如下：

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

正則表達式語法

字符	說明
\	將下一字符標記為特殊字符、文本、反向引用或八進制轉義符。例如，"n"匹配字符"n"。 "\n"匹配換行符。序列"\\"匹配"\"，"\("匹配"("。
^	匹配輸入字符串開始的位置。如果設置了RegExp對象的Multiline屬性，^還會與"\n"或"\r"之後的位置匹配。
$	匹配輸入字符串結尾的位置。如果設置了RegExp對象的Multiline屬性，$還會與"\n"或"\r"之前的位置匹配。
*	零次或多次匹配前面的字符或子表達式。例如，zo* 匹配"z"和"zoo"。 * 等效於{0,}。
+	一次或多次匹配前面的字符或子表達式。例如，"zo+"與"zo"和"zoo"匹配，但與"z"不匹配。 + 等效於{1,}。
?	零次或一次匹配前面的字符或子表達式。例如，"do(es)?"匹配"do"或"does"中的"do"。 ? 等效於{0,1}。
{n}	n是非負整數。正好匹配n次。例如，"o{2}"與"Bob"中的"o"不匹配，但與"food"中的兩個"o"匹配。
{ n,}	n是非負整數。至少匹配n次。例如，"o{2,}"不匹配"Bob"中的"o"，而匹配"foooood"中的所有o。 "o{1,}"等效於"o+"。 "o{0,}"等效於"o*"。
{ n,m}	M和n是非負整數，其中n<=m。匹配至少n次，至多m次。例如，"o{1,3}"匹配"fooooood"中的頭三個o。 'o{0,1}' 等效於'o?'。注意：您不能將空格插入逗號和數字之間。
?	當此字符緊隨任何其他限定符（*、+、?、{n}、{n,}、{n,m}）之後時，匹配模式是"非貪心的"。 "非貪心的"模式匹配搜索到的、盡可能短的字符串，而默認的"貪心的"模式匹配搜索到的、盡可能長的字符串。例如，在字符串"oooo"中，"o+?"只匹配單個"o"，而"o+"匹配所有"o"。
.	匹配除"\r\n"之外的任何單個字符。若要匹配包括"\r\n"在內的任意字符，請使用諸如"[\s\S]"之類的模式。
(pattern)	匹配pattern並捕獲該匹配的子表達式。可以使用$0…$9屬性從結果"匹配"集合中檢索捕獲的匹配。若要匹配括號字符( )，請使用"$"或者"$"。
(?:pattern)	匹配pattern但不捕獲該匹配的子表達式，即它是一個非捕獲匹配，不存儲供以後使用的匹配。這對於用"or"字符(\|) 組合模式部件的情況很有用。例如，'industr(?:y\|ies) 是比'industry\|industries' 更經濟的表達式。
(?=pattern)	執行正向預測先行搜索的子表達式，該表達式匹配處於匹配pattern的字符串的起始點的字符串。它是一個非捕獲匹配，即不能捕獲供以後使用的匹配。例如，'Windows (?=95\|98\|NT\|2000)' 匹配"Windows 2000"中的"Windows"，但不匹配"Windows 3.1"中的"Windows"。預測先行不佔用字符，即發生匹配後，下一匹配的搜索緊隨上一匹配之後，而不是在組成預測先行的字符後。
(?!pattern)	執行反向預測先行搜索的子表達式，該表達式匹配不處於匹配pattern的字符串的起始點的搜索字符串。它是一個非捕獲匹配，即不能捕獲供以後使用的匹配。例如，'Windows (?!95\|98\|NT\|2000)' 匹配"Windows 3.1"中的"Windows"，但不匹配"Windows 2000"中的"Windows"。預測先行不佔用字符，即發生匹配後，下一匹配的搜索緊隨上一匹配之後，而不是在組成預測先行的字符後。
x\|y	匹配x或y 。例如，'z\|food' 匹配"z"或"food"。 '(z\|f)ood' 匹配"zood"或"food"。
[xyz]	字符集。匹配包含的任一字符。例如，"[abc]"匹配"plain"中的"a"。
[^xyz]	反向字符集。匹配未包含的任何字符。例如，"[^abc]"匹配"plain"中"p"，"l"，"i"，"n"。
[az]	字符範圍。匹配指定範圍內的任何字符。例如，"[az]"匹配"a"到"z"範圍內的任何小寫字母。
[^az]	反向范圍字符。匹配不在指定的範圍內的任何字符。例如，"[^az]"匹配任何不在"a"到"z"範圍內的任何字符。
\b	匹配一個字邊界，即字與空格間的位置。例如，"er\b"匹配"never"中的"er"，但不匹配"verb"中的"er"。
\B	非字邊界匹配。 "er\B"匹配"verb"中的"er"，但不匹配"never"中的"er"。
\cx	匹配x指示的控製字符。例如，\cM 匹配Control-M 或回車符。x的值必須在AZ或az之間。如果不是這樣，則假定c 就是"c"字符本身。
\d	數字字符匹配。等效於[0-9]。
\D	非數字字符匹配。等效於[^0-9]。
\f	換頁符匹配。等效於\x0c 和\cL。
\n	換行符匹配。等效於\x0a 和\cJ。
\r	匹配一個回車符。等效於\x0d 和\cM。
\s	匹配任何空白字符，包括空格、製表符、換頁符等。與[ \f\n\r\t\v] 等效。
\S	匹配任何非空白字符。與[^ \f\n\r\t\v] 等效。
\t	製表符匹配。與\x09 和\cI 等效。
\v	垂直製表符匹配。與\x0b 和\cK 等效。
\w	匹配任何字類字符，包括下劃線。與"[A-Za-z0-9_]"等效。
\W	與任何非單詞字符匹配。與"[^A-Za-z0-9_]"等效。
\x n	匹配n ，此處的n是一個十六進制轉義碼。十六進制轉義碼必須正好是兩位數長。例如，"\x41"匹配"A"。 "\x041"與"\x04"&"1"等效。允許在正則表達式中使用ASCII 代碼。
\num	匹配num ，此處的num是一個正整數。到捕獲匹配的反向引用。例如，"(.)\1"匹配兩個連續的相同字符。
\n	標識一個八進制轉義碼或反向引用。如果\n前面至少有n個捕獲子表達式，那麼n是反向引用。否則，如果n是八進制數(0-7)，那麼n是八進制轉義碼。
\ nm	標識一個八進制轉義碼或反向引用。如果\nm前面至少有nm個捕獲子表達式，那麼nm是反向引用。如果\ nm前面至少有n個捕獲，則n是反向引用，後面跟有字符m。如果兩種前面的情況都不存在，則\nm匹配八進制值nm，其中n和m是八進制數字(0-7)。
\ nml	當n是八進制數(0-3)，m和l是八進制數(0-7)時，匹配八進制轉義碼nml。
\un	匹配n ，其中n是以四位十六進制數表示的Unicode字符。例如，\u00A9 匹配版權符號(©)。

Matcher類的方法

索引方法

索引方法提供了有用的索引值，精確表明輸入字符串中在哪能找到匹配：

序號	方法及說明
1	public int start() 返回以前匹配的初始索引。
2	public int start(int group) 返回在以前的匹配操作期間，由給定組所捕獲的子序列的初始索引
3	public int end() 返回最後匹配字符之後的偏移量。
4	public int end(int group) 返回在以前的匹配操作期間，由給定組所捕獲子序列的最後字符之後的偏移量。

研究方法

研究方法用來檢查輸入字符串並返回一個布爾值，表示是否找到該模式：

序號	方法及說明
1	public boolean lookingAt() 嘗試將從區域開頭開始的輸入序列與該模式匹配。
2	public boolean find() 嘗試查找與該模式匹配的輸入序列的下一個子序列。
3	public boolean find(int start ）重置此匹配器，然後嘗試查找匹配該模式、從指定索引開始的輸入序列的下一個子序列。
4	public boolean matches() 嘗試將整個區域與模式匹配。

替換方法

替換方法是替換輸入字符串里文本的方法：

序號	方法及說明
1	public Matcher appendReplacement(StringBuffer sb, String replacement) 實現非終端添加和替換步驟。
2	public StringBuffer appendTail(StringBuffer sb) 實現終端添加和替換步驟。
3	public String replaceAll(String replacement) 替換模式與給定替換字符串相匹配的輸入序列的每個子序列。
4	public String replaceFirst(String replacement) 替換模式與給定替換字符串匹配的輸入序列的第一個子序列。
5	public static String quoteReplacement(String s) 返回指定字符串的字面替換字符串。這個方法返回一個字符串，就像傳遞給Matcher類的appendReplacement 方法一個字面字符串一樣工作。

start 和end 方法

下面是一個對單詞"cat"出現在輸入字符串中出現次數進行計數的例子：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static final String REGEX = "\\bcat\\b";
    private static final String INPUT =
                                    "cat cat cat cattie cat";

    public static void main( String args[] ){
       Pattern p = Pattern.compile(REGEX);
       Matcher m = p.matcher(INPUT); // 获取 matcher 对象
       int count = 0;

       while(m.find()) {
         count++;
         System.out.println("Match number "+count);
         System.out.println("start(): "+m.start());
         System.out.println("end(): "+m.end());
      }
   }
}

以上實例編譯運行結果如下：

Match number 1
start(): 0
end(): 3
Match number 2
start(): 4
end(): 7
Match number 3
start(): 8
end(): 11
Match number 4
start(): 19
end(): 22

可以看到這個例子是使用單詞邊界，以確保字母"c" "a" "t" 並非僅是一個較長的詞的子串。它也提供了一些關於輸入字符串中匹配發生位置的有用信息。

Start方法返回在以前的匹配操作期間，由給定組所捕獲的子序列的初始索引，end方法最後一個匹配字符的索引加1。

matches 和lookingAt 方法

matches 和lookingAt 方法都用來嘗試匹配一個輸入序列模式。它們的不同是matcher要求整個序列都匹配，而lookingAt 不要求。

這兩個方法經常在輸入字符串的開始使用。

我們通過下面這個例子，來解釋這個功能：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static final String REGEX = "foo";
    private static final String INPUT = "fooooooooooooooooo";
    private static Pattern pattern;
    private static Matcher matcher;

    public static void main( String args[] ){
       pattern = Pattern.compile(REGEX);
       matcher = pattern.matcher(INPUT);

       System.out.println("Current REGEX is: "+REGEX);
       System.out.println("Current INPUT is: "+INPUT);

       System.out.println("lookingAt(): "+matcher.lookingAt());
       System.out.println("matches(): "+matcher.matches());
   }
}

以上實例編譯運行結果如下：

Current REGEX is: foo
Current INPUT is: fooooooooooooooooo
lookingAt(): true
matches(): false

replaceFirst 和replaceAll 方法

replaceFirst 和replaceAll 方法用來替換匹配正則表達式的文本。不同的是，replaceFirst 替換首次匹配，replaceAll 替換所有匹配。

下面的例子來解釋這個功能：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
    private static String REGEX = "dog";
    private static String INPUT = "The dog says meow. " +
                                    "All dogs say meow.";
    private static String REPLACE = "cat";

    public static void main(String[] args) {
       Pattern p = Pattern.compile(REGEX);
       // get a matcher object
       Matcher m = p.matcher(INPUT); 
       INPUT = m.replaceAll(REPLACE);
       System.out.println(INPUT);
   }
}

以上實例編譯運行結果如下：

The cat says meow. All cats say meow.

appendReplacement 和appendTail 方法

Matcher 類也提供了appendReplacement 和appendTail 方法用於文本替換：

看下面的例子來解釋這個功能：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexMatches
{
   private static String REGEX = "a*b";
   private static String INPUT = "aabfooaabfooabfoob";
   private static String REPLACE = "-";
   public static void main(String[] args) {
      Pattern p = Pattern.compile(REGEX);
      // 获取 matcher 对象
      Matcher m = p.matcher(INPUT);
      StringBuffer sb = new StringBuffer();
      while(m.find()){
         m.appendReplacement(sb,REPLACE);
      }
      m.appendTail(sb);
      System.out.println(sb.toString());
   }
}

以上實例編譯運行結果如下：

-foo-foo-foo-

PatternSyntaxException 類的方法

PatternSyntaxException 是一個非強制異常類，它指示一個正則表達式模式中的語法錯誤。

PatternSyntaxException 類提供了下面的方法來幫助我們查看發生了什麼錯誤。

序號	方法及說明
1	public String getDescription() 獲取錯誤的描述。
2	public int getIndex() 獲取錯誤的索引。
3	public String getPattern() 獲取錯誤的正則表達式模式。
4	public String getMessage() 返回多行字符串，包含語法錯誤及其索引的描述、錯誤的正則表達式模式和模式中錯誤索引的可視化指示。

上一頁： Java日期時間

下一頁： Java方法

Java 教程

Java 面向對象

Java 高級教程

Java 正則表達式

捕獲組

實例

正則表達式語法

Matcher類的方法

索引方法

研究方法

替換方法

start 和end 方法

matches 和lookingAt 方法

replaceFirst 和replaceAll 方法

appendReplacement 和appendTail 方法

PatternSyntaxException 類的方法