Java正则表达式2

eneasy

浏览: 126346 次
性别:
来自: 厦门

最近访客更多访客>>

zebra110

stone_8693

mushuaichao

timolove

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

正则表达式 Java Eclipse HTML

分组(groups)

字符	说明
(X)	将（X）作为一个单元进行匹配
\n	与第n个分组的匹配

(X) 作为一个组合单元,比如，要查询<a href=\"index.html\">index</a>中<a href></a>间的数据，可写作<a.*href=\".*\">(.+?)</a>

可以使用分组来定义子表达式,将分组封装在（）中，如([+-]?)([0-9]+)。然后你可以让模式匹配符（the pattern matcher）返回每个分组的匹配，或者使用\n来回引分组（refer back to a group with \n），其中n是组号，group 0 表示整个表达式，group 1表示第一个被括起来的group，以此类推。所以A(B(C))D 里面有三个group：group 0是ABCD，group 1是BC，group 2是C。

例如，给定模式((1?[0-9]):([0-5][0-9]))[ap]m，并且输入11:59am,Matcher对象报告下列分组如下：

分组索引	起始	结束	字符串
0	0	7	11:59am
1	0	5	11:59
2	0	2	11
3	3	5	59

又如：要从格式为“June 26, 1951”中提取出月份部分june，用来匹配的正则表达式可以是：[a-zA-Z]+\s+[0-9]{1,2},\s*[0-9]{4}，接下来如何提取出june部分呢？只需加上一个圆括号创建一个组,然后用\1提取出它的值，如下：

([a-zA-Z]+)\s+[0-9]{1,2},\s*[0-9]{4}

示例

验证是否为邮箱地址

Pattern pattern = Pattern.compile("[*\\w\\.\\-]+@([\\w\\-]+\\.)+[\\w\\-]+",
Pattern.CASE_INSENSITIVE);

去除html标记

Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);

Matcher matcher = pattern.matcher("<a href=\"index.html\">主页</a>");

String string = matcher.replaceAll("");

查找html中链接字符串

Pattern pattern = Pattern.compile("href=\"(.+?)\"");

截取http://地址

Pattern pattern = Pattern.compile("(http://|https://){1}[\\w\\.\\-/:]+");

匹配<title>XXX</title>中的内容

Pattern p = Pattern.compile("<title>([^<]*)</title>");//匹配<title>开头，</title>结尾的文档

Matcher m = p.matcher(html );//开始编译,html 为要匹配的文本

while (m.find())

{

list.add(m.group(1));//获取被匹配的部分

}

从下列格式的日志中提取IP和时间

192.168.16.233 --- [26/Feb/2004:10:10:03 -0500]

“get /index.html http/1.0” 200 15

IP部分：\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}

日志部分：\[[^]]+\]，说明：\[匹配开始[符号,[^]]+匹配]之前的所有字符，\]匹配结束]符号。

现在，把上述两个正则表达式加上分组符号（圆括号）后合并成单个表达式，这样就可以从日志记录提取出IP地址和时间。注意，为了匹配“- -”（但不提取它），正则表达式中间加入了“ \s?\-\-\-\s?”。完整的正则表达式为：

(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s?\-\-\-\s?(\[[^]]+\])

Eclipse中Html替换

要将.html中所有如下格式的字符串：

替换成如下的格式：

也就是添加一个name=""的字符串，“”中的内容跟${}中的内容是一样的。

方法：使用eclipse的find/replace操作中使用正则表达式。

Find: value=\".*\$\{(.*)\}\"

Replace: value=\"\$\{\1\}\" name=\"\1\"

替换“”中的内容

要把如下文件中的“”中的内容替换掉。

答案：

Pattern p=Pattern.compile(" java-class=([^>]+)>");

//[^>]+匹配>之前的所有字符。

Html链接替换2

要将.htm文件中所有如<a href=”*http://www.myweb.com/index.html”> </a>中的 *http://www.myweb.com替换成http://www.sina.comc.cn.

匹配：<\s*a \s+ href\s*=\s*”* http://www.myweb.com/([^”]+)”>

替换：<a href=”*http://www.sina.com.cn/(\1)”>

说明：通过\1来取得()中的内容。

处理方法同Eclipse中Html替换.

Html<font>元素解析

分析HTML页面内FONT标记的所有属性。例如FONT标记如下所示:

程序将按照如下形式，输出每一个FONT标记的属性:

face=Arial,serif
size=+2
color=red

答案：

1.先从<font>中提取属性值,如:face="Arial,serif" size="+2" color="red"

匹配：<\s*font\s*([^>]*)\s*>，通过\1取得匹配值。

2.将提取字符串分解成键值对,使用如下正则表达式：

匹配：([a-z]+)\s*=\s*"([^"]+)"，通过\1取得键,\2取得值。

lxm整理，只为知识共享之用，所有内容均来自网络，内容归所有者。

2009.04.16

分享到：

Ubuntu安装软件（使用本地源） | 事件驱动的过程链方法(EPCs)

2009-04-16 23:49
浏览 1905
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论