欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Java UrlRewriter伪静态技术运用深入分析

程序员文章站 2023-11-05 22:09:28
通常我们为了更好的缓解服务器压力,和增强搜索引擎的友好面,都将文章内容生成静态页面。 但是有时为了能实时的显示一些信息,或者还想运用动态脚本解决一些问题,不能用静态的方式来...
通常我们为了更好的缓解服务器压力,和增强搜索引擎的友好面,都将文章内容生成静态页面。
但是有时为了能实时的显示一些信息,或者还想运用动态脚本解决一些问题,不能用静态的方式来展示网站内容,必须用到动态页面显示。

这样以来,就损失了对搜索引擎的友好面,怎么样在两者之间找个中间方法呢,如何增强你网站中地址的可读性和让搜索引擎快速的收录到你的站点?

这就需要你美化你的网页的地址,这就产生了伪静态技术,也就是我们常说的url rewriter重写技术。就是当我们访问一个页面时,地址栏中展示出来的是以“.html”为结尾的静态页面形式,而实际上我们访问的动态网页。这里就需要用到urlrewriter技术。

大家熟悉的可能有很多服务器都提供url重写的技术,以前我们用的最多的就是apache,jboss这样一些服务器自带的一些url重写,但是他们的配置比较麻烦,性能又不是太好。现在我们有专一的开源框架来完成url重写任务,今天我要介绍的就是urlrewritefilter,它使用起来比较简单。urlrewritefilter是一个用于改写url的web过滤器,类似于apache的mod_rewrite。适用于任何web应用服务器(如resin,orion,tomcat等)。其典型应用就把动态url静态化,便于搜索引擎爬虫抓取你的动态网页。
我们先简单的了解一下使用url重写能给你网站带来哪些好处。

第一:有利于搜索引擎的抓取,因为现在大部分的搜索引擎对动态页面的抓取还比较弱,它们更喜欢抓取一些静态的页面。而我们现在的页面大部分的数据都是动态的显示的。这就需要我们把动态页面变成静态的页面,有利于搜索引擎的抓取。

第二:让用户更容易理解,很少有用户去关心你网站的页面的地址,但对一般的大中型网站增强可读性还是必须的。这样会让你的网站更加完美。

第三:隐藏技术的实现,我们可以通过url重写可以实现技术的隐藏。不至于暴露你所采用的技术,给一些想攻击你网站的爱好者提供方便。

第四:可以很方便的重用,提高网站的移植性。如果我们后台方法改动的话,可以保证前台的页面部分不用改。这样就提高了网站的移植性。

它虽然有这么多的优点,但是也有一点缺点的,因为它是通过过滤器原理来实现的,就以为着又多了一道访问,会多少影响点访问速度的,这个可以忽略不计的。
现在urlrewriter技术有两个技术平台的,一个就是在java方向的,另一个就是.net方向的。今天我们讲的是java方向的应用。

首先让我们了解它的工作原理,说白了它就是一个简单的过滤器(filter),看看源码你就会很快的明白,它就是通过我们在jsp中常用的两个方法实现的forward(),sendredirect()。
下面我们就url重写技术进行简单应用:
第一步:下载urlrewrite-3.2.0beta.jar包,并把urlrewrite-3.2.0beta.jar拷到classpath下。
第二步:在web-inf目录下建一个urlrewrite.xml配置文件。
第三步:在web.xml配置文件中初始化配置urlrewritefilter。在配置文件中加上下面的代码:
复制代码 代码如下:

<!-- 在配置文件中设置 url rewrite-->
<filter></filter>
<filter-name></filter-name>urlrewritefilter
<filter-class></filter-class>
org.tuckey.web.filters.urlrewrite.urlrewritefilter
<filter-mapping></filter-mapping>
<filter-name></filter-name>urlrewritefilter
<url-pattern></url-pattern>/*
<dispatcher></dispatcher>request
<dispatcher></dispatcher>forward

最后我要简单的讲一下常用的两个配置规则,以下就是简单的urlrewrite.xml配置片段。不要习惯java的命名法把它写成urlrewrite.xml,这样即使你加上
复制代码 代码如下:

<init-param></init-param>
<param-name></param-name>confpath
<param-value></param-value>/web-inf/urlrewrite.xml
在启动的服务器的时候还是会报错的,因为源码中必须是全小写的(urlrewrite.xml)且只能放到web-inf下面。
<!--l version="1.0" encoding="utf-8-->
<urlrewrite></urlrewrite>
<!-- 显示主题帖 -->
<rule></rule>
<from></from>^/forum/thread/([0-9]+).html$
<to type="forward"></to>/forum/list.action?id=$1
<rule></rule>
<from></from>^/forum/thread/([0-9]+).html?page=([0-9]+)$
<to type="forward"></to>/forum/list.action?id=$1&page=$2

所有的规则配置都写在这里。第一个常用个规则就是站内的简单重写。
<rule>
<from></from>
<to type="forward></to>
</rule>
<from></from>
写上你自己定义的访问地址,通常采用正则表达式的写法;<to type="forward></to>就是实际的访问地址。比如我们实际的访问地址是: http://www.phome.asia/forum/list.action?id=16931&page=2而我们想把它重写为http://www.phome.asia/forum/thread/16931.html?page=2。这样看起来比我们实际的要好看的多。我们就应该这样的写:
复制代码 代码如下:

<rule></rule>
<from></from>^/forum/thread/([0-9]+).html?page=([0-9]+)$
<to type="forward"></to>/forum/list.action?id=$1&page=$2

简单的介绍一下常用的正规表示式
代码说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
常用的&要用 &来表示。$1,$2代表与你配置正规表达式>/(\w+)/(\w+)/相对应的参数。<to type="forward">默认的是 type="forward"。
另一个常用的规则就是连接外部的网站。就要用到<to type="redirect">。
复制代码 代码如下:

<rule></rule>
<from></from>^/rss/yahoo\.html$
<to type="redirect"></to> http://add.my.yahoo.com/rss? url= http://feed.feedsky.com/ mysitefeed