4.1 URL简介
URL相当于页面的地址,也称统一资源定位符(URL,英语Uniform Resource Locator的缩写),是因特网上标准资源的地址。它最初是由蒂姆·伯纳斯-李发明用来作为万维网的地址的。用户或搜索引擎都必须通过URL才能访问相应的页面,所以对网站内部的优化也是从URL开始的。
在因特网的历史上,统一资源定位符的发明是一个非常基础的步骤。统一资源定位符的语法是一般的,可扩展的,它使用ASCII代码的一部分来表示因特网的地址。统一资源定位符的开始,一般会标志着一个计算机网络所使用的网络协议。
统一资源定位符是统一资源标志符的一个“变种”。统一资源标志符确定一个资源,而统一资源定位符不但确定一个资源,而且还表示出它在哪里,如图4-1所示。
图4-1 统一资源定位符
4.1.1 定位符语法
协议://授权/路径?查询
授权部分一般是服务器的名称或IP地址,有时后面还跟一个冒号和一个端口号。它也可以包含接触服务器必须的用户名称和密码。路径部分包含等级结构的路径定义,一般来说不同部分之间以斜线(/)分隔。查询部分一般用来传送对服务器上的数据库进行动态询问时所需要的参数。
完整的、带有授权部分的普通统一资源标志符语法为:
协议://用户名@密码:子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。
统一资源标志符参考指的是单个的(如超文本传输协议文件中的)统一资源标志符。统一资源标志符参考分绝对参考和相对参考。上面所描写的都是绝对的统一资源标志符参考,相对参考只包括体制特殊的部分,它参考的对象位于包含这个参考文件的一个相对位置上。统一资源标志符参考还可以由一个统一资源标志符加上一个“#”号再加上上述的统一资源标志符内的一个标志点。这个标志点不是统一资源标志符的一部分,而是让用户浏览器在获得了文件后来导航用的,因此它实际上不被送到服务器。
4.1.2 大小写
统一资源定位符一般是分大小写的,不过服务器管理员可以确定在回复询问时大小写是否被区分。有些服务器在收到不同大小写询问时的回复是相同的。地址结尾的“.”号,在因特网的发展初期,访问一个网站不是单纯的输入这样DNS服务器才能够识别。后来,微软公司在Windows NT 3.51中对其进行了修改,可以自动在DNS查询时自动增加一个.号,随后UNIX, NetWare也随之而跟进,让服务器可以识别结尾没有“.”的域名。但是,符号“.”在现在的网址中仍然可以使用,统一资源定位符日常使用超文本传输协议,统一资源定位符将从因特网获取信息的4个基本元素包括在一个简单的地址中:传送协议、服务器、端口号、路径。
4.1.3 URL
统一资源定位符URL是对可以从因特网上得到的资源的位置和访问方法的一种简洁的表示方法。
URL给资源的位置提供一种抽象的识别方法,并用这种方法给资源定位。
只要能够对资源定位,系统就可以对资源进行各种操作,如存取、更新、替换和查找其属性。
URL相当于一个文件名在网络范围的扩展。因此URL是与因特网相连的机器上的任何可访问对象的一个指针。
URL的一般形式是:
<URL的访问方式>://<主机>:<端口>/<路径>
URL的访问方式有如下几种。
ftp:文件传送协议FTP
http:超文本传送协议HTTP
News:USENET新闻
其中,<主机> 是存放资源的主机在因特网中的域名。