url是什么意思?URL详细介绍(推荐12篇)由网友“宇宙普拉斯”投稿提供,下面是小编收集整理的url是什么意思?URL详细介绍,供大家参考借鉴,希望可以帮助到有需要的朋友。
篇1:url是什么意思?URL详细介绍
有很多朋友问,URL是什么意思?的确不知道url的大有人在,电脑知识网为您解答!
URL是Uniform Resoure Locator(统一资源定位器)的缩写。就是WWW页的地址。
其URL地址格式排列为:scheme://host:Port/path
其中
·Internet资源类型(scheme):指出WWW客户程序用来操作的工具。如“”表示WWW服务器,“ftp://”表示FTP服务器,“gopher://”表示Gopher服务器,而“new:”表示Newgroup新闻组。
·服务器地址(host):指出WWW页所在的服务器域名或ip。
·端口(Port):有时(并非总是这样),对某些资源的访问来说,需给出相应的服务器提供端口号。
·路径(path):指明服务器上某资源的位置(其格式与DOS系统中的格式一样,通常有目录/子目录/文件名这样结构组成)。与端口一样,路径并非总是需要的。
例如就是一个典型的URL地址。基础知识:转到URL网址是什么意思
URL是Uniform Resource Locator的缩写,即统一资源定位器,它是一个识别Internet中哪里有信息资源,并且将 Internet提供的服务统一编址的系统。通过URL可以到达任何一个地方寻找需要的东西,比如文件、数据库、图像、新闻组等等,可以这样说,URL是 Internet上的地址簿。URL一般由三个部分构成,各个部分如下:
1. 服务器标识符 通过选择服务器标识符能够确定将要访问的服务器的类型, URL中的服务器标识符可以有HTTP://、FTP://、GOPHER://、TELNET://、NWES://等等类型,分别指定为采用超文本传输协议连接、采用文件传输协议连接、与GOPHER服务器连接、与TELNET会话连接、与USENET新闻组相连接。
2. 信息资源地址 信息资源地址是由两部分构成的,一是机器名称,如www.tsinghua.edu.cn是用来指示资源所存在的机器,另一个是通信端口号(port number),是连接时所使用的通信端口号。端口是Internet用来辨别特定信息服务用的一种软件标识,其设置范围是0到65535之间的整数,一般情况下使用的是标准端口号,可以不用写出。在需要特殊服务时会用到非标准端口号,这时就要写出,www.tsinghua.edu.cn:81。常见的Internet提供服务的端口号,如HTTP的标准端口号为80,TELNET的标准端口号为23,FTP的标准端口号为21等等。
3. 路径名 路径名是给出资源在所在机器上的完整文件名,一般情况下只有用户知道所要找的资源在什么地方时才会给出这个选项。如www.tsinghua.edu.cn/index.html等。
URL:
URL是Uniform Resource Location的缩写,译为“统一资源定位符”。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。
URL的格式URL的格式由下列三部分组成:
第一部分是协议(或称为服务方式);
第二部分是存有该资源的主机IP地址(有时也包括端口号);
第三部分是主机资源的具体地址。,如目录和文件名等。
第一部分和第二部分之间用“://”符号隔开,第二部
分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
URL示例
文件的URL: 用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。
例一:file://ftp.linkwan.com/pub/files/foobar.txt
代表存放主机ftp.linkwan.com上的pub/files/目录下的一个文件,文件名是foobar.txt。
例二:file://ftp.linkwan.com/pub
代表主机ftp.linkwan.com上的目录/pub。
例三:file://ftp.linkwan.com/
代表主机ftp.linkwan.com上的根目录。
Gopher的URL: Gopher服务器有可能使用特殊的端口,在这种情况下,主机IP地址与端口之间要用“:隔开。
例一:gopher://gopher.linkwan.com/
表示主机gopher.linkwan.com上的gopher服务器。
例二:gopher://gopher.banzai.edu:1234
表示主机gopher.banzai.edu上的gopher服务器,在端口1234上。
网络新闻的URL: 利用URL表示网络新闻组时,如果是usenet的话只要指定出新闻组的名字即可。
例如:news:rec.gardening
表示usenet上的rec.gardening新闻组(园艺)。
HTTP的 URL:
使用超级文本传输协议HTTP,提供超级文本信息服务的资源。
例一:
其计算机域名为。超级文本文件(文件类型为.html)是在目录/ZenYangXiaZai下的11206079.html。
例二:www.linkwan.com.cn/talk/talk1.htm
其其计算机域名为www.linkwan.com.cn。超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。
URL的缺点
最大的缺点:当信息资源的存放地点发生变化时,必须对URL作相应的改变。因此人们正在研究新的信息资源表示方法,例如:URI(Universal Resource Identifier)即“通用资源标识”(参见RFC 1630)、URN(Uniform Resource Name)即“统一资源名”和URC(Uniform Resource Citation)即“统一资源引用符”等。
篇2:URL是什么意思
统一资源定位符(Uniform Resource Locator,缩写为URL),又叫做网页地址,是互联网上标准的资源的地址(Address)。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。它最初是由蒂姆伯纳斯-李发明用来作为万维网的地址的。现在它已经被万维网联盟编制为因特网标准RFC1738了。统一资源定位符的开始,一般会标志着一个计算机网络所使用的网络协议。
绝对URL
绝对URL(absolute URL)显示文件的完整路径,这意味着绝对URL本身所在的位置与被引用的实际文件的位置无关,
相对URL
相对URL(relative URL)以包含URL本身的文件夹的位置为参考点,描述目标文件夹的位置。如果目标文件与当前页面(也就是包含URL的页面)在同一个目录,那么这个文件的相对URL仅仅是文件名和扩展名,如果目标文件在当前目录的子目录中,那么它的相对URL是子目录名,后面是斜杠,然后是目标文件的文件名和扩展名。
如果要引用文件层次结构中更高层目录中的文件,那么使用两个句点和一条斜杠。可以组合和重复使用两个句点和一条斜杠,从而引用当前文件所在的硬盘上的任何文件。一般来说,对于同一服务器上的文件,应该总是使用相对URL,它们更容易输入,而且在将页面从本地系统转移到服务器上时更方便,只要每个文件的相对位置保持不变,链接就仍然是有效地。
日常使用
超文本传输协议统一资源定位符将从因特网获取信息的四个基本元素包括在一个简单的地址中:
传送协议;
服务器;
端口号;
路径。
大多数网页浏览器不要求用户输入网页中“”的部分,因为绝大多数网页内容是超文本传输协议文件。同样,“80”是超文本传输协议文件的常用端口号,因此一般也不必写明。一般来说用户只要键入统一资源定位符的一部分就可以了。
由于超文本传输协议允许服务器将浏览器重定向到另一个网页地址,因此许多服务器允许用户省略网页地址中的部分,比如 www。从技术上来说这样省略后的网页地址实际上是一个不同的网页地址,浏览器本身无法决定这个新地址是否通,服务器必须完成重定向的任务。[2]
其它使用
统一资源定位符不但被用作网页地址,数据库终端也使用统一资源定位符服务器连接其服务器。实际上任何终端-服务器程序都可以使用统一资源定位符来连接。
篇3:url是什么_url结构
url是什么_url结构
url是什么
统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
它最初是由蒂姆・伯纳斯・李发明用来作为万维网的地址。现在它已经被万维网联盟编制为互联网标准RFC1738了。
url结构
基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志
第一部分
模式/协议(scheme):它告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议(Hypertext Transfer Protocol,缩写为HTTP),这个协议可以用来访问网络。 其他协议如下:
http――超文本传输协议资源
https――用安全套接字层传送的超文本传输协议
ftp――文件传输协议
mailto――电子邮件地址
ldap――轻型目录访问协议搜索
file――当地电脑或网上分享的文件
news――Usenet新闻组
gopher――Gopher协议
telnet――Telnet协议
第二部分
文件所在的服务器的名称或IP地址,后面是到达这个文件的路径和文件本身的名称。服务器的名称或IP地址后面有时还跟一个冒号和一个端口号。它也可以包含接触服务器必须的用户名称和密码。路径部分包含等级结构的路径定义,一般来说不同部分之间以斜线(/)分隔。询问部分一般用来传送对服务器上的数据库进行动态询问时所需要的参数。
有时候,URL以斜杠“/”结尾,而没有给出文件名,在这种情况下,URL引用路径中最后一个目录中的默认文件(通常对应于主页),这个文件常常被称为 index.html 或 default.htm。
篇4:URL网址规范化
网址URL规范化(URL canonicalization)是近一年来在Google搜索结果中出现的一个很大的问题,它指的是搜索引擎挑选最好的URL网址作为真正网址的过程。举例来说,下面这几个URL一般来说指的是同一个文件或网页:
www.domainname.com
domainname.com
www.domainname.com/
domainname.com/
但是从技术上来讲,这几个URL网址都是不同的。虽然在绝大部分情况下,这些网址所返回的都是相同的文件,也就是你的主页。但是从技术上来说,主机完全可以对这几个网址返回不同的内容。
当搜索引擎要规范化网址时,搜索引擎需要从这些选择当中挑一个最好的代表。一般来说,你的主页应该是固定的,只有一个。但是有的时候,在很多网站上站长在链接回主页时,所使用的URL并不是唯一的。很可能在你的网站上,一会连到URL www.domainname.com,一会儿连到URL www.domainname.com/ 。
虽然这不会给访客造成什么麻烦,因为这些网址都是同一个文件,但是对Google来说却是造成了困惑,哪一个网址是你真正的主页呢?如果在你的网站上,不同的版本网址都大量出现,那么这两个URL可能都会被Google收录进数据库,这时就会造成复制内容网页。
所谓复制内容网页,指的是两个或多个网页的内容是相同或大部分相似的。很多时候,复制网页有可能是作弊手段。就算不是作弊手段的时候,搜索引擎通常也只会挑出其中一个返回搜索结果,而把其他的复制网页都排在最后面,以至于根本找不到。
当你的网站出现网址URL规范化问题的时候,就有可能造成被怀疑为复制网页,因而影响搜索引擎结果排名。
从Google的角度来说,他们正在发展所谓大爸爸数据中心基本架构,来解决包括URL规范化的问题,
但谁知道能不能解决呢?
从站长的角度来考虑,你应该做两件事:
1)你的网站内部在链接到其他网页,尤其是主页时,只使用一种URL。不管是包含www或不包含www,你要由始至终只使用一个版本。这样搜索引擎也就明白哪一个是规范化的主页网址。
2)但是你没办法控制别的网站用哪一个网址连向你的主页。所以你应该在你的主机服务器上,把所有有可能成为主页网址的URL,做301重定向到你所选择的主页网址版本。也就是说,从下面这几个网址
domainname.com
www.domainname.com/
domainname.com/
都要做301重定向到这个网址
www.domainname.com
很重要的一点是,如果你的网站出现了URL规范化的问题,千万不能使用Google的网址删除反馈表,来要求删除其中的一个网址版本。比如说,你所要的是带有www的版本
www.domainname.com
你千万不能到Google的网站上填表,要求没有www的主页网址
domainname.com
被删除掉。因为那样做的话,你整个的域名有可能被删除6个月。
当然,除了包含www和不包含www的两个版本以外,还有其他类型的URL规范化问题。比如有的时候,搜索引擎会去掉或加上网址尾端最后的斜线。有的时候会尝试把大写字母换成小写字母,有的时候可能尝试去掉会话ID(session ID)等等,这些都有可能造成网址规范化问题。
来自:www.chinamyhosting.com/seoblog//04/10/url-canonicalization/
篇5:模糊的URL
<--插入广告JS代码-->URL(Universal Resource Locator通用资源定位器)是我们上网最常用到的东西之一,例如我们访问的网页地址www.ttian.nett/就是一个URL形式,但是我们同样可以通过ttian@3546011754/来访问这的一个页面!
上面第二种奇怪的表示方法只是利用了一些不为人熟知的关于URL构造的知识!眼睛看到的往往并不是最真实的,这仅仅是敲巧用了关于网络地址表达方式的某些约定而造成的!而这些奇怪的URL往往用于那些广告邮件中,或者用在某些不希望被人看到真实确切网址的地方!在这里,我就将这些编码技巧拿出来与大家分享:)
(注:根据浏览器型号和版本的不同,本文中某些特殊URL可能会不起作用;如果你使用代理或者通过局域网上网它们也很可能不起作用,当然不必担心,本文中的特殊网址不会引发某些版本IE的“Dotless IP Address”漏洞,而早造成浏览器中断)
关于编码方式:
再一次,我们引用ttian@ttian.net/为例!
首先,我们发现在这个全数字的URL中出现了一个“@”符号,事实上,在“”和“@”间的所有字符都是不起任何作用的!例如:doesn'tmatter@ttian.net/和!$^&*_+`-={}|[]:;@ttian.net将访问到同样的一个网页! 这个特性事实上是用在登陆认证上的。如果在访问一个页面需要提供用户名和/或密码,那么插入到“”和“@”之间,如:username:password@www.whatever.com/secret.html
当然如果这个网页需要生分验证,那么按照这个形式访问的网页将被自动打开但是如果网页并不需要生分验证,那么这个认证信息将被同时被浏览器和服务器忽略!用这种方式导愚弄某些易于轻信表象的人,如www.playboy.com@ttian.net/,如果你没有深入的理解,你可能会认为,这是playboy.com网站:)当然,“@”符号可以用它的HEX(十六进制形式)表示“%40”,这就更具有迷惑性!不过这种方式仅仅可用于IE浏览器,而在Netscape中是无效的!好,接下来,我们来看看后面那一串数字表示的什么?为什么3546011754就可以把我们带到www.ttian.net呢?
事实上,这两者都相当于另外的一个东西IP!在这里需要一些解释,请耐心阅读:)首先,你需要知道的是 ,任何一个URL都通过DNS服务器转换成数字形式的IP地址.一个IP通常都被表示成加点十进制格式,如www.ttian.net被转换成211.91.216.106,但是这种数字IP形式往往是不便于人们记忆的,这就是我们为什么用域名代替IP地址来进行网络访问,然而从域名到IP的转换对于用户来说,是完全透明的,这就免除了许多无谓的麻烦!BUT,还有另外的一种方法来表达这种IP形式!这就是双字节形式--它本质上是由两个16位(bit)的二进制字组成表示的,但是,它以十进制的形式表示出来(base 10);“octal”--表示以八进制的形式表示出来(base 8);“hexadecimal” 表示以十六进制的形式表示出来(base 16);然而211.91.216.106的十六进制表示形式就是3546011754.
但是,我们为什么要把URL改的隐晦难懂呢?这是因为通过公众注册记录,域名的所有者很容易被识别,甚至在拥有者不可被跟踪的情况下!广告商最不愿看到的就是被它的被传播者所识别,否则将他将因为域名的滥用而受到他网络提供商的警告.
下面,我就解释一下怎样得到任何一个域名的IP地址,怎样将IP地址转换成双字节形式,以及八进制和十六进制!
好了,至于URL的余下部分呢,让我们再来看看那个怪异的例子:ttian@3484559912/ 怎么样,比刚开始见到这个东西的感觉好多了吧:)但究竟这是如何转换的呢?
URL中的每一个字符都可以被十六进制的数字表示.每一个十六进制数字都以一个“%”开头用来将接下来的两位(字母/数字)识别成特定字符的十六进制的形式.他最实用的价值是包含更多的空间和不寻常的字符.在本例中,我用十六进制表示URL,“/obscure.htm” 可以被表示为
/ %69 %6e %64 %65 %78 %2e %68 %74 %6D %6c
对应于/ i n d e x . h t m l
在十六进制表示法中字母的大小写是通用的.然而URL中的符号“/”不能表示成十六进制,而且IP也不能用这种编码方式表示,其他的都可以. 关于十六进制码:
十六进制码是很简单的将字符所对应的ASCII码转换成十六进制,事实上这种表示法可以包含所有计算机文本!为了找到ASCII码,
我们可以查找一些已经做好的对换表,如C语言教材的附录里一般都有。不过我也可以教个常用方法,就是A对应65,a对应97,后面的字母依次类推.
关于IP地址:
IP地址最常写成加点十进制形式,此种IP通常有4组数字段,并以“.”分隔开,每段数字都在0 到255之间.域名到IP的转换通常是通过网络软件在后台运行的,用户是不可见的!给出一个域名,你的浏览器就向仪态服务器查询,然后获得域名对应的IP,再通过该IP直接与该web站点通信.有一个标准公用程序(nslookup.exe),能够向用户展示域名查询结果.这个命令可以在命令行中运行,格式如nslookup [name or IP address] [name server]
这是一个很有用的程序,他能够提供IP到域名,及域名到IP的转换,常用于测试DNS服务器的配置是否正确.另外,关于IP的另一个有趣的事情是467.374.472.362同样可以访问到211.91.216.106(限IE),这是因为,通常每段数字都在0到255,其本质是取8位二进制数字,这样,463就超出了一个字节的存储空间,进而进入以十进制256问倍数的二进制累加循环,所以我可以加256的任何倍到默认IP的一段上,而不改变其真实值!但是最大不能超过999的3位限制!
关于IP到Dword的转换:
在这里,我们运用WINDOWS自带的计数器,并开启它的科学计算功能,以211,91,216,106到3546011754为例,先分别将十进制的206,169,40,2转换成十六进制的d3,5b,d8,6a,再将d3,5b,d8,6a以十六进制的双字节的形式写如计数器,再转换成十进制,就可以得到3546011754.事实上,在平常运用中,我们常用的方法是这样的:
211 x 16777216 = 3539992576
91 x 65536 = 5963776
216 x 256 = 55296
+ 106 x 1 = 106
--------------------------------
3546011754
与IP的256倍数叠加一致,3546011754也可以以4294967296的倍数叠加!至此,IP的转换已经完成!
关于IP与八进制及十六进制的转换:
虽然已经知道了Dword的转换,但是还远远不够,因为IP同样可以被转换成八进制和十六进制!对于八进制,我们仅仅只要将各段IP分别转换成八进制,然后再在各段IP前加上一个“0(零)”即可,如211,91,216,106被转换成0323,0133,0330.0152.对于十六进制,如八进制的转换,在这里,不同的仅仅是在开头处加上“0(零)x”,成为0xd3.0x5b.0xd8.0x6a,而且此处小数点是可以省略的而成为0xd35bd86a,而且与上述的倍数叠加原理相同.
讲了这么多,归纳起来,有以下几种方式访问www.ttian.net/
user:pwd@3546011754/ --可加上4294967296的整数倍
user:pwd@0323.0133.0330.0152/ --各字段前可加数个“0”
user:pwd@0xd3.0x5b.0xd8.0x6a/
user:pwd@0xd35bd86a/ --可在“0x”后加上任意字符
而且以上的/ 均可换为/%69%6e%64%65%78%2e%68%74%6D%6c
到现在,大家是不是觉得URL的可信度很低,甚至在一个URL面前不知所措,其实decode的方法很简单,就是PING,得到的肯定是真实IP:)
注:在IE不同版本和中有可能无法使用! 以上示例均在IE5.0 @ win98 并在WINGATE代理上网的情况下成功测试.
篇6:简单介绍CSS中的URL工具
这篇文章主要介绍了简单介绍CSS中的URL工具,包括URL重写器和URL翻译器等,需要的朋友可以参考下
有许多原因使得你需要在CSS代码中系统性的替代URL:将其转换为数据URI、将其指向一个CDN、将其文件名替换为自动生成的文件名,等等,这个工具能够帮你从给定的CSS代码中将URL解析出来,并允许你将其替换为你选择的任意值。替换后的CSS代码与源代码完全相同,除了URL已经根据你的选择进行了替换。
这个库包含诸多工具,能够帮助你操作和更改CSS URL。
CSS URL重写器(Rewriter)
CSS URL重写器使用一个CSS分词器来安全的找到所有的CSS URL,这使得所有的改动都是完全安全的,因为它不依赖于正则表达式从CSS中提取URL。
使用方法
CSS Code复制内容到剪贴板
var URLRewriter = require(“cssurl”).URLRewriter;
var rewriter = new URLRewriter(function(url) {
// automatically append a query string with a unique value to bust caches
returnurl+“?v=”+ Date.now();
});
var result = rewriter.rewrite(cssCode);
当CSS URL重写器遍历CSS代码时,它会调用传入CSSURLRewriter构造器的函数,并传给它找到的每个URL。url变量是指CSS代码中找到的除去了任何引号和前后空格的URL(不包含url())。之后,你可以检查URL,随心所欲地修改它,以及在你需要使用的地方返回它的值。
限制
CSS URL重写器只会替换被表示为URL标记的URL,也就是说,它必须是以url(foo.css)的形式而非”foo.css”的形式存在,尽管后者在部分CSS里是允许的。
CSS URL重写流(Rewrite Stream)
CSS URL重写流使用流内部的URL重写器,因此你可以很容易将代码取出或置入,
使用方法
CSS Code复制内容到剪贴板
var URLRewriteStream = require(“cssurl”).URLRewriteStream;
fs.createReadStream(“my.css”).pipe(new URLRewriteStream(function(url) {
// automatically append a query string with a unique value to bust caches
returnurl+“?v=”+ Date.now();
})).pipe(fs.createWriteStream(“my-new.css”));
CSS URL翻译器(Translator)
CSS URL翻译器是一个工具,能够对不同CSS文件中的相关CSS URL进行翻译。有时候你可能要移动一个CSS文件,比如说从css/sprites/foo.css到css/sprites.css,当你做这件事时,CSS文件中任何相关的URL都不再准确了。CSS URL翻译器,与CSS URL重写器结合使用,通过自动计算出新的路径使得我们可以轻松地进行修改。翻译器也足够聪明,不会翻译任何不相关的URL。
使用方法
CSS Code复制内容到剪贴板
var URLTranslator = require(“cssurl”).URLTranslator;
var translator = new URLTranslator();
var result = translator.translate(“../../img/foo.png”,“css/sprites/foo.css”,“css/sprites.css”);
console.log(result); //“../img/foo.png”
开发
要运行测试,请克隆以下仓库,然后执行:
代码如下:$ npm i
$ npm test
版权和许可证为BSD3
篇7:URL标准化 C Canonicalize
URL标准化,英文全称为URL Canonicalize,
什么是URL标准化
通俗的说,就是将你的页面URL唯一化。导致页面URL多样化的原因有很多,主要包括包含WWW及不含WWW,动态页面及伪静态技术,302的临时重定向,一些JS或者Meta跳转等等。这些因素最基础的影响就是让搜索引擎无所适从,到底哪个URL才是你要使用的?所以就产生了URL标准化的概念。
另一方面,一些经常被认为是相同的URL,特别针对网站主页,比如
* www.kuqin.com
* kuqin.com/
* www.kuqin.com/
* kuqin.com/home.asp
在常规状态下,这些地址都代表着网站的主页,但是从技术角度来说,这些URLs是完全不想关的一些地址,因为你完全可以通过服务器端的设置将这些地址返回不同的内容。Google在索引的时候,必须选择一个具有代表性的URL来呈现给用户,这个选择的过程,就称为“URL标准化”。
Google如何挑选标准化的URL
在没有做特殊设置的情况下,Google会根据外链的数量来确定标准化的URL,也就是哪个地址被外链引用的次数最多,哪个地址就是标准化的URL。所以我们在平时做外链的时候,就要确保地址的唯一性,不要有的地方用 “kuqin.com”,而有的地方又用 “www.kuqin.com”。统一你的外链地址,让Googel能够快速的确认你的标准化URL,以便给予合适的排名。
同样,我们在走内链的时候,也要考虑到标准化URL的问题!
如何进行URL标准化
首先我们要确定URL标准化设计的方面,主要是带WWW与不带WWW的地址,以及伪静态造成的重复收录等问题,我们可以采用不同的方式来解决这个问题,
管理资料
1:301永久重定向
如果我们决定采用带WWW的地址为唯一的地址,那么我们可以使用301永久重定向代码
RewriteEngine on
rewritecond %{http_host} ^kuqin.com [nc]
rewriterule ^(.*)$ www.kuqin.com/$1 [r=301,nc]
将所有不带WWW的地址进行重定向!
2:采用Canonical标签
Canonical标签经常会被用在伪静态地址上。您可以查看本站所有页面的源代码,在Head部分都有一个“link rel=’canonical’”的标签,来标明这个页面的标准化地址,以便让Google进行确认,防止重复页面的收录。百度目前不支持该标签!
3:采用Robot.txt文件
由于百度不支持Canonical标签,我们可以结合使用robot文件来禁止搜索引擎收录部分格式的页面,以防止伪静态情况下的重复收录!比如我们用wordpress搭建博客时,采用了伪静态技术,另外也不希望一些管理文件被收录,则常见的wordpress博客Robots.txt文件写法为
User-agent: * –所有搜索引擎蜘蛛
Disallow: /wp-*/ –不收录以WP-开头的文件夹
Disallow: */feed –不收录feed(包括单页,整站,评论的feed)
Disallow: */trackback –不收录引用
Disallow: /*?* –不收录动态页
更多有关URL标准化的问题,可以参考Matt Cutts的文章:SEO advice: url canonicalization
篇8:如何规划好网站的URL
URL的问题是SEO过程中的一个基本问题,做一个新网站也好,优化现有的网站也好,都绕不开这一点,这两篇文章就来大体总结一下URL的规划应该怎么做。
在开始讲这些问题之前,需要先阅读完以下文档:
《优化网站的抓取与收录》 www.google.cn/ggblog/googlewebmaster-cn//08/blog-post.html
《谷歌搜索引擎入门指南》第7页到11页。 点此下载
《创建方便 Google 处理的网址结构》 www.google.com/support/webmasters/bin/answer.py?hl=cn&answer=76329
这些都是google官方的文档,讲述了各种各样的规则。这些对百度也是同样适用的,因为它是针对爬虫的特性提出来的,并不是只有某个搜索引擎才适用。
看完上面的那些这些规则,发现翻来覆去讲得都是怎么让爬虫能非常顺畅的抓取完整个网站。其实绝大部分网站都存在这样或那样的问题的,也包括我这个博客,在抓取方面也存在一些问题。但是看在每篇博文都能被收录的情况下,也就不去优化了。但是对于很多收录还成问题的网站(特别是大中型网站)来说,就要好好规划一下了。大家可以用HTTrack抓取semyj这个博客看看,就能发现为什么我这么说了。(谁能一天之内抓取完这个博客的人请告诉我。)
还是先从搜索引擎的处境讲起吧。正如Google在文章中写道的那样:
网络世界极其庞大;每时每刻都在产生新的内容。Google 本身的资源是有限的,当面对几近无穷无尽的网络内容的时候,Googlebot 只能找到和抓取其中一定比例的内容。然后,在我们已经抓取到的内容中,我们也只能索引其中的一部分。
URLs 就像网站和搜索引擎抓取工具之间的桥梁: 为了能够抓取到您网站的内容,抓取工具需要能够找到并跨越这些桥梁(也就是找到并抓取您的URLs)。
这段话很好的总结了搜索引擎所面临的处境,那么爬虫在处理URL的时候会遇到哪些问题呢?
我们先来看重复URL的问题,这里说的重复URL是指同一个网站内的不同页面,都存在很多完全相同的URL。如:
www.semyj.com/archives/1097 和 www.semyj.com/archives/1114 这两个页面。
模板部分的URL是一样的
虽然页面不同,但是他们公用的部分,URL地址是一样的。看起来如果不同的爬虫抓取到这些页面的时候,会重复抓取,从而浪费很多不必要的时间。 这确实是一个问题,不过这个问题搜索引擎倒是基本解决好了。实际上,爬虫的抓取模式不是像我们理解的那样看到一个网页就开始抓取一个网页的。
爬虫顺着一个个的URL在互联网上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设从搜索引擎某一个节点出来的爬虫有爬虫A、爬虫B、爬虫C,当它们到达semyj这个网站的时候,每个爬虫都会抓取到很多URL,然后他们都会把那个页面上所有的链接都放在一个公用的“待抓取列表”里。(可以用lynx在线版模拟一下爬虫提取链接。)
待抓取列表
这样一来,在“待抓取列表”里,那些重复的URL就可以被去重了。这是一个节点在一种理想状态下的情况,不过实际上因为搜索引擎以后还要更新这个网页等等一些原因,一个网站每天还是有很多重复抓取。所以在以前的文章中,我告诉大家用一些方法减少重复抓取的几率。
这里有一个问题,很多人肯定想问是不是一个网页上所有的链接搜索引擎都会提取的,答案是肯定的。但是在《google网站质量指南》中,有这样一句:“如果站点地图上的链接超过 100 个,则需要将站点地图拆分为多个网页。”有些人把这句话理解为:“爬虫只能抓取前100个链接”,这是不对的。
因为在“待抓取列表”里的URL,爬虫并不会每一个链接都会抓取的。 链接放在这个列表里是没问题的,但是爬虫没有那么多时间也没必要每个链接都要去抓取,需要有一定的优先级。在“待访问列表”里,爬虫一边按照优先级抓取一部分的URL,一边把还未被抓取的URL记录下来等待下次抓取,只是这些还未被抓取的URL,下次爬虫来访问的频率就每个网站都不一样了, 每一类URL被访问的频率也不一样。
按优先级抓取
那么在“待抓取列表”里的URL,哪些是能被优先抓取,哪些是被次要抓取的呢?
我们稍微思考一下都能明白这个抓取的优先级策略应该怎么定。首先,那些目录层级比较深的URL是次要抓取的;那些在模板部分的或重复率非常高的URL是被次要抓取的;那些动态参数多的URL是次要抓取的…..
这么做的原因,就是因为搜索引擎的资源是有限的,一个网站实际拥有的内容也是有限的,但是URL数量是无限的。爬虫需要一些“蛛丝马迹”来确定哪些值得优先抓取,哪些不值得。
在《谷歌搜索引擎入门指南》中,google建议要优化好网站的URL结构,如建议不要用“…/dir1/dir2/dir3/dir4/dir5/dir6/page.html”这样的多层嵌套。就是因为在待抓取列表里,在其他条件相同的情况下,爬虫会优先抓取目录层级浅的URL。如用Lynx在线版查看本网站的页面:
抓取优先级
如果说,在这17个链接里,爬虫只能选几个链接抓取的话,红色箭头所指的链接在其他条件相同的情况下是要优先的。
但是这里又有一个误区,有人在SEO过程中,把所有的网页都建立在根目录下,以为这样能有排名的优势。这样也是没有理解这个原因。而且爬虫在这个网站上先抓取哪些URL后抓取哪些URL,都是自己的URL和自己的URL比,如果所有网页都是在同一个目录下,那就没有区别了。
最好的规划URL目录层级的方式,就是按照业务方的逻辑来规划,从内容上应该是什么从属关系就怎么规划URL就是,
就像《谷歌搜索引擎入门指南》中举的那些例子一样。
(顺带说一下。我经常看到,一个网站中,很多人非SEO的人员,如工程师和网页设计人员或者网站编辑,都以为SEO和他们做的事情是相反的。这都是因为长期以来一些SEOer经常提交很多明显违反用户体验的SEO需求给他们,造成他们以为SEO就是和他们做的事情是有冲突的。实际上,SEO和别的部门有非常少的冲突,只要你能用科学的方法去实践,就能发现以前有太多误导人的观点了。还有,对于其他部门的专业人员,他们专业领域的意见非常值得去考虑。)
爬虫有一个特点,就是它不能实时的比较它正在抓取的内容是不是重复的内容。因为如果要做到实时的比较,那它至少要把正在抓取的页面和那些已经在索引库的页面做对比,这是不可能短时间内可以完成的。 前面把所有URL统一放到一个待抓取列表中的方法只能避免那种URL完全一模一样的重复抓取,但是无法应对URL不一样、但是内容一样的抓取。
正如所有搜索引擎都强调的那样,动态参数是一个经常产生URL不一样、但是内容一样的现象的原因。所以搜索引擎建议大家用静态化的方法去掉那些参数。静态化的本质是URL唯一化,在《优化网站的抓取与收录》这篇文章中,曾经用的“一人一票”这个描述就很贴切的表达了这个意思。静态化只是一个手段而不是目的,为了保证URL的唯一化,可以把URL静态化、也可以用robots.txt或nofollow屏蔽动态内容、可以用rel=canonical属性、还可以在webmaster tool里屏蔽一些参数等等。
而静态化也会有好的静态化和不好的静态化之别。我们这里不说那种把多个参数直接静态化了的案例,而是单纯来看看如下两个URL:
www.kuqin.com/zhanz/1097和 www.kuqin.com?p=1097
这两个URL中,这个静态化的是不是就比动态的好呢? 实际上这两个URL的差别很小。首先这两种URL搜索引擎都能收录,如果说动态URL“?p=1097”可能产生大量重复的内容让爬虫抓取,那这个静态的URL“archives/1097”也不能保证不会产生大量重复的内容。特别是爬虫在抓取时碰到大量有ID的静态的URL时,爬虫无法判断这个网站是不是把session ID等参数静态化了才造成的,还是这个网站本来就有这么多内容。 所以更好的静态化是这样的:
www.kuqin.com/zhanz/seo-jingli
这种URL就能保证唯一化而不会和其他情况混淆了,所以URL中要尽量用有意义的字符。这不是因为要在URL增加关键词密度而这么做的,是为了方便搜索引擎抓取。
以上是因为爬虫固有的特点造成的抓取障碍,而有时网站的结构也能造成爬虫的抓取障碍。这种结构在《优化网站的抓取与收录》一文中用的名字是“无限空间”。文中举了一个日历的例子:如很多博客上都会有一个日历,顺着这个日历的日期一直往下点,永远都有链接供你点击的,因为时间是无限的。
其实还有更多的“无限空间”的例子,只是“无限空间”这个名词没怎么翻译好,翻译做“无限循环”就容易理解多了。 举一个例子:
京东商城笔记本分类页面: www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html
筛选条件
当点击“惠普”+“11英寸”这2个条件后能出来一个页面,点击“联想”+“14英寸”+“独立显卡”也能出来一个页面。那总共能出来的页面有多少呢?
这个页面中,品牌有18个分类、价格9个分类、尺寸7个分类、平台3个分类、显卡2个分类。 那么可以组合成的URL个数为:
按1个条件筛选: 18+9+7+3+2 = 39 。
按2个条件筛选:18×9+18×7+18×3+18×2+9×7+9×3+9×2+7×3+7×2+3×2=527 。
按3个条件筛选:18×9×7+18×9×3+18×9×2+18×7×3+18×7×2+18×3×2+9×7×3+9×7×2+9×3×2+7×3×2=3093。
按4个条件筛选:18×9×7×3+18×9×7×2+18×7×3×2+18×9×3×2+9×7×3×2=7776。
按5个条件筛选:18×9×7×3×2=6804。
总共可以组合出的URL数量为:39+527+3093+7776+6804=18239 个。
笔记本分类里总共才 624个商品,要放在18239个页面中,而有的页面,一个页面就能放32个产品。势必造成大量的页面是没有商品的。如点击这几个筛选条件后,就没有匹配的商品出来了:
无结果
这样的结果,就是造成大量重复的内容以及消耗爬虫很多不必要的时间,这也可以认为是“无限空间”。 这类情况非常常见。如
某房产网的无限空间
上面举的京东商城的例子还是不怎么严重的,有的网站能组合出几亿甚至无穷无尽个URL出来。我在国内和国外看过那么多同类的网站,居然发现迄今为止只有两家网站注意到了这个问题。究其原因,还是因为很多SEO人员不太重视数据,这种问题稍微分析爬虫的日志就可以看出来的。直到现在,还有一些SEOer认为把这些以前是动态的页面静态化是个有积极意义的事情,没看到不好的一面就是这样的动作制造出了大量重复的页面,向来就是一个在SEO方面不好的改动。
本文来自:www.semyj.com/archives/1136
篇9:百度搜索URL参数
百度搜索url中存在很多参数,懂程序的SEO黑帽对此特别感兴趣,百度URL参数中,cl=3 表示网页搜索,tn表示来源站点,word是关键词,ie表示编码方式,这里是utf-8编码.
想让百度没有广告吗?
想框架调用百度吗?
就来学学百度搜索参数吧。
百度URL命令中的参数
【必备参数】:
wd——查询的关键词(Keyword)
pn——显示结果的页数(Page Number)
cl——搜索类型(Class),cl=3为网页搜索
【可选参数】:
rn——搜索结果显示条数(Record Number),取值范围在10--100条之间,缺省设置rn=10
ie——查询输入文字的编码(Input Encoding),缺省设置ie=gb2312,即为简体中文
tn——提交搜索请求的来源站点
tn=baidulocal 表示百度站内搜索,返回的结果很干净,无广告干扰.
tn=baiducnnic 想把百度放在框架中吗?试试这个参数就可以了,是百度为Cnnic定制的
si——在限定的域名中搜索,比如想在sofuc.com的站内搜索可使用参数si=sofuc.com,要使这个参数有效必须结合ct参数一起使用.
ct——此参数的值一般是一串数字,估计应该是搜索请求的验证码
si和ct参数结合使用,比如在sofuc.com中搜索“wordpress”,可用:www.baidu.com/s?q=&ct=2097152&si=sofuc.com&ie=gb2312&cl=3&wd=wordpress
bs——上一次搜索的关键词(Before Search),估计与相关搜索有关
篇10: 时代如何防范URL欺骗
我叫URL,即Uniform Resource Locators,意思是统一资源******,
时代如何防范URL欺骗
。地址栏中的网址就属于我URL的一种表达方式。基本上所有访问网站的朋友都会使用到我,所以我的作用是很大的。也许很多朋友都不知道,我可是很会骗人的。特别是有一群自称 的家伙很喜欢让我欺骗你们,趁你们不留心,就让我带你进入植入了木马的网页。所以我今天要大胆的自揭其短,让你们看清我,千万不要被那些 利用我把你们给欺骗了。
说谎:URL欺骗的惯用招式
利用我URL骗人的方法有很多种,比如起个具有诱惑性的网站名称或使用易混的字母数字掉包进行银行网络钓鱼,还有漏洞百出的0P之类的Unicode编码等等。但是利用我骗人最惯用的招式莫过于以下两个:
1.@标志过滤用户名的解析
本来@标志是E-mail地址的用户名与主机的分隔符,但在我URL中同样适用,而且功能如出一辙。HTTP(超文本传输协议)规定了我URL的完整格式是Http://Name:Password@IP地址或主机名,其中的IP地址或主机名是必填项。@标志与其前面的Name:Password,意为用户名:密码,属于可选项。也就是说,在我URL中真正起解析作用的网址是从@标志后面开始的,这就是欺骗原理。
举例:某QQ好友发给你一个说是有最新大片免费下载的地址 Http://www.sohu.com@www.Trojan.com.cn/HuiGeZi_Server.exe,你敢上去就点吗?的确,一眼看上去是www.sohu.com 站的链接,而实际上这儿的www.sohu.com只是个写成 址形式的用户名(此处的密码为空),因为后面有@标志。而真正链接的网址却是www.Trojan.com.cn/HuiGeZi_Server.exe(这儿为了好理解,我杜撰了一个木马网站,其下有灰鸽子服务端),只要大家点击就会被种下木马。这个发来的URL地址其实完全等同于Http:// www.Trojan.com.cn/HuiGeZi_Server.exe,而与前面的用户名毫无关系,只是迷惑性可就大大提高了。即使没有这个用户名,也完全不影响浏览器对URL的解析。大家要是不信,就在地址栏中随便写上个像是Http://abcdefg@www.sohu.com之类的地址再回车试试,还是照样儿进入 站。
2.十进制的IP地址
常见的IP地址包括四个字节,一般表示形式为xxx.xxx.xxx.xxx(x表示一个十进制数码),例如61.135.132.12,
因为纯粹的数字IP地址过于抽象、难以记忆,所以采用域名服务DNS来与之对应。大家在浏览器地址栏中输入Http://www.sohu.com与Http://61.135.132.12的结果完全一样,都是访问 站,因为61.135.132.12就是搜狐域名www.sohu.com的IP地址。不过,如果再试试Http://1032291340的话,结果一定会让许多人吃惊,因为仍然打开了 站!
为什么一个十进制数1032291340等同于一个IP地址61.135.132.12呢?其实我刚才已经暗示过大家了,四位点分十进制形式的IP地址61.135.132.12代表一组32位二进制数码,如果合在一起再转换成一个十进制数的话,答案就是1032291340。转换方法很简单,就是数制的按权展开:122560+1322561+1352562+612563=12+33792+8847360+1023410176=1032291340(基数为256,即28)。
明白了这个道理,大家再回头看看刚才例子中的www.Trojan.com.cn/HuiGeZi_Server.exe。如果说这种字母域名还会露出一截狐狸尾巴的话,那么当把它对应的IP地址(假设为61.135.132.13)换算成一个十进制数,结果是1032291341,再结合@标志过滤用户的解析,欺骗性就又上了一个台阶Http://www.sohu.com@1032291341。此时,还会有多少人会怀疑这个URL不是搜狐呢?
如何防范URL欺骗:查源代码法防范URL欺骗
我URL欺骗的功夫还是有点厉害的(典型的自吹自擂),但是大家还是可以防范的。其实,对付这些利用我URL去欺骗引诱人上当的恶意网页,只须一个最简单的招数即可奏效,那就是查看网页的源代码。当然,这需要有一点儿网页代码阅读的能力。
假设有人发给你一个的URL地址Http://www..com而事先你又不知道它是否为URL欺骗的话,只须在浏览器地址栏中输入View-Source:Http://www..com并回车,系统就会调用记事本来打开这个网页的源代码。接下来就是在其中搜索一下(可使用编辑查找菜单)有没有像是Format或者有〈iframe src=ww..htm name= width=0 height=0 frameborder=0〉之类的危险编码。如果有的话当然要拒绝访问了。
篇11:混乱的URL编码
URL全称Uniform. Resource Locator,直译为“统一资源定位符”,也就是网页地址,是互联网上任意角落都可以访问到的,言外之意是说,URL不受国别、种族、语言、编码差异的约束,是编码无关的,
混乱的URL编码
。然而我们常常在浏览器中敲入诸如“url/中文”的url,也能正确访问,既然url中包含中文,那么如何让其他国家那些没有中文编码的计算机上也能访问到相同的网址呢?RFC 1738中对URL有明确规定,URL必须由英文字母、数字、和某些标点符号组成,不能使用其他文字,因此所有包含中文的URL都应当是非法的!其实,浏览器自作聪明的为我们做了很多人性化的hack,比如,浏览器会对地址栏中填入的url进行先编码再使用,因此,不论怎样,一个正确封装的http包中的URI字段一定不会出现中文字符。也就是说,实际发生作用的url也一定如RFC 1738中所言,非ascII码要先转换成ascII码序列,但RFC 1738没有规定具体的编码方法,而是交给应用程序(浏览器)和web程序作者自己决定。这导致“URL编码”成为了一个混乱的领域。也会导致一些奇怪的现象发生。
我们分别在firefox和ie用baidu和google搜索“淘宝”。
在firefox中百度“淘宝”,出现:
实际发生请求的url为:
同地址栏中显示是一致的,搜索结果也正确。在地址栏中直接输入“www.baidu.com/s?wd=淘宝”也是如此,在firefox中google“淘宝”:
实际发生请求的url为:
可以看到,实际发生请求的url和地址栏显示的url不一致,搜索结果正确。这时,重新请求地址栏的“url”(不是刷新),地址栏显示为:
实际发生的请求为:
这时,地址栏和实际发生的请求是一致的,搜索结果正确。进一步分析之前,先看看js里的两个运算
我们知道escape是计算unicode编码,传说中正统的URL编码encodeURI()则是进行utf-8编码,(简单讲,unicode编码是纯粹的编码方式,utf-8是unicode编码的一种实现,即将二进制unicode编码再编码,以一种比较节约空间的方式对unicode全集进行二次编码)。escape()的结果是将每个unicode字符以%u分割,encodeURI是每个字节以%分割,也就是说,“淘”和“宝”的unicode编码分别是“6DD8”和“5B9D”,他们的utf-8编码分别是“E6 B7 98”和“E5 AE 9D”,此外,他们的gbk编码分别为“CC D4”和“B1 A6”。
初步得到结论一:在firefox中的百度搜索,通过form提交的中文转换为gbk编码,参与http包的封装。在ff中google搜索,通过form提交的中文转换为utf-8编码,但显示在地址栏中的url是其中文映像(如果这时将地址栏复制下来,复制的实际是转码后的url,无法复制url中的中文字符)。如果直接在ff地址栏中输入中文url,这时,url里的中文字符一律进行gbk编码,不管百度还是google都是如此。
复制不了里面的中文
如此看来,firefox默认处理url里的中文,都是通过gbk编码进行编码的,这里和网页编码无关(浏览器无法检测将要被访问的网页编码)。
那么,百度和google对unicode编码和utf-8编码的支持情况如何呢?
“淘宝”的unicode编码为“%6D%D8%5B%9D”,在ff中访问“www.baidu.com/s?wd=%6D%D8%5B%9D”
搜索到乱码,
“淘宝”的utf-8编码为(所谓正宗的“URL”编码)“%E6%B7%98%E5%AE%9D”,在ff中访问“www.baidu.com/s?wd=%E6%B7%98%E5%AE%9D”,得到,
也是乱码。
再来看google能否解析utf-8编码,在ff中访问“www.google.cn/search?q=%E6%B7%98%E5%AE%9D”,得到,
结果正确,google可以正确解析utf-8编码。再看google能否解析unicode编码,在ff中访问“www.google.cn/search?q=%6D%D8%5B%9D”,得到:
是乱码。
初步得到结论二,所谓正统的URL编码encodeURI并不是万能的,要看每个网站的实现,百度搜索就不支持这个所谓正统,而是一律采用gbk系的编码作为自己的URL编码。google支持“正统URL编码”,也支持gbk系的编码,更健壮一些。
再来看IE中的情况,在ie中在百度和google中通过form搜索“淘宝”结果和ff中一致,但直接在地址栏中输入中文url就有些奇怪了,在ie中访问“www.baidu.com/s?wd=淘宝”,得到,
结果当然正确,实际发生的请求为
这里可以看到,ie发起的http请求甚至没有经过任何编码,硬生生的将“淘宝”当作原始gbk字符,这样,其他语言编码的操作系统就无法识别这个url,这里的“\314\324\261\246”是一种我也不知道是什么东西的编码,甚至连wireshark都不知道,因为“www.baidu.com/s?wd=\314\324\261\246”明显是一个错误的请求。
此外,unicode编码和utf-8编码后的url在ie下的表现和ff中一致。
由此,可得到结论:
1,RFC 1738文档很粗糙,导致了url编码标准缺失。实际url编码标准和操作系统、浏览器以及web应用有关;
2,ff对非ascII码的url进行编码,编码方式和操作系统默认编码一致
3,google支持“正统的URL编码”(即utf-8 URL编码:utf-8字节中间加上%),百度不支持
4,IE不对非ascII码的url进行编码,直接根据操作系统默认编码发送url请求,换句话说,ie甚至不遵循RFC 1738,或者说ie对URL的转码实现有bug。
5,ff在地址栏显示的url进行了hack,但hack的有bug,开发时要注意。
基于此,我们在web开发过程中要做到:
1,要单独处理编码问题,建议采用统一的URL编码,不论是gbk还是unicode还是URI(utf-8),必须要统一,鉴于大多数人稀里糊涂的认为URI是正宗的URL编码,因此建议还是在前后端都做URI编码和解码。
2,明智选择web app的编码,utf-8为最佳,gbk为最次。
3,编码问题要调试浏览器兼容性。
以上~
附:
中日韩unicode字符集
gbk字符集
篇12:会说谎的URL
我叫URL,即“Uniform. Resource Locators”,意思是统一资源定位器,地址栏中的网址就属于我URL的一种表达方式。基本上所有访问网站的朋友都会使用到我,所以我的作用是很大的。也许很多朋友都不知道,我可是很会骗人的。特别是有一群自称 的家伙很喜欢让我欺骗你们,趁你们不留心,就让我带你进入植入了木马的网页。所以我今天要大胆的自揭其短,让你们看清我,千万不要被那些 利用我把你们给欺骗了。
说谎:URL欺骗的惯用招式
利用我URL骗人的方法有很多种,比如起个具有诱惑性的网站名称或使用易混的字母数字掉包进行银行网络钓鱼,还有漏洞百出的“%30%50”之类的Unicode编码等等。但是利用我骗人最惯用的招式莫过于以下两个:
1.@标志过滤用户名的解析
本来@标志是E-mail地址的用户名与主机的分隔符,但在我URL中同样适用,而且功能如出一辙。HTTP(超文本传输协议)规定了我URL的完整格式是“Http://Name:Password@IP地址或主机名”,其中的“IP地址或主机名”是必填项。@标志与其前面的“Name:Password”,意为“用户名:密码”,属于可选项。也就是说,在我URL中真正起解析作用的网址是从@标志后面开始的,这就是欺骗原理。
举例:某QQ好友发给你一个说是有最新大片免费下载的地址 “Http://www.sohu.com@www.Trojan.com.cn/HuiGeZi_Server.exe”,你敢上去就点吗?的确,一眼看上去是“www.sohu.com” 站的链接,而实际上这儿的“www.sohu.com”只是个写成 址形式的用户名(此处的密码为空),因为后面有@标志。而真正链接的网址却是“www.Trojan.com.cn/HuiGeZi_Server.exe”(这儿为了好理解,我杜撰了一个木马网站,其下有“灰鸽子”服务端),只要大家点击就会被种下木马。这个发来的URL地址其实完全等同于“Http:// www.Trojan.com.cn/HuiGeZi_Server.exe”,而与前面的用户名毫无关系,只是迷惑性可就大大提高了,
即使没有这个用户名,也完全不影响浏览器对URL的解析。大家要是不信,就在地址栏中随便写上个像是“Http://abcdefg@www.sohu.com/”之类的地址再回车试试,还是照样儿进入 站。
2.十进制的IP地址
常见的IP地址包括四个字节,一般表示形式为“xxx.xxx.xxx.xxx”(x表示一个十进制数码),例如“61.135.132.12”。因为纯粹的数字IP地址过于抽象、难以记忆,所以采用域名服务DNS来与之对应。大家在浏览器地址栏中输入“Http://www.sohu.com”与“Http://61.135.132.12”的结果完全一样,都是访问 站,因为61.135.132.12就是搜狐域名www.sohu.com/的IP地址。不过,如果再试试“Http://1032291340”的话,结果一定会让许多人吃惊,因为仍然打开了 站!
为什么一个十进制数“1032291340”等同于一个IP地址“61.135.132.12”呢?其实我刚才已经暗示过大家了,四位点分十进制形式的IP地址“61.135.132.12”代表一组32位二进制数码,如果合在一起再转换成一个十进制数的话,答案就是1032291340。转换方法很简单,就是数制的按权展开:
61*256^3+135*256^2+132*256^1+12*256^0=1023410176+8847360+33792+12=1032291340
(基数为256)
明白了这个道理,大家再回头看看刚才例子中的“www.Trojan.com.cn/HuiGeZi_Server.exe”。如果说这种字母域名还会露出一截狐狸尾巴的话,那么当把它对应的IP地址(假设为“61.135.132.13”)换算成一个十进制数,结果是1032291341,再结合@标志过滤用户的解析,欺骗性就又上了一个台阶——Http://www.sohu.com@1032291341。此时,还会有多少人会怀疑这个URL不是搜狐呢?
小技巧:直接复制一串十进制的数值是无法转向的,例如“1945096731”。应该这样写“1945096731”才能指向百度首页。(原因是有些浏览器默认在url栏里开启了搜索功能)
★ Wordpress自动将包含长链接的评论标记为垃圾评论的方法
★ seo知识总结
【url是什么意思?URL详细介绍(推荐12篇)】相关文章:
web安全学习之xss个人总结2023-02-14
NBSI2内部功能实现大揭谜数据库教程2023-01-10
谷歌SEO相关动态年终总结2022-05-08
建站优化系列教程:推广方法的选择2022-09-10
二本什么大学好?(理科)-搜搜问问2022-09-06
小学一年级上学期数学教师工作总结2023-01-07
FLASHFlash+php+mysql简单留言本制作2022-05-06
java前端开发面试题2023-10-12
确保PHP应用程序的安全[2]WEB安全2022-04-30
也谈跨站脚本攻击与防御脚本安全2023-12-17