网站如何做到搜索引擎友好

我们可以先粗浅地了解一下百度、谷歌、必应这些搜索引擎发现和抓取页面的方式:

搜索引擎通过一种自动提取网页的程序来发现页面,这种程序也被称为搜索引擎蜘蛛或机器人。它访问页面时就与普通用户使用的浏览器类似,搜索引擎蜘蛛向页面发出访问请求、页面返回html代码、搜索引擎蜘蛛再将代码存入原始页面数据库。为了抓取更多的页面,搜索引擎蜘蛛会自动跟踪已访问的页面上的链接,不断从这个页面“爬”到另一个页面。因为整个互联网就是由相互链接的各种网页构成的,理论上,只要搜索引擎蜘蛛从任何一个页面开始爬行,最终都能爬完互联网中的所有页面。实际上,当网页数量早已呈指数级增长的时候,要真正实现这一点难于登天。

2008年7月,Google官方宣布其收录的网页已经超过一万亿;2014年,这个数字突破三十万亿;而这还只是已经被收录的网页数量,互联网中实际存在的网页数量只会更加惊人。Lawrence和Giles的研究更直接地表明,没有哪个搜索引擎能够索引超出16%的互联网上的网页,即使能够提取全部页面,也没有足够的空间来存储。现在搜索引擎蜘蛛面临的真正难题,就是如何在更少的时间内更多地获取高质量页面,把资源用在刀刃上。

在搜索引擎蜘蛛发现和抓取了新页面之后,这些原始的页面也不能直接用于查询排名处理,而是要先进行“预处理”或者叫“索引”。搜索引擎在这一环节要对网页做的处理包括:提取文字、去重、消除噪声、链接关系计算、质量判断等。当这一切都准备妥当,用户输入搜索词时,排名程序就能根据预处理后的索引库数据,迅速地完成计算,实时生成搜索结果页面。

现在,我们可以清楚地了解到:不是所有网页做出来都一定会显示在搜索结果里,每个搜索引擎所收录的页面都是有限的。虽然用户在实际搜索时,生成搜索页面和排名结果只是一瞬间的事,但在这之前,搜索引擎是需要花时间去发现新页面和进行预处理的,只有先做完这些工作,这些处理后的页面才能被排名程序调用。

我们要做的就是,使网站更加易于被搜索引擎发现和处理,降低搜索引擎遇到我们网站时的工作难度,并更准确地理解页面内容。我们应当在满足用户体验的前提下,尽可能地遵从搜索引擎的规则。从网站架构设计的角度来说,应包括以下几点:

1.页面易于被抓取

一个网站上权重最高的是首页,而权重是会随页面链接传递的。离首页点击距离越近的页面,权重就相对较高。良好的链接结构可以使网站的权重被合理分配,使更多的页面有机会被搜索引擎收录。

一方面,整个网站里不能有层次过深的页面,最多从首页点击4~5次,就应该能打开任何一个页面;另一方面,对于特别重要的页面,比如某款主打产品,可以在首页上专做一个快速链接,不一定要按产品目录逻辑藏在三级、四级目录下。

2.内容易于被读取

最易于被搜索引擎蜘蛛读取的就是简洁的html文件,网页上使用的链接也最好都是标准的html链接。可能有很多网站会为了追求华丽的视觉效果,大量使用Flash动画做页面装饰、使用JavaScript脚本生成导航系统等,但是这都不利于搜索引擎蜘蛛的爬行,因为搜索引擎蜘蛛是很难读取Flash文件、JavaScript脚本、图片和视频中的内容的。

有些做法极端的网站,可能网站的整个首页就是一个巨大的Flash文件;点进内页后,导航栏和左侧列表又是Flash文件。那么,再看看正文是怎样的?结果正文内容就是在一整张图片上的(大概是想防止别人复制抄袭),没有任何可以被索引的文本内容。整个网站里,搜索引擎蜘蛛能读到的恐怕就只剩下页脚的那一行版权声明了。这种网站也许视觉效果做得还颇为华丽,却对搜索引擎太不友好,被收录的可能性极低,更不要说获得高的流量。

为了保证搜索引擎蜘蛛能更加轻松地读取页面内容,建议大家尽可能地把网站做成最标准的html版本。虽然近几年搜索引擎都在努力尝试读取Flash、JavaScript脚本中的有效内容,但从性价比上看,与其额外费力气去研究怎么让这些文件被搜索引擎读取,不如直接采用最简单的办法,而且利用CSS也完全可以做出非常丰富的视觉效果,没有必要非得用Flash和JavaScript脚本。如果一定要用,尽量不要占太大的比重,像图片一样作为页面点缀即可,重要的信息一定要以文本形式呈现在页面的重要部分,避免对搜索引擎读取页面内容造成影响。

3.移动设备可用性高

现在,移动设备搜索的流量已经远远超过PC端的搜索流量,而且差距只会越来越大。做广告页面时,必须更多地考虑页面在移动设备上打开时,是否依然能保证良好的用户体验。搜索引擎同样重视这一点,因此它也会优先显示有移动版本的网站。如果我们的网站没有适合移动端的版本,那么网站在移动设备上的搜索结果里也不会有好的排名。

要做移动版本,有以下两种方式:

一是在独立的URL上另做一套专门的移动版本,其内容和PC版本——对应。不过这种方法比较麻烦,需要在对应的页面之间一—做好转向设置,或者用meta标签、Sitemap来标明对应关系。在这个过程中很容易出错,尤其是对于页面数多的网站,而一旦出错就会导致抓取和显示的异常。

二是不需要新的URL,而是网站程序自动检测访问设备的类型和屏幕尺寸,通过CSS自动调整相应的页面宽度和排版,使页面能适合在这台访问设备上被浏览。这种方式通常叫“自适应设计”,也叫“响应式设计”,应该是目前和可预见的未来内最理想的方式,不仅从根本上避免出错,也减少了搜索引擎在检测、抓取、计算上的工作量,还便于网站的日常修改和维护。




(本文内容及图片收集于网络,如有侵权,请联系我们删除。)