搜索引擎研究报告
一个具有划时代意义的研究报告由科学杂志(science magazine)发表,报告阐述,搜索引擎索引的网页只占整个web网页的一小部分。又一份报告在nature杂志发表,再一次说明,搜索引擎数据库中的url地址只占整个web很小的一部分。两份研究报告都刊登显著标题“搜索引擎让用户感到失望?”,详细阐述搜索引擎数据库中url地址的多少不能说明什么,规模并不十分重要。
如果你不相信,请选择任意一个搜索引擎,查询某公司的资讯,返回的结果中该公司网站是否出现在第一位置?想必这是很多用户经常遇到的情形。这个例子说明,质量比数量更重要,也就是说,相关性比规模更有意义,搜索引擎应提高信息的相关性,而不仅仅使搜索引擎成为越来越庞大的web地址仓库。
这份研究报告阐述数据库规模巨大并不意味着好这样一个观点,把所有的web网页都加入到数据库中,这种趋势正逐渐减弱,用户在规模较小的专业搜索引擎中能得到更满意的结果。
实际上,报告执笔者之一的steve lawrence博士并不否认搜索引擎的作用,lawrence确信搜索引擎比以前能更有效地工作,但他认为搜索引擎应做得更好些。lawrence提到,“随着有效检索信息数量的增加,同时带来了负面影响,即减少了查询潜在信息的机会”这就是最近看到的有关数据库规模“折衷方案”文章的原因。
让我们继续深入探讨报告内容。
报告指出,web网共有大约8亿个“可索引”网页和1.8亿个图像,“可索引”网页含义是,不受口令限制的网页,不受robots.txt文件限制的网页,不是由cgi程序产生的网页以及其它原因搜索引擎不能访问的网页。
第一份报告指出,web网大约有8.2亿个网页,看起来web网页数量在一年内增长了一倍多,但两份报告不能简单地进行比较,因为评估web网页数所用方法不同。
评估的方法,是对不同搜索引擎返回结果相同的部分分析并推测web网页数,在最近的研究报告中,研究人员使用了多种技术进行评估,首先推测可用的公用web服务器数量(280万个),并假设每台服务器平均网页数为289个,两者相乘即为前面曾经提到的大约8亿网页数。
那么每个搜索引擎包含多少个url地址呢?首先找一个基准点,其他搜索引擎以此参考点来计算其数据库大小。我们选搜索引擎northern light为基准点,测试后得出northern light有1.28亿个url地址,然后用此数来除web总量(8亿个),得出northern light覆盖率为16%。
对于其它基于spider的搜索引擎,不能用简单的方法查出其数据库的大小,研究人员采用一系列搜索测试(共1,050次),汇总每次搜索引擎返回的结果,并与northern light进行比较,推测出其数据库的大小,具体如下:
northern light: 16%
altavista: 15.5%
inktomi (snap): 15.5%
inktomi (hotbot): 11.3%
inktomi (msn search): 8.5%
infoseek: 8.0%
google: 7.8%
inktomi (yahoo): 7.4%
excite: 5.6%
lycos: 2.5%
euroseek: 2.2%
最大的搜索引擎覆盖率为16%,所有搜索引擎总的覆盖率为42%,研究报告(总覆盖率60%)做下比较,情况是否变得更糟呢?也许是,但也不一定,因为两次评估web网页总数的方法不一致,结果会有偏差。
报告中还指出,每个搜索引擎数据库中所含死链接的情况,该指标说明搜索引擎数据库的更新速度,百分比越低,数据库中所含死链接越少,数据库刷新速度越快,具体情况如下:
lycos: 14.0%
northern light: 9.8%
google: 7.0%
altavista: 6.7%
infoseek: 5.5%
inktomi (yahoo): 2.9%
inktomi (snap): 2.8%
excite: 2.7%
euroseek: 2.6%
inktomi (msn search): 2.6%
inktomi (hotbot): 2.2%
研究报告还指出,知名度高的“流行”网站更容易被加入到搜索引擎数据库中,这是搜索引擎提高相信息关性所采取的一个步骤,这样搜索引擎可以提供给用户更满意的结果,并可对付spam。报告的作者担心这种趋势将导致高质量的但并不“流行”的网站不能被搜索引擎列表,以我的观点,并不是这种情况,搜索引擎上述做法可理解为,对于一般用户,常规查询可以获得更高相关性和有价值的结果,同时,专业人员使用高级查询技巧同样能得到更多有价值的信息。





