当前位置：首页 >> 互联网 >> 2006年12月13日

"Times New Roman", Times, serif; align="center">雅虎工程师：如何测试搜索引擎索引量大小

推荐者：草根帮主 (积分 142071) | 原作者：

背景知识：搜索引擎质量指标一般包括相关性（Relevance）,时效性（Freshness）,全面性（Comprehensiveness）和可用性（Usability）等四个方面, 今天我们要谈索引量就属于完整性指标范畴.

首先需要注意 , 对于搜索引擎, 网页索引量和抓取量不同概念. 搜索引擎网页抓取数量一般都要远大于索引量, 因抓取网页中包括很多内容重复或者作弊等质量不高网页. 搜索引擎需要根据算法从抓取网页当中取其精华, 去其糟粕, 挑选出有价值网页进行索引. 因此, 对用户而言, 搜索引擎索引量大小才更有意义.

其次, 无限制增大索引量并不一定能保证搜索质量提升. 一方面, 在全面性指标中, 除索引量外, 还需要考虑到收录网页质量和不同类型网页分布. 另一方面, 搜索引擎质量指标体系要保证四方面均衡发展, 不依靠单个指标突破就可以改善 . 目前包括雅虎中国在内主流中文搜索引擎网页索引量都在20亿量级, 基本上可以满足用户日常查询需求.

然而, 由于从外部无法直接测算出搜索引擎网页索引量绝对值大小, 很多搜索引擎服务商喜欢对外夸大自己收录网页数, 作市场噱头. 从1998年开始, Krishna Bharat和Andrei Broder就开始研究, 如何通过第三方来客观比较不同搜索引擎索引量大小. 8年后, 在今年5月份 WWW2006大会上, 来自以色列 Ziv Bar-Yossef和Maxim Gurevich由于这方面出色研究成果夺得了大会唯一最佳论文奖. 他们研究算出了主流英文搜索引擎索引量相对大小：雅虎 Google 1.28倍, Google MSN 1.36倍. 他们如何算出这些数字呢？下面我们将搜索引擎爱好者介绍这个算法, 以及探讨在中文搜索引擎上如何应用 .

概述

搜索引擎索引量或称覆盖率对搜索结果相关性,时效性和找到率都具有深远影响. 出于市场运作考虑, 各大互联网搜索引擎不时对外公布自己索引文档数量, 然而这些数据往往不同程度地被加入了一些水份, 可信度上有一个问号. 因此, 如何通过搜索引擎公共接口, 就通常所说搜索框, 比较客观,准确地测试它索引量就成了一个令人关注问题.

每一个搜索引擎索引都覆盖了互联网上全部文档一个子集. 如果我们把测试作对这个集合采样, 那么问题关键就在于如何实现一个近似等概率随机采样（uniform search engine url sampler）, 参见图1. 具体地说, 假定一个搜索引擎S总共索引了|D|个文档, 那么我们希望采样得到某一个具体文档概率 1/|D|.

一旦实现了通过搜索框对索引等概率随机采样, 我们就可以在统计意义上比较有把握地估计搜索引擎索引量相对大小. 如下图所示：

我们先对引擎S1随机采样N1个url. 然后, 通过url查询获知引擎S2索引了其中 N12个url, 而没有索引另外N10个. 换句话说, N1 = N10+N12 . 同样地, 如果我们对引擎S2随机采样N2个url, 发现其中N21被S1收录而N20没有收录, N2=N20+N21. 那么我们可以估计S1与S2 相对大小：

|D1|/|D2|

≌(N12+N10) / (N12+N12N20/N21)

＝(N1N21)/(N2N12)

＝N21/N12 (如果N1══N2)

1　2　下一页

[ 关键词：雅虎　搜索引擎　理论　原文/来源链接 ]

微软与雅虎合作, 谁最大受益者？

微软

雅虎

Google

"Times New Roman", Times, serif; align="center">雅虎工程师：如何测试搜索引擎 索引量大小

"Times New Roman", Times, serif; align="center">雅虎工程师：如何测试搜索引擎索引量大小