当前位置:首页 >> 互联网 >> 2006年12月13日
"Times New Roman",
Times,
serif; align="center">雅虎工程师:如何测试搜索引擎 索引量大小
[ 关键词:雅虎 搜索引擎 理论 原文/来源链接 ]

推荐者:草根帮主 (积分 142071) | 原作者:
背景知识:搜索引擎 质量指标一般包括相关性(Relevance),
时效性(Freshness),
全面性(Comprehensiveness)和可用性(Usability)等四个方面,
今天我们要谈 索引量就属于完整性指标 范畴.
首先需要注意 ,
对于搜索引擎,
网页 索引量和抓取量 不同 概念. 搜索引擎 网页抓取数量一般都要远大于索引量,
因 抓取 网页中包括很多内容重复或者作弊等质量不高 网页. 搜索引擎需要根据算法从抓取 网页当中取其精华,
去其糟粕,
挑选出有价值 网页进行索引. 因此,
对用户而言,
搜索引擎 索引量大小才更有意义.
其次,
无限制增大索引量并不一定能保证搜索质量 提升. 一方面,
在全面性指标中,
除索引量外,
还需要考虑到收录网页 质量和不同类型网页 分布. 另一方面,
搜索引擎 质量指标体系要保证四方面 均衡发展,
不 依靠单个指标 突破就可以改善 . 目前包括雅虎中国在内 主流中文搜索引擎 网页索引量都在20亿量级,
基本上可以满足用户 日常查询需求.
然而,
由于从外部无法直接测算出搜索引擎网页索引量 绝对值大小,
很多搜索引擎服务商喜欢对外夸大自己 收录网页数,
作 市场噱头. 从1998年开始,
Krishna Bharat和Andrei Broder就开始研究,
如何通过第三方来客观比较不同搜索引擎索引量 大小. 8年后,
在今年5月份 WWW2006大会上,
来自以色列 Ziv Bar-Yossef和Maxim Gurevich由于这方面 出色研究成果夺得了大会唯一 最佳论文奖. 他们 研究算出了主流英文搜索引擎 索引量相对大小:雅虎 Google 1.28倍,
Google MSN 1.36倍. 他们 如何算出这些数字 呢?下面我们将 搜索引擎爱好者介绍这个算法,
以及探讨在中文搜索引擎上 如何应用 .
概述
搜索引擎 索引量或称覆盖率对搜索结果 相关性,
时效性和找到率都具有深远 影响. 出于市场运作 考虑,
各大互联网搜索引擎不时对外公布自己索引 文档数量,
然而这些数据往往不同程度地被加入了一些水份,
可信度上有一个问号. 因此,
如何通过搜索引擎 公共接口,
就 通常所说 搜索框,
比较客观,
准确地测试它 索引量就成 了一个令人关注 问题.
每一个搜索引擎 索引都覆盖了互联网上全部文档 一个子集. 如果我们把测试作 对这个集合 采样,
那么问题 关键就在于如何实现一个近似 等概率随机采样(uniform search engine url sampler),
参见图1. 具体地说,
假定一个搜索引擎S总共索引了|D|个文档,
那么我们希望采样得到某一个具体文档 概率 1/|D|.
一旦实现了通过搜索框对索引 等概率随机采样,
我们就可以在统计意义上比较有把握地估计搜索引擎索引量 相对大小. 如下图所示:
我们先对引擎S1随机采样N1个url. 然后,
通过url查询获知引擎S2索引了其中 N12个url,
而没有索引另外N10个. 换句话说,
N1 = N10+N12 . 同样地,
如果我们对引擎S2随机采样N2个url,
发现其中N21被S1收录而N20没有收录,
N2=N20+N21. 那么我们可以估计S1与S2 相对大小 :
|D1|/|D2|
≌(N12+N10) / (N12+N12N20/N21)
=(N1N21)/(N2N12)
=N21/N12 (如果N1══N2)
首先需要注意 ,
其次,
然而,
概述
搜索引擎 索引量或称覆盖率对搜索结果 相关性,
每一个搜索引擎 索引都覆盖了互联网上全部文档 一个子集. 如果我们把测试作 对这个集合 采样,
一旦实现了通过搜索框对索引 等概率随机采样,
我们先对引擎S1随机采样N1个url. 然后,
|D1|/|D2|
≌(N12+N10) / (N12+N12N20/N21)
=(N1N21)/(N2N12)
=N21/N12 (如果N1══N2)
[ 关键词:雅虎 搜索引擎 理论 原文/来源链接 ]

|
|
| [收藏至站内网摘] [ |

顶一个呀.177273