召回率与准确率

  召回率和准确率是搜索引擎的设计中很重要的两个概念和指标。

  召回率:Recall,又称“查全率”;

  准确率:Precision,又称“精度”、“正确率”。

  在一个大规模数据集合中检索文档时,可把集合中的所有文档分成四类:

  A:检索到的,相关的 (搜到的也想要的)

  B:检索到的,但是不相关的 (搜到的但没用的)

  C:未检索到的,但却是相关的 (没搜到,然而实际上想要的)

  D:未检索到的,也不相关的 (没搜到也没用的)

  通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”,即A/(A+C),越大越好。

  同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。

  归纳如下:

  召回率:检索到的相关文档 / 库中所有的相关文档

  准确率:检索到的相关文档 / 所有被检索到的文档

  “召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),然而在大规模数据集合中,这两个指标却是相互制约的。

  由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。

  而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。

  凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一 个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

  转载自:http://uwei.blogbus.com/logs/11424864.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注