Bag of Words Model

  转载自:http://blog.csdn.net/pennyliang/archive/2009/07/06/4325664.aspx

  Bag of words,也叫做“词袋”,在信息检索中,Bag of words model 假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

  这种假设虽然对自然语言进行了简化,便于模型化,但是其假定在有些情况下是不合理的,例如在新闻个性化推荐中,采用 Bag of words 的模型就会出现问题。例如用户甲对“南京醉酒驾车事故”这个短语很感兴趣,采用 bag of words 忽略了顺序和句法,则认为用户甲对“南京”、“醉酒”、“驾车”和“事故”感兴趣,因此可能推荐出和“南京”,“公交车”,“事故”相关的新闻,这显然是不合理的。

  解决的方法可以采用 SCPCD 的方法抽取出整个短语,或者采用高阶(2阶以上)统计语言模型,例如 bigram,trigram 来将词序保留下来,相当于 bag of bigram和bag of trigram,这样能在一定程度上解决这种问题。

  总而言之,bag of words 模型是否适用需要根据实际情况来确定。对于那些不可以忽视词序,语法和句法的场合均不能采用 bag of words 的方法。

发表评论

电子邮件地址不会被公开。 必填项已用*标注