基于同义词挖掘的方法有哪些
在搜索过程中,我们需要使用同义词来提高召回的目的。例如,用户搜索:口红,但商品名:xxx彩色唇膏等,商品名中不包含口红关键词。但其实两个词指的是同一种产品。那么,如果用户搜索,则找不到相应的产品。此时,可以在同义词词典中解决这个问题,使用Elasticsearch作为搜索引擎,在query和索引数据的情况下,首先分词query和doc,接着置换同义词,将特定的词置换为同义词索引。
同义词辞典口红=彩色唇膏
那么问题又来了?近义词词典是如何构建的呢。
首先,很多人都想用word2vec来挖掘同义词,但实际上从word2vec的原理来看,挖掘出的topK近似词其实是基于共现关系的相关词,不仅是同义词,所以会产生很大的噪声。
使用word2vec挖掘
这样,丰富的近似词、丰富、丰富有回返,但贫穷、平贫也有回返,词义正是反义词,因此使用未完全监督的word2vec挖掘近义词效果不佳。
word2vec挖掘近义词有两种思路。
请参阅:
辨析同义词,有什么方法吗?
要分析同义词,可以从以下几点考虑:。
1. 从感情色彩上进行辨析,也就是从词的褒贬义去辨析。如