进行词语扩展引入的问题我们在此解决
首先看下效果
GET /operation/_search
{
"query": {
"match": {
"store_name": "凯悦"
}
}
}
结果
{
"took" : 38,
"timed_out" : false,
"_shards" : {
"total" : 3,
"successful" : 3,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 0,
"relation" : "eq"
},
"max_score" : null,
"hits" : [ ]
}
}
此时的分词器对凯悦
二字的分词如下
{
"tokens" : [
{
"token" : "凯悦",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
}
]
}
因为我们的索引在创建的时候凯悦
词语还没有被扩展,所以创建索引的时候分词器会把凯悦
分成凯
和悦
两个字,而此时分词器将凯悦
分词成一个词语凯悦
,故而无法搜索到任何文档。
解决思路一:
首先想到的是重建索引,因为此时分词器词典中已经有了凯悦
这个词语,然后在全量复制文档到新的索引中,如果是数据量不大的情况下是可以快速迁移,如果数据量大的话不建议这样做,然而有些情况可能只是部分文档与要扩展词语相关,所以这个方法比较笨拙,不建议使用。
解决思路二:
通过Elasticsearch
官方提供的API接口update_by_query
可以将与凯悦
相关的文档重新分词
具体操作如下
POST /operation/_update_by_query
{
"query": {
"bool": {
"must": [
{"term": {"store_name": "凯"}},
{"term": {"store_name": "悦"}}
]
}
}
}
意思是必须满足如上两个条件的文档才会被检索到并进行分词修改,即文档名称同时包含凯
和悦
才被重新分词
执行结果
{
"took" : 240,
"timed_out" : false,
"total" : 4,
"updated" : 4,
"deleted" : 0,
"batches" : 1,
"version_conflicts" : 0,
"noops" : 0,
"retries" : {
"bulk" : 0,
"search" : 0
},
"throttled_millis" : 0,
"requests_per_second" : -1.0,
"throttled_until_millis" : 0,
"failures" : [ ]
}
可以看到有四条文档被修改
再次通过凯悦
搜索此时就没有质保含凯
或悦
的文档出现了