大家好,欢迎来到IT知识分享网。
分词器的作用是什么?
ES在创建倒排索引时需要对文档分词;在用户搜索时,需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。处理中文分词,一般会使用IK分词器。https://github.com/medcl/elasticsearch-analysis-ik
IK分词器有几种模式?
ik_smart:智能切分,粗粒度
ik_max_word:最细切分,细粒度
两种分词器示例
#测试分词器分词效果 ik_smart:最少切分 ik_max_word:最细切分 POST /_analyze { "analyzer": "ik_smart", "text": "程序员学习java太玩好拉" } POST /_analyze { "analyzer": "ik_max_word", "text": "程序员学习java太玩好拉" }
View Code
IK分词器如何拓展词条?如何停用词条?
要拓展或者禁用ik分词器的词库,只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件:
/var/lib/docker/volumes/es-plugins/_data/ik/config
打开,修改前
修改,添加需要读取的文件
stopword.dic文件已存在,无需创建
注意,里面应该一个词一行
注意修改好后需要重启elasticsearch
docker restart es
# 查看 日志
docker logs -f es
日志中已经成功加载ext.dic配置文件
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/29206.html