2-分词器_中文分词软件「建议收藏」

老牧童 • 2023-09-29 16:15 • 未分类 • 阅读 257

大家好，欢迎来到IT知识分享网。

分词器的作用是什么？

　　ES在创建倒排索引时需要对文档分词；在用户搜索时，需要对用户输入内容分词。但默认的分词规则对中文处理并不友好。处理中文分词，一般会使用IK分词器。https://github.com/medcl/elasticsearch-analysis-ik

IK分词器有几种模式？

ik_smart：智能切分，粗粒度

ik_max_word：最细切分，细粒度

两种分词器示例

#测试分词器分词效果 ik_smart：最少切分   ik_max_word：最细切分
POST /_analyze
{
  "analyzer": "ik_smart",
  "text": "程序员学习java太玩好拉"
}

POST /_analyze
{
  "analyzer": "ik_max_word",
  "text": "程序员学习java太玩好拉"
}

View Code

2-分词器_中文分词软件「建议收藏」

IK分词器如何拓展词条？如何停用词条？

要拓展或者禁用ik分词器的词库，只需要修改一个ik分词器目录中的config目录中的IkAnalyzer.cfg.xml文件：

/var/lib/docker/volumes/es-plugins/_data/ik/config

2-分词器_中文分词软件「建议收藏」

打开，修改前

2-分词器_中文分词软件「建议收藏」

修改，添加需要读取的文件

2-分词器_中文分词软件「建议收藏」

stopword.dic文件已存在，无需创建

注意，里面应该一个词一行

2-分词器_中文分词软件「建议收藏」

注意修改好后需要重启elasticsearch

docker restart es

# 查看日志

docker logs -f es

2-分词器_中文分词软件「建议收藏」

日志中已经成功加载ext.dic配置文件

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/29206.html

2-分词器_中文分词软件「建议收藏」

分词器的作用是什么？

IK分词器有几种模式？

两种分词器示例

IK分词器如何拓展词条？如何停用词条？

相关推荐

发表回复