欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

如何选择中文分词

程序员文章站 2022-07-12 15:10:54
...
目前全文搜索用到的中文分词,大都是开源和自己开发

相应的算法很多,到底选哪个来写,各有各的看法。

我分享下我做过的供大家参考

没用过词性的中文分词,因为我的业务用不到。

用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。
适合没有明确搜索关键词的全文搜索,其目标是搜索到。
缺点:由于字典和算法,实现后的中文分词形成的索引大小差异比较大,很难衡量其准确性

写过一个分词,基本就是基于产品型号字典的比对。
特点:索引速度快,索引小。因为字典和业务挂钩很容易检查其准确性。
缺点:只能基于业务。

中文分词可以很简单,网上找个开源的来用,也可以可以很复杂,自己写,比如不同类型的字典所需信息整理搜集。大量字典情况下,内存的使用,如何更快,准确切分是比较复杂的。

选择中文分词到底是找个开源的用,还是找个算法来写,或者是自己按照业务来写,主要基于
1:项目进度:时间
2:自己写的把握:项目第一是稳,而不是快
3:业务需要
4:公司愿意的投入:人力,物力,财力
5:大家补充如何选择中文分词
            
    
    博客分类: 全文搜索 中文分词





相关标签: 中文分词

上一篇: A星寻路算法

下一篇: test 心情