登录
首页 » 算法 » jsceg分词器源码

jsceg分词器源码

于 2022-03-07 发布 文件大小:17.41 MB
0 220
下载积分: 2 下载次数: 1

代码说明:

jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口.1。目前最高版本:jcseg-1.9.5。兼容最高版本lucene-4.x,solr-4.x,elasticsearch2。三种切分模式: (1).简易模式:FMM算法,适合速度要求场合。 (2).复杂模式-MMSEG四种过滤算法,具有较高的岐义去除,分词准确率达到了98.41%。 (3).(!New)检测模式:只返回词库中已有的词条,很适合某些应用场合。(1.9.4版本开始)3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。参考下面了解如何给jcseg添加词库/新词。4。(!New) 支持词库多目录加载. 配置lexicon.path中使用";"隔开多个词库目录.5。(!New)词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索,  jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并.6。中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。7。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg

下载说明:请别用迅雷下载,失败请重下,重下不扣分!

发表评论

0 个回复

  • 利用 OTSU 阈值的图像分割
    这是分割使用阈值的算法。阈值在这里我用 OTSU 阈值方法。欢迎大家下载、试用。谢谢大家的支持!
    2022-03-23 15:51:24下载
    积分:1
  • 是一组整体布局123321312为1,2,3
    给出一组数的全排列 如1,2,3给出 123,321,312-is a group of the whole arrangement is 123,321,312 as 1,2,3
    2023-02-09 20:25:03下载
    积分:1
  • DES加密
    简单DES加密算法C语言代码实现,可以简单的实现但有点问题哪里错了不知道请大家帮忙看看,自己写的可能不太完整,水平有限请多多包涵。
    2023-08-08 00:50:03下载
    积分:1
  • 基于SIFT特征提取的SVM分类
    基于SIFT的特征提取的SVM分类算法研究,SVM采用libsvm 提供的接口程序。SIFT采用opencv提供的SIFT特征提取函数进行提取,该算法针对小图片进行训练和识别有较好的效果
    2022-06-17 03:35:28下载
    积分:1
  • 变密度优化
    此为变密度优化算法的程序,好用简单容易理解,本人已经在matlab软件上运行过,与渐进结构优化算法有很多相似的地方,可以借鉴草考进行深入研究。如果大家有渐进结构优化算法的研究的人,大家可以共同进步
    2022-01-26 20:24:57下载
    积分:1
  • Fortran求解矩阵线性方程组,有例子,可以直接运行
    Fortran求解矩阵线性方程组,有例子,可以直接运行 /"P.S:本软件既可以计算线性方程组Ax=b,也可以计算矩阵方程AX=B")  Purpose   :  消去法解矩阵方程 !     !----------------------------------------------------- !  In put data  files : !       1.  fin.txt  输入方程系数 !       2. !  Output data files  :
    2023-03-15 08:45:04下载
    积分:1
  • 最经典的版本的决策树的最全面的资源库…
    c4.5的源码决策树最全面最经典的版本-Bank of the most comprehensive source of decision tree of the most classic version
    2022-03-07 02:02:06下载
    积分:1
  • matlab 高斯—赛德尔迭代+稳态导热
    迭代法: clear x1(1)=0;x2(1)=0;x3(1)=0;k=1; for k=1:100; x1(k+1)=0.5*(500+x2(k)); 请点击左侧文件开始预览 !预览只提供20%的代码片段,完整代码需下载后查看 加载中 侵权举报
    2022-08-18 19:05:24下载
    积分:1
  • 三个差值(1):二元拉格朗日插值(fortran)(2):三次样条差值(c)(3):三元三点差值(fortran)...
    三个差值算法(1):二元拉格朗日插值(fortran)(2):三次样条差值(c)(3):三元三点差值(fortran)-three programs about interpolation :1:Binary Lagrange interpolation 2:three time interpln interpolation 3:Binary three point interpolation
    2022-02-02 14:30:04下载
    积分:1
  • LDPC的BP译码
    BP算法是LDPC译码的最优算法,此文件包括BP算法的概率域实现和对数域实现,对于LDPC初学者来说,一定会有帮助
    2022-07-15 09:31:43下载
    积分:1
  • 696516资源总数
  • 106914会员总数
  • 0今日下载