中文分词文章索引和分词数据资源分享

Posted AINLP

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词文章索引和分词数据资源分享相关的知识,希望对你有一定的参考价值。

中文分词入门系列

  • 中文分词入门之最大匹配法

  • 中文分词入门之最大匹配法扩展2

  • 中文分词入门之篇外

  • 中文分词入门之文献

  • 基于字标注的中文分词方法

  • 中文分词入门之字标注法1

  • 中文分词入门之字标注法2

  • 中文分词入门之字标注法3

  • 中文分词入门之字标注法4

  • 中文分词入门之字标注法全文文档

  • 用MeCab打造一套实用的中文分词系统

  • 用MeCab打造一套实用的中文分词系统(二)

  • 用MeCab打造一套实用的中文分词系统(三):MeCab-Chinese


    rickjin老大的两篇日文翻译文档,很有帮助

    • Darts: Double-ARray Trie System 翻译文档

    • 日文分词器 Mecab 文档


    其他同学在52nlp博客上分享的中文分词相关文章,感谢大家

    • 初学者报到: 实现了一个最大匹配的分词算法

    • 初学者报道(2):实现 1-gram分词算法

    • 初学者报道(3) CRF 中文分词解码过程理解

    • Itenyh版-用HMM做中文分词一:序

    • Itenyh版-用HMM做中文分词二:模型准备

    • Itenyh版-用HMM做中文分词三:前向算法和Viterbi算法的开销

    • Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器

    • Itenyh版-用HMM做中文分词五:一个混合的分词器


      最后关于中文分词的数据资源,多说两句,中文分词的研究时间比较长,方法比较多,从实际经验看,好的词库资源可能更重要一些,最后提供一份中文分词的相关资源,包括中文分词字标注法全文pdf文档,以及web上其他同学分享的词库资源,感兴趣的同学可以关注AINLP,回复“fenci"获取:

      点击阅读原文直达博客相关链接。

      以上是关于中文分词文章索引和分词数据资源分享的主要内容,如果未能解决你的问题,请参考以下文章

      北大pkuseg-python中文分词工具包准确度高于THULAC和jieba结巴(附PDF公号发“pkuseg中文分词”下载)

      中文分词

      中文分词资源

      中文分词入门之资源

      分享大数据中文分词技术提升人工智能“自我学习”

      lucene中分词和索引的区别