中文分词入门之文献

Posted 2021-04-24 Python时代与机器学习

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了中文分词入门之文献相关的知识，希望对你有一定的参考价值。

　上一节谈了中文分词的资源问题，有了这一基础条件，如果读者对中文分词感兴趣，就可以着手做一些相关研究和实验了。文献对于研究的重要性不言而喻，不仅仅针对中文分词，对于自然语言处理的初学者来说，即使是经典《自然语言处理综论》也只能让我们对一些领域有一个宏观的了解，而真正的研究还是要脚踏实地的阅读感兴趣领域的相关文献并思考和验证一些方法的有效性。
　　阅读相关领域的文献，我觉得还是MIT人工智能实验室的《如何做研究》里的建议是最恰当的：“如果你对AI的某个子领域感兴趣，向该领域的高年级研究生请教本领域最重要的十篇论文是什么”。所以很喜欢《统计机器翻译文献阅读指南》这样的文章，如果三年前能阅读到这样的文章，或许在SMT的学习过程中我可以少走一些弯路，也正因为如此，52nlp上也正在收集和整理一些领域的文献阅读指南，虽然我个人不一定研究这些领域，但是对于NLP的初学者来说，或许这些文献指南是有一点用的。
　　最喜欢的文献阅读指南类型是那些既总结经典又带有点评性质的，譬如《最大熵模型文献阅读指南》，但并不是所有的自然语言处理领域都有这样风格的文献指南，因而退而求其次，很多领域都有一些热心人整理了类似“Bibliography”的文献列表。包括中文分词，清华大学自然语言处理组的张开旭博士就整理了一份“中文分词文献列表”，其时间跨度从1991年至今，尤其是03年之后的文献比较详细，非常值得一阅。
　　另外，我曾阅读过一篇“Word Segmentation Reading List”，对于作者是谁，没有仔细考证，但是文中关于一些文章只言片语的评论也是蛮有意思的，值得学习中文分词的读者拿来参考一下。
　　近些年，在中文分词研究中“基于字标注的中文分词方法”赤手可热，建议感兴趣的读者关注一下《对于bakeoff-3的简单综述》，似乎是赵海博士的文章，这个系列有三篇，尤其是第一篇最后几段比较有意思：

上面提到的Low and Ng是如下的参考文献
\bibitem{Low:2005}
Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo 2005. A Maximum Entropy Approach to Chinese Word Segmentation. {\em Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing}, 161-164. Jeju Island, Korea.
这是2005年赛事上取得最多第一的系统，在参加的全部4个开放测试中累计获得3个第一，1个第二。
因此，我愿意说，bakeoff-3的结果不是本届参赛者的胜利，而是bakeoff-2的参赛者Low and Ng的胜利。
让我们稍微回顾一下bakeoff-2，Low and Ng几乎垄断了开放测试，Tseng等人则几乎垄断了封闭测试。然而，重要的是，这两个参赛者，用的都是基于字标引的机器学习方法。这一方法的开创者是bakeoff-1的Xue:
\bibitem{Xue:2003a}
Nianwen Xue. 2003. Chinese Word Segmentation as Character Tagging. {\em Computational Linguistics and Chinese Language Processing}, Vol. 8(1): 29-48.
\bibitem{Xue:2002}
Nianwen Xue and S. P. Converse. 2002. Combining Classifiers for Chinese Word Segmentation. {\em Proceedings of the First SIGHAN Workshop on Chinese Language Processing}, 57-63.
\bibitem{Xue:2003b}
Nianwen Xue and Libin Shen. 2003. Chinese Word Segmentation as LMR Tagging. In {\em Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL'03}, 176-179. Sapporo, Japan
依此追溯，bakeoff至今的全部辉煌其实是Xue的方法论在中文分词上的胜利。

　　所以，想了解字标注的中文分词方法的读者，可以先看看Xue的这几篇开创性的文献。
　　关于中文分词，我个人并没有深入的研究，这里介绍的只是我所知道和了解一点的，欢迎读者朋友进行补充！

注：原创文章，转载请注明出处“我爱自然语言处理”：www.52nlp.cn

中文分词入门之资源 (16.8)
中文分词入门之字标注法1 (13.9)
ACL HLT 2011文章已可下载 (11.5)
基于字标注的中文分词方法 (11.4)
ACL 2010文章已可下载 (10.1)
Coling 2010 文章已可下载 (9.1)
中文分词入门之字标注法2 (9)
条件随机场文献阅读指南 (8.2)
中文分词入门之最大匹配法扩展1 (8.1)
中文分词入门之字标注法3 (8)

以上是关于中文分词入门之文献的主要内容，如果未能解决你的问题，请参考以下文章

中文分词入门之资源

中文分词入门之最大匹配法扩展：MMSeg

R专题区|中文分词入门之—jiebaR

Elasticsearch入门之从零开始安装ik分词器

NLP预备：jieba 中文分词入门（上）

《自然语言处理实战入门》文本检索 ---- 文本查询实例：ElasticSearch 配置ik 分词器及使用