科研基本功:用Python做中文分词,玩转文本挖掘
Posted 中外学术情报
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了科研基本功:用Python做中文分词,玩转文本挖掘相关的知识,希望对你有一定的参考价值。
文本挖掘是我们在许多专业的研究中都特别有效的一种分析方法。当我们缺选题、缺资料、缺脑筋的时候,拿这种方法来做论文,瞬间就可实现有数据、有内涵、有深度,因为这种方法简单、容易、好上手,简直是一款科研神器啊。
在文本挖掘中,有个操作很关键,也就是中文分词。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
正是因为这一问题重要而又难以处理,我们特地邀请到了来自美国名校Jack老师来给大家讲授“如何用Python玩转中文分词”这个课。Jack老师是信息科学博士,在信息与数据处理相关研究方法方面经验老道,并拥有丰富教学经验。让他讲这个方法,实在太适合不过了。
本系列课程共分四讲,讲课中,老师极其注意效率,内容丰富,全面系统。外加这是个视频课,直观可视,简直是一学就会,一听就懂。
具体来说,该课程包括但不限于以下重要内容:
第一讲:中文分词概述
1. 中文分词
2. 应用
3. 技术难点
第二讲:中文分词工具对比
1. 工具简介
2. 性能对比
第三讲:python案例详解一
第四讲:python案例详解二
方法的力量是强大的。或许,经过Jack博士的讲解,在你学会中文分词之后,你可以打开一条新的研究之路。所以,对于这个系列课,千万不能错过哦。
听课报名,请点击下方阅读原文进入课程链接。大家都来听了,你也来吧!
以上是关于科研基本功:用Python做中文分词,玩转文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章