新学期第一弹：DMC口碑之作——文本挖掘

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了新学期第一弹：DMC口碑之作——文本挖掘相关的知识，希望对你有一定的参考价值。

文本挖掘(一)

3月17日 18:00-20:30

明德主楼1030

主题简介

文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术, 已经成为近年来的研究热点。但是文本数据同时也存在非结构化、噪声信息较大等客观因素导致文本数据的难以处理。

本次讲座将会从文本挖掘的任务系统入手讲述系统框架，进而讲述将文本数据结构化的核心步骤：特征选择，最后将会以最为实用的文本分类案例来介绍Python在文本挖掘中的实际使用方法，从而让听众对文本挖掘的工作有一个整体理解和把握。

分享内容

第一部分：文本挖掘的任务体系

第二部分：特征选择方法。因为传统聚类和分类工作中，特征选择非常重要，而文本挖掘中特征选择几乎自成体系，所以值得认真研究。

浅特征：词级别特征（tf-idf）、stemming——以朴素贝叶斯方法进行梳理

中特征：NounPhrase chunking;POS tagger;text segmentation

高级特征：dependencytree，word2vec

第三部分：Python的NLTK包处理文本分类的案例

阅读材料

本次报告的文章已经上传至网盘，请大家点击左下角的“阅读原文”进入DMC官网下载，并提前阅读，做好预习。

小编荐语

文本挖掘——从文字到数字，从繁杂到规整，化冗余为神奇。

文本挖掘组长——DMC爆品组长，去年主讲的贝叶斯获得了一众好评！

文本挖掘组员——来自各年级的大神。。啊！眼花缭乱~

DMC用一个最好的开始，等一个最好的你！

附：本学期安排

数据挖掘中心

DMC

长按识别左侧二维码，关注我们！

以上是关于新学期第一弹：DMC口碑之作——文本挖掘的主要内容，如果未能解决你的问题，请参考以下文章