新学期第一弹:DMC口碑之作——文本挖掘
Posted 中国人民大学数据挖掘中心
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了新学期第一弹:DMC口碑之作——文本挖掘相关的知识,希望对你有一定的参考价值。
文本挖掘作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术, 已经成为近年来的研究热点。但是文本数据同时也存在非结构化、噪声信息较大等客观因素导致文本数据的难以处理。
本次讲座将会从文本挖掘的任务系统入手讲述系统框架,进而讲述将文本数据结构化的核心步骤:特征选择,最后将会以最为实用的文本分类案例来介绍Python在文本挖掘中的实际使用方法,从而让听众对文本挖掘的工作有一个整体理解和把握。
第一部分:文本挖掘的任务体系
第二部分:特征选择方法。因为传统聚类和分类工作中,特征选择非常重要,而文本挖掘中特征选择几乎自成体系,所以值得认真研究。
浅特征:词级别特征(tf-idf)、stemming——以朴素贝叶斯方法进行梳理
中特征:NounPhrase chunking;POS tagger;text segmentation
高级特征:dependencytree,word2vec
第三部分:Python的NLTK包处理文本分类的案例
本次报告的文章已经上传至网盘,请大家点击左下角的“阅读原文”进入DMC官网下载,并提前阅读,做好预习。
文本挖掘——从文字到数字,从繁杂到规整,化冗余为神奇。
文本挖掘组长——DMC爆品组长,去年主讲的贝叶斯获得了一众好评!
文本挖掘组员——来自各年级的大神。。啊!眼花缭乱~
DMC用一个最好的开始,等一个最好的你!
专题 | 组长 | 时间 |
文本挖掘(1) | 林毓聪 | 3.17 |
聚类分析 | 徐晗辉 | 3.24 |
文本挖掘(2) | 林毓聪 | 3.31 |
社交网络(1) | 孙亚楠 | 4.7 |
社交网络(2) | 王梦天 | 4.14 |
金融量化方法 | 王高斌 | 4.21 |
推荐系统 | 吴双双 | 5.12 |
深度学习 | 车明佳 | 5.19 |
以上是关于新学期第一弹:DMC口碑之作——文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章