[视频] 数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器

Posted XJ数据超市

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[视频] 数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器相关的知识,希望对你有一定的参考价值。


欢迎关注  数据超市  微信公众号



首先导入文本数据,进行第一步数据预处理工作:由于数据样本类别不均衡需要对数据进行加权的采样, 然后对于文本数据进行关键词提取;然后进行第二步文本分析特征工程部分:将文本转化成特征向量,也即将提取的关键词转换为tf-idf向量;最后就是比较常规的机器学习的操作训练模型评估模型的部分:将数据分成两部分,一部分作为训练集是训练模型,另一部分作为测试集是用模型来预测,最后对预测结果进行一个二分类评估。

本次视频教学最终目标是判断微博数据是否是新闻数据还是一条普通的微博数据,通过学习本次搭建文本分类器流程,还可以搭建文本情感分类器或新闻主题文本分类器等。




END

科学研究是希望发现这个世界的奥秘
而数据就是这个世界的底牌

-- 数 据 超 市 --

http://BigData711.com/


以上是关于[视频] 数据超市对于文本数据挖掘的流程 机器学习如何搭建文本分类器的主要内容,如果未能解决你的问题,请参考以下文章

关于机器学习中文本处理的一些常用方法

2.3 数据变换李沐-斯坦福21秋季:实用机器学习中文版

机器学习算法的整体流程(非常易懂)

简要说说一个完整机器学习项目的流程

用文本挖掘和机器学习洞悉数据

机器学习特征提取