第 7 章 处理文本数据Python机器学习基础教程
Posted YOLO V9
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第 7 章 处理文本数据Python机器学习基础教程相关的知识,希望对你有一定的参考价值。
第 7 章 处理文本数据
表示数据属性的三种类型的特征:
1)连续特征:用于描述数量;
2)分类特征:固定列表中的元素;
3)文本特征:
- 如果我们想要判断一封电子邮件是合法邮件还是垃圾邮件,那么邮件内容一定会包含对这个分类任务非常重要的信息。
- 我们可能想要了解一位政治家对移民问题的看法。这个人的演讲或推文可能会提供有用的信息。
- 在客户服务中,我们通常想知道一条消息是投诉还是咨询。我们可以利用消息的主题和内容来自动判断客户的目的,从而将消息发送给相关部门,甚至可以发送一封全自动回复。
7.1 用字符串表示的数据类型
7.2 示例应用:电影评论的情感分析
7.3 将文本数据表示为词袋
7.3.1 将词袋应用于玩具数据集
7.3.2 将词袋应用于电影评论
7.4 停用词
7.5 用 tf-idf 缩放数据
7.6 研究模型系数
7.7 多个单词的词袋(n 元分词)
7.8 高级分词、词干提取与词形还原
7.9 主题建模与文档聚类
7.10 小结与展望
以上是关于第 7 章 处理文本数据Python机器学习基础教程的主要内容,如果未能解决你的问题,请参考以下文章