《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)

Posted 风信子的猫Redamancy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)相关的知识,希望对你有一定的参考价值。

1-3 文本数据建模流程范例 (imdb电影评论分类问题)

文章目录

一,准备数据

imdb数据集的目标是根据电影评论的文本内容预测评论的情感标签。

训练集有20000条电影评论文本,测试集有5000条电影评论文本,其中正面评论和负面评论都各占一半。

文本数据预处理较为繁琐,包括中文切词(本示例不涉及),构建词典,编码转换,序列填充,构建数据管道等等。

在tensorflow中完成文本数据预处理的常用方案有两种,第一种是利用tf.keras.preprocessing中的Tokenizer词典构建工具和tf.keras.utils.Sequence构建文本数据生成器管道。

第二种是使用tf.data.Dataset搭配.keras.layers.experimental.preprocessing.TextVectorization预处理层。

第二种方法为TensorFlow原生方式,

以上是关于《30天吃掉那只 TensorFlow2.0》 1-3 文本数据建模流程范例 (imdb电影评论分类问题)的主要内容,如果未能解决你的问题,请参考以下文章

《30天吃掉那只 TensorFlow2.0》 5-1 数据管道Dataset

《30天吃掉那只 TensorFlow2.0》 开篇辞(Tensorflow 学习之路)

《30天吃掉那只 TensorFlow2.0》 开篇辞(Tensorflow 学习之路)

《30天吃掉那只 TensorFlow2.0》 3-1 低阶API示范

《30天吃掉那只 TensorFlow2.0》 2-1 张量数据结构

《30天吃掉那只 TensorFlow2.0》 2-2 三种计算图