TensorFlow 高级估计器的预处理数据集

Posted

技术标签:

【中文标题】TensorFlow 高级估计器的预处理数据集【英文标题】:preprocess data sets for Tensorflow highlevel estimators 【发布时间】:2018-10-05 12:07:14 【问题描述】:

我来自 Scikit Learn 背景。 我很难理解如何为 Tensorflow 预处理数据集。

我正在尝试使用 iris 数据集实现 svm。 如果我有两个 numpy 数组,一个包含特征列表,另一个包含标签列表,我将使用哪些函数来创建分类器?

estimator = SVM(
    example_id_column='example_id',
    feature_columns=[real_feature_column, sparse_feature_column],
    l2_regularization=10.0)

我假设 example_id_column 是

example_id_column  = '0,1,2'

我不确定如何获得 feature_columns

【问题讨论】:

【参考方案1】:

我认为最有效的方法是使用TFRecords 文件。有一个comprehensive tutorial 仍然是最相关的,也是。这还具有让您将更多管道定义为图形的一部分的优点,能够从源文件进行并发读取,并且不需要将数据集放入内存中。这绝对是值得的。

【讨论】:

以上是关于TensorFlow 高级估计器的预处理数据集的主要内容,如果未能解决你的问题,请参考以下文章

恢复使用迭代器的 TensorFlow 模型

TF Boys (TensorFlow Boys ) 养成记

使用管道作为估计器的 VotingClassifier

不平衡数据集的 Knn 分类器

Tensorflow2.0语法 - dataset数据封装+训测验切割

TensorFlow 训练在音频分类器的第一个时期的最后一步崩溃