从 Pandas 数据帧转换为 TensorFlow 张量对象

Posted

技术标签:

【中文标题】从 Pandas 数据帧转换为 TensorFlow 张量对象【英文标题】:Converting from Pandas dataframe to TensorFlow tensor object 【发布时间】:2017-07-06 07:59:25 【问题描述】:

我还是 Python、机器学习和 TensorFlow 的新手,但我会尽我最大的努力直接跳入正题。不过我可以使用一些帮助。

我的数据当前位于 Pandas 数据框中。如何将其转换为 TensorFlow 对象?我试过了

dataVar_tensor = tf.constant(dataVar)
depth_tensor = tf.constant(depth)

但是,我收到错误[15780 rows x 9 columns] - got shape [15780, 9], but wanted []

我确信这可能是一个简单的问题,但我真的可以使用帮助。

非常感谢

ps。我在 Windows 10 上使用 Anaconda Python 3.5 运行 tensorflow 0.12

【问题讨论】:

你想用这些数据做什么?它是您要训练的神经网络的输入吗?从错误消息看来,常量只需要一个常量,所以是整数或浮点数,而不是矩阵 @rAyyy 是的,我的计划是最终将其输入到神经网络中。目前,我只是试图从教程中获取 MNIST 示例,并使其适用于我自己的数据。我正在使用 pandas.read_csv() 从 csv 文件中读取 【参考方案1】:

我已使用 df.values 将我的 Pandas 数据帧转换为 Numpy 数组

现在,使用

dataVar_tensor = tf.constant(dataVar, dtype = tf.float32, shape=[15780,9])
depth_tensor = tf.constant(depth, 'float32',shape=[15780,1])

似乎有效。我不能肯定地说它确实如此,因为我还有其他障碍需要克服才能让我的代码正常工作,但希望这是朝着正确方向迈出的一步。感谢您的所有帮助

顺便说一句,我在下一个问题Converting TensorFlow tutorial to work with my own data

中继续尝试让教程处理我自己的数据

【讨论】:

我将熊猫系列 (y_train) 的整数转换为张量,然后转换为 one_hot,如下所示:dataVar_tensor = tf.Variable(y_train.as_matrix(), dtype = tf.int32) result = tf. one_hot(dataVar_tensor, depth) pandas.DataFrame.values 确实是TensorFlow教程tensorflow.org/tutorials/load_data/…上的建议【参考方案2】:

这是我发现的一种适用于 Google Colab 的解决方案:

import pandas as pd
import tensorflow as tf
#Read the file to a pandas object
data=pd.read_csv('filedir')
#convert the pandas object to a tensor
data=tf.convert_to_tensor(data)
type(data)

这将打印如下内容:

tensorflow.python.framework.ops.Tensor

【讨论】:

【参考方案3】:

以下基于numpy数组输入数据很容易工作:

import tensorflow as tf
import numpy as np
a = np.array([1,2,3])
with tf.Session() as sess:
    tf.global_variables_initializer().run()

    dataVar = tf.constant(a)
    print(dataVar.eval())

-> [1 2 3]

不要忘记启动您的张量对象sessionrun()eval() 以查看其内容;否则它只会给你它的通用描述。

我怀疑由于您的数据位于 DataFrame 而不是简单的数组中,因此您需要尝试使用您当前未指定的 shape parameter ,以帮助它理解DataFrame 的维度并处理其索引等?

【讨论】:

谢谢。我正在运行一个 InteractiveSession,我尝试了几种不同的 dataVar_tensor = tf.constant(dataVar, dtype = tf.float32, shape=[15780,9]) 变体,但到目前为止没有运气【参考方案4】:

您可以将数据框列转换为张量对象,如下所示:

tf.constant((df['column_name']))

这应该会返回一个看起来像这样的张量变量:

<tf.Tensor: id=275634, shape=(48895,), dtype=float64, numpy=
array([1, 2, ...])>

此外,您可以根据需要添加任意数量的数据框列,如下所示:

tf.constant(([cdf['column1'], cdf['column2']]))

希望这会有所帮助。

【讨论】:

【参考方案5】:

hottbox.pdtools.utils(HOTTBOX API 的 Pandas 集成工具)提供功能

   pd_to_tensor(df[, keep_index])
   tensor_to_pd(tensor[, col_name])

用于双向转换。

【讨论】:

【参考方案6】:

您可以在make_input_fn(X, y, num_epochs) 函数中使用tf.estimator.inputs.pandas_input_fn。但是,我还没有设法让它与多索引一起使用。我通过使用 df.reset_index(drop=True) 将其转换为标准整数索引来解决此问题

【讨论】:

以上是关于从 Pandas 数据帧转换为 TensorFlow 张量对象的主要内容,如果未能解决你的问题,请参考以下文章

从 Pandas 数据帧到 Spark 数据帧的转换需要大量时间

将列表写入 pandas 数据帧到 csv,从 csv 读取数据帧并再次转换为列表而无需字符串

直接将 Pandas 数据帧转换为稀疏 Numpy 矩阵

用 NA 值填充 dict 以允许转换为 pandas 数据帧

通过 pyspark.sql.dataframe 将 XML 数据转换为 pandas 数据帧

将 pyspark 数据帧转换为 pandas 数据帧