从使用 Scipy.io.loadmat 加载的 .mat 文件访问数组内容 - python

Posted

技术标签:

【中文标题】从使用 Scipy.io.loadmat 加载的 .mat 文件访问数组内容 - python【英文标题】:Access array contents from a .mat file loaded using Scipy.io.loadmat - python 【发布时间】:2011-09-10 13:05:41 【问题描述】:

更新:这是一个很长的问题,归结为,有人可以向我解释 numpy 数组类吗?我在下面回答了我自己的问题。

我正在做一个项目,将数据从 matlab 导入 mysql 数据库,其内容将通过 django 网站提供。我想使用 Scipy.io.loadmat 将 matlab 中的信息转换为我可以在 python 中使用的表单,以便我可以使用 django api 将数据输入数据库。

我的问题是我无法使用 scipy.io.loadmat 导入的数据。它以几个嵌套数组的形式加载,一些变量名似乎丢失了。

这是我为试用创建的测试结构的 matlab 代码:

sensors.time = [0:1:10].';
sensors.sensor1 = ;
sensors.sensor1.source_type = 'flight';                          
sensors.sensor1.source_name = 'flight-2';                       
sensors.sensor1.channels = ;
sensors.sensor1.channels.channel1.name = '1';                    
sensors.sensor1.channels.channel1.local_ori = 'lateral';         
sensors.sensor1.channels.channel1.vehicle_ori = 'axial';         
sensors.sensor1.channels.channel1.signals = ;
sensors.sensor1.channels.channel1.signals.signal1.filtered = 'N';
sensors.sensor1.channels.channel1.signals.signal1.filtered_description = 'none'; 
sensors.sensor1.channels.channel1.signals.signal1.data = sin(sensors.time)+0.1*rand(11,1); 

>> sensors
      time: [11x1 double]
      sensor1: [1x1 struct]
>> sensors.sensor1
      source_type: 'flight'
      source_name: 'flight-2'
      channels: [1x1 struct]
>> sensors.sensor1.channels
      channel1: [1x1 struct]
>> sensors.sensor1.channels.channel1
      name: '1'
      local_ori: 'lateral'
      vehicle_ori: 'axial'
      signals: [1x1 struct]
>> sensors.sensor1.channels.channel1.signals
      signal1: [1x1 struct]
>> sensors.sensor1.channels.channel1.signals.signal1
      filtered: 'N'
      filtered_description: 'none'
      data: [11x1 double]

我可以很容易地把这个结构想象成一个 python 字典,所以看起来这不应该是一个如此复杂的练习。

这是我用来读取文件的python代码(最终我想读取多个文件):

from scipy
import os, glob

path = 'C:\Users\c\Desktop\import'
for f in glob.glob( os.path.join(path, '*.mat')):
    matfile = scipy.io.loadmat(f, struct_as_record=True)

这是从 loadmat 得到的字典:

>>> matfile
'sensors': array([[ ([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]],[[(array([u'flight'], 
      dtype='<U6'), array([u'flight-2'], 
      dtype='<U8'), array([[ ([[(array([u'1'], 
      dtype='<U1'), array([u'lateral'], 
      dtype='<U7'), array([u'axial'], 
      dtype='<U5'), array([[ ([[(array([u'N'], 
      dtype='<U1'), array([u'none'], 
      dtype='<U4'), array([[ 0.06273465],[ 0.84363597],[ 1.00035443],[ 0.22117587],[-0.68221775],[-0.87761299],[-0.24108487],[ 0.71871452],[ 1.04690773],[ 0.46512366],[-0.51651414]]))]],)]],
      dtype=[('signal1', '|O4')]))]],)]], 
      dtype=[('channel1', '|O4')]))]])]], 
      dtype=[('time', '|O4'), ('sensor1', '|O4')]), '__version__': '1.0', '__header__': 'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Tue Jun 07 18:38:32 2011', '__globals__': []

数据都在那里,但我不知道如何访问这些类对象。我希望能够循环内容以便我可以处理多个传感器,然后每个传感器的多个通道等。

任何有助于我简化此数据结构的解释或建议的更改以使其更容易,我们将不胜感激。


更新,根据 Nick 的建议,这里是 repr(matfile) 和 dir(matfile)

>>> repr(matfile)
"'sensors': array([[ ([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9], [10]], [[(array([u'flight'], \n      dtype='<U6'), array([u'flight-2'], \n      dtype='<U8'), array([[ ([[(array([u'1'], \n      dtype='<U1'), array([u'lateral'], \n      dtype='<U7'), array([u'axial'], \n      dtype='<U5'), array([[ ([[(array([u'N'], \n      dtype='<U1'), array([u'none'], \n      dtype='<U4'), array([[ 0.0248629 ],\n       [ 0.88663486],\n       [ 0.93206871],\n       [ 0.22156497],\n       [-0.65819207],\n       [-0.95592508],\n       [-0.22584908],\n       [ 0.66569432],\n       [ 1.06956739],\n       [ 0.51103298],\n       [-0.53732649]]))]], [[(array([u'Y'], \n      dtype='<U1'), array([u'1. 5 Hz High Pass, 2. remove offset'], \n      dtype='<U35'), array([[ 0.        ],\n       [ 0.84147098],\n       [ 0.90929743],\n       [ 0.14112001],\n       [-0.7568025 ],\n       [-0.95892427],\n       [-0.2794155 ],\n       [ 0.6569866 ],\n       [ 0.98935825],\n       [ 0.41211849],\n       [-0.54402111]]))]])]], \n      dtype=[('signal1', '|O4'), ('signal2', '|O4')]))]],)]], \n      dtype=[('channel1', '|O4')]))]])]], \n      dtype=[('time', '|O4'), ('sensor1', '|O4')]), '__version__': '1.0', '__header__': 'MATLAB 5.0 MAT-file, Platform: PCWIN64, Created on: Wed Jun 08 10:58:19 2011', '__globals__': []"

>>> dir(matfile)
['__class__', '__cmp__', '__contains__', '__delattr__', '__delitem__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'has_key', 'items', 'iteritems', 'iterkeys', 'itervalues', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values', 'viewitems', 'viewkeys', 'viewvalues']

>>> dir(matfile['sensors'])
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_wrap__', '__class__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__delslice__', '__div__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getslice__', '__gt__', '__hash__', '__hex__', '__iadd__', '__iand__', '__idiv__', '__ifloordiv__', '__ilshift__', '__imod__', '__imul__', '__index__', '__init__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__long__', '__lshift__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__oct__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdiv__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rlshift__', '__rmod__', '__rmul__', '__ror__', '__rpow__', '__rrshift__', '__rshift__', '__rsub__', '__rtruediv__', '__rxor__', '__setattr__', '__setitem__', '__setslice__', '__setstate__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__truediv__', '__xor__', 'all', 'any', 'argmax', 'argmin', 'argsort', 'astype', 'base', 'byteswap', 'choose', 'clip', 'compress', 'conj', 'conjugate', 'copy', 'ctypes', 'cumprod', 'cumsum', 'data', 'diagonal', 'dot', 'dtype', 'dump', 'dumps', 'fill', 'flags', 'flat', 'flatten', 'getfield', 'imag', 'item', 'itemset', 'itemsize', 'max', 'mean', 'min', 'nbytes', 'ndim', 'newbyteorder', 'nonzero', 'prod', 'ptp', 'put', 'ravel', 'real', 'repeat', 'reshape', 'resize', 'round', 'searchsorted', 'setfield', 'setflags', 'shape', 'size', 'sort', 'squeeze', 'std', 'strides', 'sum', 'swapaxes', 'take', 'tofile', 'tolist', 'tostring', 'trace', 'transpose', 'var', 'view']

显然我需要学习一些关于对象和类的知识。如何提取数组的位并将它们放入变量中。例如:

time = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
source_type = 'flight'
etc.   

【问题讨论】:

类对象是什么意思?你在说array吗? 我将标签更改为包含 numpy.看来问题是我对 numpy.ndarrays 缺乏了解。我发现我可以使用matfile['sensors'].dtype.names 循环遍历第一级数组(感谢记录数组)。这将返回 ('time', 'sensor1')。但是matfile['sensors']['sensor1'].dtype 是一个对象,我不知道如何访问它。我对matfile['sensors']['sensor1'][0,0] 的成功有限,但我想确切地了解发生了什么以及在结构发生轻微变化时如何访问这些对象。 首先,您可以发布repr(matfile) 的输出吗?其次,您可以使用内置函数dir 来确定对象具有哪些方法和属性。 @Nick - 是的,我相信它是一个数组。我指的是与数组关联的“dtype”。它们是“对象”类型。 @Nick - 在上面帖子的末尾发布了repr(matfile)dir(matfile)dir(matfile['sensors'] 【参考方案1】:

我在我们公司的一个相当复杂的 mat 文件中遇到了类似的问题。我仍然对 scipy IO 模块感到困惑,但这就是我们发现的。

当您访问 matfile['sensors'] 时,它会返回一个 scipy.io.matlab.mio5_params.mat_struct 对象,我们可以使用它来访问下面的内容。当您打印它时,它看起来像一个平面数组,但您仍然可以访问 dict 以获取各个组件。所以你可以运行这样的东西来开始访问组件:

from scipy.io import loadmat
matfile = loadmat('myfile.mat', squeeze_me=True, struct_as_record=False)
matfile['sensors'].sensor1.channels.channel1.name

在您的情况下,您希望能够迭代结构中的元素,如果您访问 mat_struct 对象的 _fieldnames 属性,就可以做到这一点。从那里您可以遍历字段名称并使用 getattr 访问它们:

for field in matfile['sensors']._fieldnames:
    # getattr will return the value for the given key
    print getattr(matfile['sensors'], field)

这至少允许我们访问深层嵌套的元素,而无需更改我们的 mat 文件。

【讨论】:

你是对的。顶层是一个字典,它从那里向下钻取到对象数组。 ._fieldnames 解决方案的工作原理与 matlab 中的 fieldnames 函数一样。我从来没有用过那种方法。在其他情况下,我会使用 .__dict__.keys()。谢谢。如果可以的话,我会再次投票给你的答案。【参考方案2】:

我采用的解决方案是简化 MATLAB 结构。我消除了嵌套结构。每个数据集都驻留在一个文件中,我使用 python 循环遍历指定目录中特定类型的所有文件。 (http://bogdan.org.ua/2007/08/12/python-iterate-and-read-all-files-in-a-directory-folder.html,如果你想看一个例子。 )

导入平面 matlab 结构会生成一个字典,其中 matlab 变量名称是键。字符串以形状 (1,) --> [ string ] 的数组形式出现,数字以形状 (N, M) 的数组形式出现 --> [[ numbers ]]。

我仍然需要了解更多关于 numpy 数组的知识。

【讨论】:

以上是关于从使用 Scipy.io.loadmat 加载的 .mat 文件访问数组内容 - python的主要内容,如果未能解决你的问题,请参考以下文章

scipy.io.loadmat 嵌套结构(即字典)

如何使用 Scipy.io.loadmat 将 Matlab mat 文件中的字符串单元格数组加载到 Python 列表或元组中

使用 scipy.io.loadmat 在 python 中加载 matlab 表

Scipy IO Loadmat 错误:ValueError:Mat 4 mopt 格式错误

使用 scipy.io loadmat 将 Matlab 结构导入 python 时的值错误

在 python 中访问包含 matlab 类的 .mat 文件