将文本数据集转换为数字数据集

Posted

技术标签:

【中文标题】将文本数据集转换为数字数据集【英文标题】:Converting textual datasets to numerical datasets 【发布时间】:2015-08-16 12:30:23 【问题描述】:

我能问你关于转换数据集的问题吗?我有 2 个数据集,一个用于训练,另一个用于测试。两者都包含关于句子中单词的文本和数字的混合特征。例如(索引、标签、位置、..等)。

这是其中一个数据集(.csv 格式)中的实例示例:

1,point,6,1279,1284,point,NN,confluence,NN,would,MD,maps::NNS the::DT confluence::NN,NNS_DT DT_NN NNS_DT_NN,would::MD有::VB to::TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE

我想做的是在 Matlab 中使用神经网络训练这些数据集并从中提取深层特征。问题是 Matlab 只处理数值数据集。另外,我在 java 中使用了一些分类器,它们只处理数字而不是文本。

任何人有一个建议,请问如何训练这样的数据集?或者如何将其转换为关于其中数字特征的数字格式??

提前致谢,

【问题讨论】:

【参考方案1】:

通过使用函数double() 转换变量,您将获得一个包含所有字母和相应代码的数组。

例如double('MA1LAB')会输出

ans =

77    65    49    76    65    66

然后,你可以用对应的代码来处理每个字母。

请注意,每个字母都有一个代码,因此 1279 将被视为 4 个字符。

【讨论】:

我不是在寻找这种类型的转换。通过使用这种方法,我将失去文本的所有语义。例如"go" 和 "run" 都是动作动词,但是通过强制转换,它们会相距很远。

以上是关于将文本数据集转换为数字数据集的主要内容,如果未能解决你的问题,请参考以下文章

PyTorch 数据集:将整个数据集转换为 NumPy

给定数据集,如何选择学习算法?

将时间序列数据集转换为监督学习数据集

通过多个步骤将宽数据集转换为长数据集

为多标签文本分类转换数据集

如何将我的数据集转换为没有引号和数据集名称的 Json?