将文本数据集转换为数字数据集
Posted
技术标签:
【中文标题】将文本数据集转换为数字数据集【英文标题】:Converting textual datasets to numerical datasets 【发布时间】:2015-08-16 12:30:23 【问题描述】:我能问你关于转换数据集的问题吗?我有 2 个数据集,一个用于训练,另一个用于测试。两者都包含关于句子中单词的文本和数字的混合特征。例如(索引、标签、位置、..等)。
这是其中一个数据集(.csv 格式)中的实例示例:
1,point,6,1279,1284,point,NN,confluence,NN,would,MD,maps::NNS the::DT confluence::NN,NNS_DT DT_NN NNS_DT_NN,would::MD有::VB to::TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE
我想做的是在 Matlab 中使用神经网络训练这些数据集并从中提取深层特征。问题是 Matlab 只处理数值数据集。另外,我在 java 中使用了一些分类器,它们只处理数字而不是文本。
任何人有一个建议,请问如何训练这样的数据集?或者如何将其转换为关于其中数字特征的数字格式??
提前致谢,
【问题讨论】:
【参考方案1】:通过使用函数double()
转换变量,您将获得一个包含所有字母和相应代码的数组。
例如double('MA1LAB')
会输出
ans =
77 65 49 76 65 66
然后,你可以用对应的代码来处理每个字母。
请注意,每个字母都有一个代码,因此 1279 将被视为 4 个字符。
【讨论】:
我不是在寻找这种类型的转换。通过使用这种方法,我将失去文本的所有语义。例如"go" 和 "run" 都是动作动词,但是通过强制转换,它们会相距很远。以上是关于将文本数据集转换为数字数据集的主要内容,如果未能解决你的问题,请参考以下文章