对具有分类数字和文本的数据进行预测。
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对具有分类数字和文本的数据进行预测。相关的知识,希望对你有一定的参考价值。
我正试图为我的数据集建立一个分类器。数据中的每一个观察值都有分类和数值,以及更多的自由文本描述。我知道如何构建一个提升算法来处理分类和数值,而且我已经训练了一个神经网络,可以很成功地在文本上进行预测。我正在纠结的是,如何将这两种方法整合起来?
答案
使用语言模型嵌入你的自由文本(如平均法)。fasttext
词缀,或使用 google-universal-sentence-encoder
)变成一个N次方的浮动向量。一热编码是分类的东西。将[embedding, one_hot_encoding, numericals]连起来,然后badabing badaboom,你已经得到了1个代表你的数据点的向量。
Tensorflow hub的 KerasLayer
+ https:/tfhub.devgoogleuniversal-sentence-encoder4。 是一个很好的起点。如果你需要自己训练一些东西,你可以看一下以下内容 tf.keras.layers.Embedding
.
以上是关于对具有分类数字和文本的数据进行预测。的主要内容,如果未能解决你的问题,请参考以下文章
不确定如何将 sklearn 与包含文本和数字的特征向量一起使用