KNIME - 多个属性上的字符串到文档节点

Posted

技术标签:

【中文标题】KNIME - 多个属性上的字符串到文档节点【英文标题】:KNIME - Strings to Document node on more than one attribute 【发布时间】:2018-10-11 08:55:49 【问题描述】:

我正在使用以下数据集 (https://www.kaggle.com/crowdflower/twitter-user-gender-classification/data) 开发一个朴素贝叶斯分类器。

我正在尝试做的是训练一个分类器,它允许我根据 twitter 文本、twitter 个人资料描述和 twitter 个人资料侧面颜色来预测用户性别。 由于 twitter 文本和配置文件描述属性是字符串列,因此我需要在训练分类器之前对数据进行预处理。为了做到这一点,我看到在很多示例中都使用了 Strings to Document 节点。然后,这个新列 Document 会被其他节点如数字过滤器、大小写转换器等预处理。

由于我想使用多个属性来训练我的分类器,我必须做什么?我应该将字符串属性(twitter 文本和个人资料描述)都转换为文档吗?

【问题讨论】:

由您决定如何处理您的数据。如果您不想使用两个 Strings to Document 节点,您可以在此之前简单地连接两个字符串列(尽管这可能不是您想要的,因为它们是不同的文本)。我没有看到工作流中有两个 Strings to Document 节点有任何问题。 【参考方案1】:

我可以建议您使用所需的所有预处理创建一个元节点,然后复制此元节点以预处理您认为对模型有用的每个字符串列。然后只需使用数据提取器节点并将预处理的字符串列与列追加器节点连接到一个新表中。

【讨论】:

以上是关于KNIME - 多个属性上的字符串到文档节点的主要内容,如果未能解决你的问题,请参考以下文章

已解决 - 如何在Knime Unpivoting节点中编写regex来选择列。

DOM(Document object madle) 文档对象模型: 元素节点 文本节点 属性节点

将文档字符串放在 Python 属性上的正确方法是啥?

利用KNIME建立Spark Machine learning 模型 1:开发环境搭建

XSLT 将来自多个节点的属性连接成单个值

Jahia:节点属性的最大长度约束