是否可以在无监督学习中使用分组的数据行对数据进行聚类?
Posted
技术标签:
【中文标题】是否可以在无监督学习中使用分组的数据行对数据进行聚类?【英文标题】:Is it possible to cluster data with grouped rows of data in unsupervised learning? 【发布时间】:2019-10-04 04:20:03 【问题描述】:我正在为无监督学习算法设置数据。该项目的目标是根据他们在网站上的行为将不同的客户分组(聚集)在一起。显然,某种聚类算法最适合发现人类无法看到的数据中的模式。
但是,对于客户在网站上为该次访问所采取的每项操作,该数据库包含针对每位客户的多行(按时间顺序)。例如,ID# 123 的客户在 X 时间单击第 1 页,这将是数据库中的一行,然后同一客户在 Y 时间单击另一个页面。这将在数据库中创建另一行。
我的问题是,在这个给定的场景中,您会使用什么算法或方法进行聚类? K-means对于这类问题确实很受欢迎,但我不知道是否可以在这种情况下使用,因为分组。是否有可能围绕一个包含多行的特定 ID 进行聚类分析?
感谢任何我应该采取的无监督学习的帮助/指导。
【问题讨论】:
似乎您应该为每个客户条目创建一个嵌入。一种方法是将它们视为事件序列,并在自然语言处理中使用现有技术。 @xxbidiao 您能否更深入地解释一下如何做到这一点?我遇到过像 Word2Vector 这样适用于我们的环境(Python)的库。而且我理解您将动作转换为“句子”的想法,然后可以进行处理。我只是对最后一步感到困惑,如何把它变成一个可以被 kmeans 使用的数字。谢谢 【参考方案1】:总之,
-
了解每个事件的固定长度嵌入(表示);
了解一种将此类嵌入序列组合成每个事件的单一表示的方法,然后使用您最喜欢的无监督方法。
对于 (1),您可以手动完成,也可以使用编码器/解码器; 对于 (2),您可以做很多事情,从简单地平均每个事件的嵌入,到训练 encoder-decoder 重建原始事件序列并采用中间表示(解码器用来重建原始序列)。
关于这个主题的好读物(虽然有点老;你现在也可以选择Transformer Network):
Representations for Language: From Word Embeddings to Sentence Meanings
【讨论】:
以上是关于是否可以在无监督学习中使用分组的数据行对数据进行聚类?的主要内容,如果未能解决你的问题,请参考以下文章