识别和标记R中的部分重复记录

Question

我有一个包含数千（~12k）记录和多个（36）变量的数据框。为了提供一些背景，这些是对动物行为的观察。 20个变量记录了特定个体的存在与否（作为2个级别的因子）。

我想要实现的是创建一个额外的变量来标记存在/不存在变量的每个唯一组合。因此，如果我有以下简化数据集，其中X和Y记录感兴趣的变量（细节与问题无关）和三个人A，B，C（其中“ab”=缺席和“pr”=存在）：

Date      Time    X    Y    A   B   C
17-12-01  10:15   2    4    pr  ab  pr
17-12-01  10:45   3    5    pr  ab  pr
17-12-01  11:15   2    4    ab  pr  pr
17-12-01  11:40   2    4    ab  pr  pr
17-12-01  11:15   6    7    ab  pr  ab
...

可能的独特组合是：

A    B    C
pr   pr   pr
pr   ab   ab
ab   pr   ab
ab   ab   pr
pr   pr   ab
ab   pr   pr
pr   ab   pr

[编辑：所有'ab'的组合 - 原则上 - 可能，但不会出现，因为所有人都将缺席 - 因此无法进行观察]

[编辑：]所需的输出：

Date      Time    X    Y    A   B   C     Combination
17-12-01  10:15   2    4    pr  ab  pr    1
17-12-01  10:45   3    5    pr  ab  pr    1
17-12-01  11:15   2    4    ab  pr  pr    2
17-12-01  11:40   2    4    ab  pr  pr    2
...                         ab  ab  pr    3    etc.

我发现我可以创建一个新的数据框，使用distinct中的dplyr选择独特的组合：

newDF = distinct(oldDF, A, B, C, .keep_all = TRUE)

但是这会删除（或者更确切地说不包括在newDF中）重复项，而我想要做的是保留所有重复项，但只标记每个唯一组合（我可以找到的所有其他帖子和建议都与删除重复项有关），并且真实数据框有20个“个体”变量，而不仅仅是三个。

所以我的问题是：有没有办法使用distinct的输出来实现这一目标，还是我让自己陷入了一条死胡同，还需要另一种方法？

任何帮助非常感谢。

缺口

Answer 1

另一答案

Answer 2

另一答案