从某个 subreddit 获取多个用户的所有评论 - Reddit Dataset

Posted

技术标签:

【中文标题】从某个 subreddit 获取多个用户的所有评论 - Reddit Dataset【英文标题】:Getting all comments of multiple users from a certain subreddit - Reddit Dataset 【发布时间】:2016-07-18 14:09:32 【问题描述】:

我想获取在特定 subreddit 中发表评论的每个 redditor 的所有 cmets,例如 r/gaming。 我知道如何查询 subreddits:

SELECT * FROM [fh-bigquery:reddit_comments.2007]
WHERE subreddit = "gaming"

但我的 SQL/BigQuery 知识太有限,无法获取所有在 subreddit 中发表评论的 redditor 的 cmets。

我在想类似的事情

SELECT author FROM [fh-bigquery:reddit_comments.2007]
WHERE subreddit = "gaming"

但这只是给了我在 r/gaming 中发表评论的用户的作者姓名。

如何搜索某个特定 subreddit 的作者并获取他们在所有 subreddit 中的所有提交? Here is the link to the used BigQuery-table.

谢谢!!

【问题讨论】:

【参考方案1】:

下面试试

SELECT * FROM [fh-bigquery:reddit_comments.2007]
WHERE author IN (
  SELECT author FROM [fh-bigquery:reddit_comments.2007]
  WHERE subreddit = "gaming"
  GROUP BY 1
)

【讨论】:

这似乎可行,谢谢! GROUP BY 1 根据什么对数据集进行分组?如果按作者排序就好了。 GROUP BY 1 按 SELECT 语句中的第一个字段分组 - 在这种情况下 - 按作者

以上是关于从某个 subreddit 获取多个用户的所有评论 - Reddit Dataset的主要内容,如果未能解决你的问题,请参考以下文章

搜索包含列表 PSAW python 中任何单词的 reddit 评论

从 JSON 中的 subreddit 获取新帖子

有没有办法获取给定 subreddit 的所有帖子,而不仅仅是一个月以上的帖子?

Pandas,对于一列中的每个唯一值,在另一列中获取唯一值

获取reddit数据[关闭]

parttion by ~~~针对某个字段或多个字段重复,数据只取前n条。问题例子:1.主评论下的评论按着 时间正序最多只取前5条 2.获取最新登录记录......