BigQuery拆分列并获取每个子字符串的计数[重复]

Posted

技术标签:

【中文标题】BigQuery拆分列并获取每个子字符串的计数[重复]【英文标题】:BigQuery split column and get count of count each substring [duplicate] 【发布时间】:2018-03-06 23:58:57 【问题描述】:

在 BigQuery 中,我想创建一个查询来计算 cmets 字段中单词的出现次数,并按每次出现的次数进行分组。这将使我了解哪些词比其他词使用得更多,并了解用户的行为和情绪。 bigquery 很新,所以任何想法都会有所帮助。

【问题讨论】:

这里的主要想法 - 是先自己尝试一些东西,如果有任何特殊/具体问题 - 向我们提出,我们将很乐意提供帮助。那么,到目前为止,您尝试过什么?有什么疑问吗?您是否尝试过搜索类似或确切的问题? 啊,是的,我还没有写权限...正在查看我可以访问的 mysql,但它似乎依赖于子字符串,所以我想我必须计算一下分隔符首先,然后得到 N 次出现...认为我可以使用 explode(split(field,' ') 作为单词来分隔每个单词。希望我能尽快获得写入权限。谢谢 我输了 - 你是在使用 mysql 还是 bigquery?!你不需要有写权限来播放和运行简单的查询:o) 所以你可以开始 大查询。是的,我很糟糕,我将使用免费帐户进行设置,现在不知何故忘记了使用另一个帐户的选项。 我想我没有看到...它帮助很大。考虑到我意识到我们没有使用我的解决方案所依赖的 Leqacy sql。 【参考方案1】:

我最终做的是使用拆分功能...

SELECT 
COUNT(JJ) AS STUFF, JJ
FROM
(SELECT SPLIT(text, ' ') AS JJ FROM [bigquery-public-
data:hacker_news.comments] LIMIT 1000 ) 
GROUP BY JJ
ORDER BY STUFF DESC
LIMIT 5

显然可以通过在拆分前使用replace删除其他字符来进行更多操作。

【讨论】:

以上是关于BigQuery拆分列并获取每个子字符串的计数[重复]的主要内容,如果未能解决你的问题,请参考以下文章

BigQuery - 同时运行计数和拆分功能

将二进制字符串拆分为长度为 n 的子字符串,然后解码 R 中的每个子字符串

Pandas DataFrame Groupby 两列并获取计数

合并列并获取计数 SQL Server 2008

哇 |拆分列并使用子字符串映射

R:拆分字符列并创建两个新的