如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?

Posted

技术标签:

【中文标题】如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?【英文标题】:How to query GHTorrent's (SQL-like language) for country/city/users number/repositories number? 【发布时间】:2020-12-26 19:46:36 【问题描述】:

我阅读了很多关于 GitHub 数据检索的文档,并通过 BiGQuery 查看了 Github 用户提交/推送数据,但未能找到城市、国家/地区字段,也未能找到有关此类查询的任何描述。尽管有信息表明此类查询在理论上是可能的 - https://gist.github.com/kelewis/4bc942f9433c41b1ddb6/。但这需要 Azure 湖 (??) 。有谁知道如何通过 /My_SQL/Postgres/BigQuery/ 或任何类似 python (Jupiter) SQL 的函数查询 Github 数据 - 例如带有“国家”和“城市”字段的 pandas DataFrames?

像这个例子一样 .....................

选择 城市,国家, SUM(数字) 作为总计 从 ghtorrent-bq.ght.commits 通过...分组 国家、地区 订购方式 总DESC 限制 10000 ………… 谢谢!

【问题讨论】:

【参考方案1】:

下面对您来说应该是一个很好的起点(BigQuery 标准 SQL)

SELECT city, country_code, count(*) AS total 
FROM `ghtorrent-bq.ght.commits` AS c
JOIN `ghtorrent-bq.ght.users` AS u
ON c.Committer_Id = u.id
WHERE NOT u.fake 
GROUP BY country_code, city 
ORDER BY total DESC 
LIMIT 10000

【讨论】:

以上是关于如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?的主要内容,如果未能解决你的问题,请参考以下文章

MySQL笔记SQL语言四大类语言

SQL语言共分为四大类

sql语言如何查询一条记录中含有两个关键字?

SQL语言的分类

sql语言是啥语言?

如何在Excel中使用SQL语言实现数据查询?