如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?
Posted
技术标签:
【中文标题】如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?【英文标题】:How to query GHTorrent's (SQL-like language) for country/city/users number/repositories number? 【发布时间】:2020-12-26 19:46:36 【问题描述】:我阅读了很多关于 GitHub 数据检索的文档,并通过 BiGQuery 查看了 Github 用户提交/推送数据,但未能找到城市、国家/地区字段,也未能找到有关此类查询的任何描述。尽管有信息表明此类查询在理论上是可能的 - https://gist.github.com/kelewis/4bc942f9433c41b1ddb6/。但这需要 Azure 湖 (??) 。有谁知道如何通过 /My_SQL/Postgres/BigQuery/ 或任何类似 python (Jupiter) SQL 的函数查询 Github 数据 - 例如带有“国家”和“城市”字段的 pandas DataFrames?
像这个例子一样 .....................
选择
城市,国家,
SUM(数字) 作为总计
从
ghtorrent-bq.ght.commits
通过...分组
国家、地区
订购方式
总DESC
限制
10000
…………
谢谢!
【问题讨论】:
【参考方案1】:下面对您来说应该是一个很好的起点(BigQuery 标准 SQL)
SELECT city, country_code, count(*) AS total
FROM `ghtorrent-bq.ght.commits` AS c
JOIN `ghtorrent-bq.ght.users` AS u
ON c.Committer_Id = u.id
WHERE NOT u.fake
GROUP BY country_code, city
ORDER BY total DESC
LIMIT 10000
【讨论】:
以上是关于如何查询 GHTorrent(类 SQL 语言)的国家/城市/用户编号/存储库编号?的主要内容,如果未能解决你的问题,请参考以下文章