数据库或英文名字和姓氏列表[关闭]
Posted
技术标签:
【中文标题】数据库或英文名字和姓氏列表[关闭]【英文标题】:Database or List of English First and Last Names [closed] 【发布时间】:2013-08-25 20:29:43 【问题描述】:我遇到了一些较小的名称列表/名称集,但我想知道是否有免费的数据源可以提供名称列表(逗号分隔或 sql 结构)?
我找到了这两个网站:
http://names.mongabay.com/most_common_surnames.htm
http://baby-names.familyeducation.com/browse/letter/a?detoured=1
但是您似乎只能浏览名称,而不能下载综合文件。
美国人口普查局不提供这些信息吗?
【问题讨论】:
【参考方案1】:我正在编译一个数据库,其中包含来自不同国家和文化的姓氏,其中包括英国。 项目及其数据集可以在这里找到:https://github.com/enorvelle/NameDatabases(死:链接、项目和 GitHub 帐户)
这似乎已迁移到 github.com/smashew/NameDatabases。(唯一贡献者“Erik Norvelle”。)
【讨论】:
这个好像没有更多了。 @BorisD.Teoharov,链接已更新。【参考方案2】:我能找到的最好的来源是社会保障局提供的数据 - 与人口普查数据不同,他们每年都有名字,可以追溯到 1900 年左右。
https://www.ssa.gov/oact/babynames/limits.html
【讨论】:
【参考方案3】:人口普查局提供了 2000 年和 1990 年人口普查中的常见姓氏列表: http://www.census.gov/topics/population/genealogy/data/2000_surnames.html http://www.census.gov/topics/population/genealogy/data/1990_census/1990_census_namefiles.html
1990 年的人口普查文件也列出了常见的男性和女性姓名。
【讨论】:
【参考方案4】:选项 1) 我将数百万人的数据上传到 github,这些数据是从不同的网站抓取并从 Google 开放数据集转储的。
https://github.com/aakashkag/People-Name-List [名和姓目录的 Github 链接]
选项 2)
Google BigQuery 公共数据集: https://cloud.google.com/bigquery/public-data/
您可以从 Google 开放数据集中获取姓名以及性别。
1)数据集:bigquery-public-data:github_repos
例如:https://app.hyfy.io/v/abRJ75Xizno/
查询:SELECT * FROM fh-bigquery.popular_names.usa_summary_1880_2015
LIMIT 1000
可用名称总数:1858689
2)日期集:bigquery-public-data.github_repos.commits
查询:SELECT author.name 作为 author_name,author.email 作为 author_email,committer.name 作为 committer_name,committer.email 作为 committer_email,repo_name FROM bigquery-public-data.github_repos.commits
3)日期集:bigquery-public-data.usa_names.usa_1910_2013`
查询:SELECT * FROM bigquery-public-data.usa_names.usa_1910_2013
或者你可以从 Linkdin 获取 https://www.linkedin.com/directory/people-a
【讨论】:
看起来很酷,但您能否提供有关数据来源的更多信息?我不确定这适用于哪些国家和语言,或者数据来自哪里。 不幸的是,“名字”文件几乎毫无用处。看起来更像用户名而不是名字。 @CodeBling 更新了我的答案也更新了数据集 @AakashKag 数据的来源是什么? 此存储库使用 Git 大文件存储,免费帐户有 1GB 带宽配额。以上是关于数据库或英文名字和姓氏列表[关闭]的主要内容,如果未能解决你的问题,请参考以下文章