谷歌云/BigQuery/基因组数据位置

Posted

技术标签:

【中文标题】谷歌云/BigQuery/基因组数据位置【英文标题】:Google Cloud/BigQuery/Genomics data location 【发布时间】:2015-04-24 17:57:53 【问题描述】:

我们公司的一些工作要求将云中的数据存储在美国。

对于 Google Cloud,我可以将存储桶位置指定为美国位置。 https://cloud.google.com/storage/docs/bucket-locations

但对于 BigQuery 和 Google Genomics,API 中没有此类选项。有人知道这些服务的数据存储在哪些国家/地区吗?

【问题讨论】:

【参考方案1】:

默认情况下,BigQuery 中的所有数据都位于美国的数据中心。我们刚刚宣布了一个欧洲区域的可用性,但如果您不请求,将不会将任何数据移动到那里。

见http://googlecloudplatform.blogspot.com/2015/04/take-your-big-data-to-new-places-with-Google-BigQuery.html

【讨论】:

【参考方案2】:

很难知道 Google Genomics 后端服务器将数据存储在哪些存储桶中,但如果您对他们的公共基因组学数据执行以下命令,他们的存储桶都是基于美国的:

$ gsutil ls -L -b gs://genomics-public-data
gs://genomics-public-data/ :
    Storage class:                  STANDARD
    Location constraint:            US
    Versioning enabled:             None
    Logging configuration:          None
    Website configuration:          None
    CORS configuration:             None
    Lifecycle configuration:        None
    ACL:                            []
    Default ACL:                    []

所以很可能他们都在美国。

希望对你有帮助, 保罗

【讨论】:

【参考方案3】:

公共数据托管在美国境内。对于您自己的数据,Google Cloud Storage 让您选择区域,包括美国和非美国选项。 Felipe 关于 BigQuery 的信息是正确的。

对于通过 Genomics API 导入 Google Genomics 的读取和变体,所有数据仅在 API 处于测试阶段时存储在美国境内。我们正在寻求社区关于数据本地化要求的反馈。

【讨论】:

以上是关于谷歌云/BigQuery/基因组数据位置的主要内容,如果未能解决你的问题,请参考以下文章

谷歌云bigquery成本

从谷歌云存储中的 csv 加载数据作为 bigquery 'in' 查询

Bigquery 如何使用存储在谷歌云中的数据?

如何在谷歌云数据流管道中传递动态参数

从谷歌云上传多个 csv 到 bigquery

如何使用apache气流调度谷歌云bigquery存储过程