在不覆盖实时数据库的情况下查询 GCP Datastore 备份
Posted
技术标签:
【中文标题】在不覆盖实时数据库的情况下查询 GCP Datastore 备份【英文标题】:Querying GCP Datastore backup without overwriting live database 【发布时间】:2021-05-09 07:52:24 【问题描述】:我正在尝试访问由gcloud datastore export 创建的备份。我只想访问备份中的一些条目,不想修改实时数据库。
到目前为止我已经尝试过:
使用gcloud datastore import: 恢复似乎我唯一的选择是限制从备份中覆盖的命名空间和种类。如果我不想覆盖任何内容,我可以创建一个新的 GCP 项目并恢复到该项目。但是,这是一个艰难的选择,因为我无法控制我的组织的计费,而且恢复的备份会超过免费套餐。
手动解析备份文件:import export guide 提到:
托管导出的输出使用LevelDB log format。
我根据上面链接的语法编写了一个解析器。好消息是它类似于我在十六进制编辑器中的数据。不幸的是,似乎每条记录都包装在一些未记录的二进制格式中,其中还包含命名空间、种类和键的多个副本。我不知道如何解析这个。
提前感谢您的任何帮助或建议!
【问题讨论】:
【参考方案1】:从 GCS 存储桶下载备份:
mkdir ~/my-datastore-backups
gsutil -m cp -r gs://my-datastore-backups/2020-07-30T09:00:07_35225/ ~/my-datastore-backups
Import the backup to the datastore emulator:
curl -X POST localhost:8081/v1/projects/my-project:import \
-H 'Content-Type: application/json' \
-d '"input_url":"/home/user/my-datastore-backups/2020-07-30T09:00:07_35225/2020-07-30T09:00:07_35225.overall_export_metadata"'
【讨论】:
以上是关于在不覆盖实时数据库的情况下查询 GCP Datastore 备份的主要内容,如果未能解决你的问题,请参考以下文章
在不使用 Dataproc 的情况下将 GCP 与 PySpark 连接
如何在不覆盖之前数据的情况下创建多个 java txt 文件? [复制]