AWS 粘合中的数据类别包含啥？

Posted 2023-04-13

技术标签:

【中文标题】AWS 粘合中的数据类别包含啥？【英文标题】：What does data category contain in AWS glue?AWS 粘合中的数据类别包含什么？ 【发布时间】：2019-07-24 23:39:15 【问题描述】：

我正在通过aws glue 将数据抓取到数据目录。但是我对数据库定义有点困惑。根据我在 aws 文档中可以找到的内容，A database in the AWS Glue Data Catalog is a container that holds tables. You use databases to organize your tables into separate categories.。我想知道数据库到底包含什么。它是否从其他数据源加载所有数据并在其上创建目录？还是只包含目录？我如何知道胶水数据库中表的大小？以及它使用什么类型的数据库，例如nosql、rds？

例如，我创建了一个爬虫来从s3 加载数据并在glue 中创建一个目录表。 glue 表是否包含来自s3 bucket 的所有数据？如果我删除了s3bucket，是否会影响到glue中的其他作业，这些作业是针对爬虫创建的目录表运行的？

如果目录表只包含数据架构，如果我的数据源被修改，我如何保持它更新到数据？

【问题讨论】：

【参考方案1】：

目录只是一个元数据存储。它的任务是记录存在于其他地方的数据，并将其导出到其他工具，例如 Athena 或 EMR，以便他们发现数据。

数据不会复制到目录中，而是保留在源中。如果您从目录中删除表，源中的数据将保持不变。

如果您删除原始数据（如您在问题中所述），其他服务将无法再访问数据，因为它已被删除。如果您再次运行爬虫，它应该会检测到它不存在。

如果您想让爬虫架构保持最新状态，您可以安排爬虫的自动运行，或者在您的数据发生变化时按需执行。当爬虫再次运行时，它将相应地更新记录数、分区数，甚至模式中的更改。请参阅the documentation 以查看架构中的更改可能对您的目录产生的影响。

【讨论】：

以上是关于AWS 粘合中的数据类别包含啥？的主要内容，如果未能解决你的问题，请参考以下文章

我的应用因为成熟的 mopub 广告而被拒绝，这样的广告属于啥类型的 IAB 类别？

创建与 redshift 的粘合连接