S3 选择定价如何运作? s3 select中返回和扫描的数据是啥意思

Posted

技术标签:

【中文标题】S3 选择定价如何运作? s3 select中返回和扫描的数据是啥意思【英文标题】:How S3 select pricing works? What is data returned and scanned in s3 select meansS3 选择定价如何运作? s3 select中返回和扫描的数据是什么意思 【发布时间】:2019-03-30 18:49:27 【问题描述】:

我有 1M 行 CSV 数据。选择 10 行,我是否需要为 10 行付费。 S3 Select中返回的数据和扫描的数据是什么意思?

关于 S3 select 的这些条款的文档较少

【问题讨论】:

将其标记为 prestodb,因为它也适用于 Presto 本身 (github.com/prestodb/presto/pull/11033)。 【参考方案1】:

为了简单起见,让我们暂时忘记 S3 以柱状方式读取。假设您有以下数据:

| City       | Last Updated Date   |
|------------|---------------------|
| London     | 1st Jan             |
| London     | 2nd Jan             |
| New Delhi  | 2nd Jan             |

获取最新更新日期的查询

强制 S3 扫描所有 3 条记录 但返回的记录只有 2 条(最后更新日期为 1 月 2 日)

查询上次更新日期为 1 月 1 日的选定城市,

将扫描所有 3 行 但只返回 1 个字符串 - “新德里”。

因此,根据您的查询,它可能会扫描更多数据(3 行)但返回更少数据(2 行)。

希望您现在了解已扫描数据和已返回数据之间的区别。

【讨论】:

以上是关于S3 选择定价如何运作? s3 select中返回和扫描的数据是啥意思的主要内容,如果未能解决你的问题,请参考以下文章

json 亚马逊S3定价

云端缓存仅命中定价

S3 选择 CSV 中的检索标头

s3 select和athena有什么区别

AWS S3 Select 和 AWS Athena 有啥区别?

如果我不关心插入速度,我应该将 S3 与 Redshift 一起使用吗?