允许其他人下载我拥有的数据集的最便宜的方法是啥?

Posted

技术标签:

【中文标题】允许其他人下载我拥有的数据集的最便宜的方法是啥?【英文标题】:What is the cheapest way to allow others to download a dataset I have?允许其他人下载我拥有的数据集的最便宜的方法是什么? 【发布时间】:2021-04-28 18:26:50 【问题描述】:

我的机器学习应用程序有一些数据集(可能总共可以达到 10 GB(压缩))

为了将这些数据集公开给其他人,我相信我必须托管一个服务器并让其他人通过网络下载。

    我可以为此使用的最便宜的服务器是什么? (我查看了 AWS 免费套餐,可以使用吗?) 我需要编写一个 Web 服务器吗?是否有可用于我的用例的预制工具?

【问题讨论】:

最便宜的方法是将您的数据集上传到 Google Drive 并向其他人发送共享链接。 是的。最好使用不收取带宽费用的服务——Google Drive、DropBox、Microsoft OneDrive。 【参考方案1】:

您没有说明将下载多少数据(GB/月),这很重要,因为您需要支付超出初始免费量(1 GB/月,我相信,但请检查免费套餐是否提供更多),这与 S3 和 EC2 相关。

也就是说,我会考虑几个选项。

    将文件存储在 S3 中并通过 CloudFront 从 S3 提供文件可能比运行 24x7 的服务器来托管和提供文件要便宜。

    适合免费套餐使用计划的小型 EC2 服务器,运行 Web 或 FTP 服务器,为您的文件提供服务。

    与 #1 类似,但您也可以为 S3 下载配置 requester pays。此选项要求您的下载者拥有 AWS 凭证并由您管理他们的访问。在您的情况下可能不可行。

    创建一个包含您的数据的 EBS 卷,拍摄该卷的快照,并使用其他 AWS 账户share the snapshot,然后关闭您的 EC2 实例。此选项要求您的用户是 AWS 账户持有人,并且他们与您共享他们的 AWS 帐号。在您的情况下可能不可行。

    AWS SFTP 提供存储在 S3 中的数据。

【讨论】:

在上述方法中,使用请求者付款 (#3) 或共享 Amazon EBS 卷 (#4) 是成本最低的选项,因为它们避免了数据传输费用。成本纯粹是要存储的数据量的函数,而不是“服务”的数据量。但是,访问数据需要 AWS 知识。 非常感谢。我想我会先试试#1,如果遇到任何问题,我可能会退回到#2。

以上是关于允许其他人下载我拥有的数据集的最便宜的方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

每次将应用程序推回前台时刷新 tableView 的最有效方法是啥?

允许用户重置密码的最安全方法是啥

检测访问者是不是滚动到页面中的某个点的最明智的方法是啥?

可以用作 AKS 节点的最便宜的 VM 是啥?

在 iphone/ipad 的持久存储上加密数据的最安全方法是啥?

从其他数据库更新表数据的最有效方法是啥?