如何有效地将 Postgres 数据从 Query 传输到 S3

Posted

技术标签:

【中文标题】如何有效地将 Postgres 数据从 Query 传输到 S3【英文标题】:How to transfer Postgres Data from Query to S3 Efficiently 【发布时间】:2020-11-27 22:17:20 【问题描述】:

我的 node.js 应用服务当前使用提供的选择查询访问 postgres,将其转换为 csv,然后将该 CSV 文件上传到 S3。

我想知道是否有更好的方法可以更有效地处理更大的数据拉取?

【问题讨论】:

【参考方案1】:

这应该会让你达到大约 90%。我还没有测试过这个确切的实现,可能有一两个错字,但我现在有类似的代码在生产中运行。

const  Transform  = require('json2csv');
const  Client, Query  = require('pg')
const  S3  = require('aws-sdk');
const  Passthrough  = require('stream')

const client = new Client()
const s3 = new S3( region: 'us-east-1' );


const opts =  fields: ['field1', 'field2', 'field3'] ;
const transformOpts =  highWaterMark: 8192, encoding: 'utf-8', objectMode: true ;

const transform = new Transform(opts, transformOpts);
const passthrough = new Passthrough();
transform.pipe(passthrough)


client.connect()

const query = new Query('SELECT field1, field2, field3 FROM table')
client.query(query)

query.on('row', row => 
  transform.push(row);
  console.log('row!', row) //  field1: 1, field2: 2, field3: 3 
)
query.on('end', () => 
  transform.push(null)
  console.log('query done')
)
query.on('error', err => 
  transform.end();
  console.error(err.stack)
)

s3.upload( Body: passthrough, Key: 'somefile.csv', Bucket: 'some_bucket' )
.send((err, data) => 
  if (err) 
    console.error( err );
    passthrough.destroy(err);
   else 
    console.log(`File uploaded and available at $data.Location`);
    passthrough.destroy();
  
);

【讨论】:

在头脑风暴之后,我最终利用pg-copy-streams 节点包 (github.com/brianc/node-pg-copy-streams) 做了一些非常相似的事情。感谢您的精心回复。

以上是关于如何有效地将 Postgres 数据从 Query 传输到 S3的主要内容,如果未能解决你的问题,请参考以下文章

如何有效地将数据从 CSV 加载到数据库中?

使用 PySide 时,如何有效地将数据从 NumPy 数组传输到 QPolygonF?

如何有效地将大数据从数据中心移动到 Azure Blob 存储,以便以后通过 HDInsight 进行处理?

如何以异步方式有效地将变量从 Matlab 传递到 GPU?

如何有效地将节点添加到段树中以进行最小范围查询?

如何有效地将大字符串从 Python 传递到 C++ 扩展方法?