Java JDBC Postgres copyIn无法识别行尾并填充双引号

Posted

技术标签:

【中文标题】Java JDBC Postgres copyIn无法识别行尾并填充双引号【英文标题】:Java JDBC Postgres copyIn not recognizing end of line and padding double quotes 【发布时间】:2018-08-12 04:49:39 【问题描述】:

我正在尝试使用 Java 将数据从 Oracle 加载到 Greenplum。我将结果集作为逗号分隔值存储到字节数组输入流中,然后使用复制加载它。

import java.sql.*; 
import au.com.bytecode.opencsv.CSVWriter;
import java.io.*;
import org.postgresql.copy.CopyManager;
import org.postgresql.core.BaseConnection;

public class ORtoGP    
        public static void main(String[] args) throws SQLException 
            try 
                String dbURL = "jdbc:oracle:thin:@(DESCRIPTION = (ADDRESS_LIST = (ADDRESS = (PROTOCOL = TCP)(HOST = xxxxxx)(PORT = 1521))) (CONNECT_DATA = (SERVICE_NAME = xxxxxx) (SRVR = DEDICATED)))";
                String strUserID = "xxxxxx";
                String strPassword = "xxxxxx";
                Connection myConnection=DriverManager.getConnection(dbURL,strUserID,strPassword);
                Statement sqlStatement = myConnection.createStatement(ResultSet.TYPE_SCROLL_SENSITIVE, ResultSet.CONCUR_READ_ONLY);
                String readRecordSQL = "select id,name from table where rownum <= 10 ";
                ResultSet rs = sqlStatement.executeQuery(readRecordSQL); 

                StringWriter stringWriter = new StringWriter();
                CSVWriter csvWriter = new CSVWriter(stringWriter);

                rs.first(); 
                csvWriter.writeAll(rs, true);
                String orresult = stringWriter.toString();
                System.out.println(orresult);

                byte[] bytes = orresult.getBytes();
                ByteArrayInputStream orinput = new ByteArrayInputStream(bytes); 


                String dbURL1 = "jdbc:postgresql://xxxxx:5432/xxxxx";
                String user = "xxxx";
                String pass = "xxxx";
                Connection conn2 = DriverManager.getConnection(dbURL1, user, pass);

                CopyManager copyManager = new CopyManager((BaseConnection) conn2);
                copyManager.copyIn("copy java_test from stdin with DELIMITER ','",orinput);

                rs.close();
                myConnection.close();
                csvWriter.close();

             catch (Exception e) 
                System.out.println(e);
                   
        
    

但是,我遇到了两个问题:

    批量加载数据时,进程无法识别行尾。所以它给出了这个错误。 “错误:最后一个预期列之后的额外数据” 它还尝试加载数据,包括值周围的双引号。

【问题讨论】:

有一个更简单的方法。有两个开源项目可以更轻松地将数据从 Oracle 加载到 Greenplum。一个是外包商,另一个是 gplink。两者都可以在这里找到:pivotalguru.com 谢谢.. 我已经检查了 Outsourcer.. 它有一个依赖项,您需要从安装 gpfdist 的服务器或类似的服务器上运行它。我不记得具体细节,因为我已经有一段时间没有尝试过了,但它不能从“任何机器”运行。我仍然试图让它在特定的服务器上工作,但遇到了一些 Java 错误,所以我放弃了它。 外包商必须运行在集群中每个主机都可以访问的机器上。因此,由于分段主机位于专用网络中,因此 Master 或 Standby 是最佳选择。 谢谢.. 我们在从主或备用运行它时遇到了一些挑战。 DBA 已推迟主选项。我们在业务组之间在使用备用时存在操作问题。所以这个选项也被排除了。所以我放弃了。 【参考方案1】:

根据documentation,默认格式为text,不处理引用。

您需要在命令中指定FORMAT csv

【讨论】:

谢谢.. 我添加了这个 - copyManager.copyIn("copy java_test from stdin with csv header",orinput);,它解决了这些问题。但是,我得到一个不同的错误,org.postgresql.util.PSQLException: ERROR: invalid byte sequence for encoding "UTF8": 0x92 提示:如果字节序列与服务器预期的编码不匹配,也会发生此错误,这由“client_encoding”控制。我检查了数据库,发现它确实有 UTF8 编码。那么这个错误是否意味着传入的数据采用不同的编码形式?如何解决这个问题?谢谢。 您查看我提供的文档链接了吗?你看到ENCODING 选项了吗? 是的,我确实首先尝试了编码。不幸的是,我的 Postgres 版本不支持编码 - 8.2 (postgresql.org/docs/8.2/static/sql-copy.html)。我也试过这个 - orresult.replaceAll("\u0000", "");.. 但似乎没有太大区别。 您必须在读取数据时重新编码。问题不是\u0000,而是0x92 我将它添加到代码中,它也解决了编码问题.. - byte[] bytes = orresult.getBytes("UTF8"); .感谢您抽出宝贵时间。

以上是关于Java JDBC Postgres copyIn无法识别行尾并填充双引号的主要内容,如果未能解决你的问题,请参考以下文章

使用 java 程序从 STDIN 复制 Redshift

clojure/java.jdbc 和 postgres:Prepared statments 比字符串连接查询慢 100 倍?

Postgres / JDBC 与 pgjdbc-ng:将 EAN 类型写入数据库

升级 JDBC 驱动程序后,Postgres 中到整数的隐式类型转换失败

clojure连接postgres

Spark 找不到 postgres jdbc 驱动程序