Sqoop处理Clob与Blob字段

Posted 2020-06-17

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Sqoop处理Clob与Blob字段相关的知识，希望对你有一定的参考价值。

[Author]: kwu

Sqoop处理Clob与Blob字段，在Oracle中Clob为大文本。Blob存储二进制文件。

遇到这类字段导入hive或者hdfs须要特殊处理。

1、oracle中的測试表

CREATE TABLE
    T_LOB
    (
        A INTEGER,
        B CLOB,
        C BLOB
    )

測试数据

insert into T_LOB (A, B, C) values (1, 'clob測试',to_blob('3456'));

2、sqoop脚本

import
--append
--connect
jdbc:oracle:thin:@localhost:1521/orcl
--username
wuke
--password
Abcd1234
--table
BDC_TEST.T_LOB
--columns
"A,B,C"
--target-dir 
/tmp/t_lob

-m
1

运行脚本

sqoop --options-file ./importHdfs.opt

3、查看生成的HDFS文件

技术分享

能够看出。clob的字段是导入到hdfs上是正常显示文本，blob是二进制文件导出到hdfs上显示为16进制

16进制转换为string可採用例如以下方法，实际上通过移位操作来实现：

package com.ganymede.test;

/**
 * 十六进制的转换操作
 * @author Ganymede
 *
 */
public class Hex {

	/**
	 * 用于建立十六进制字符的输出的小写字符数组
	 */
	private static final char[] DIGITS_LOWER = { '0', '1', '2', '3', '4', '5',
			'6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };

	/**
	 * 用于建立十六进制字符的输出的大写字符数组
	 */
	private static final char[] DIGITS_UPPER = { '0', '1', '2', '3', '4', '5',
			'6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F' };

	/**
	 * 将字节数组转换为十六进制字符数组
	 * 
	 * @param data
	 *            byte[]
	 * @return 十六进制char[]
	 */
	public static char[] encodeHex(byte[] data) {
		return encodeHex(data, true);
	}

	/**
	 * 将字节数组转换为十六进制字符数组
	 * 
	 * @param data
	 *            byte[]
	 * @param toLowerCase
	 *            <code>true</code> 传换成小写格式 。 <code>false</code> 传换成大写格式
	 * @return 十六进制char[]
	 */
	public static char[] encodeHex(byte[] data, boolean toLowerCase) {
		return encodeHex(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER);
	}

	/**
	 * 将字节数组转换为十六进制字符数组
	 * 
	 * @param data
	 *            byte[]
	 * @param toDigits
	 *            用于控制输出的char[]
	 * @return 十六进制char[]
	 */
	protected static char[] encodeHex(byte[] data, char[] toDigits) {
		int l = data.length;
		char[] out = new char[l << 1];
		// two characters form the hex value.
		for (int i = 0, j = 0; i < l; i++) {
			out[j++] = toDigits[(0xF0 & data[i]) >>> 4];
			out[j++] = toDigits[0x0F & data[i]];
		}
		return out;
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 * 
	 * @param data
	 *            byte[]
	 * @return 十六进制String
	 */
	public static String encodeHexStr(byte[] data) {
		return encodeHexStr(data, true);
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 * 
	 * @param data
	 *            byte[]
	 * @param toLowerCase
	 *            <code>true</code> 传换成小写格式 ， <code>false</code> 传换成大写格式
	 * @return 十六进制String
	 */
	public static String encodeHexStr(byte[] data, boolean toLowerCase) {
		return encodeHexStr(data, toLowerCase ?
 DIGITS_LOWER : DIGITS_UPPER);
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 * 
	 * @param data
	 *            byte[]
	 * @param toDigits
	 *            用于控制输出的char[]
	 * @return 十六进制String
	 */
	protected static String encodeHexStr(byte[] data, char[] toDigits) {
		return new String(encodeHex(data, toDigits));
	}

	/**
	 * 将十六进制字符数组转换为字节数组
	 * 
	 * @param data
	 *            十六进制char[]
	 * @return byte[]
	 * @throws RuntimeException
	 *             假设源十六进制字符数组是一个奇怪的长度，将抛出执行时异常
	 */
	public static byte[] decodeHex(char[] data) {

		int len = data.length;

		if ((len & 0x01) != 0) {
			throw new RuntimeException("Odd number of characters.");
		}

		byte[] out = new byte[len >> 1];

		// two characters form the hex value.
		for (int i = 0, j = 0; j < len; i++) {
			int f = toDigit(data[j], j) << 4;
			j++;
			f = f | toDigit(data[j], j);
			j++;
			out[i] = (byte) (f & 0xFF);
		}

		return out;
	}

	/**
	 * 将十六进制字符转换成一个整数
	 * 
	 * @param ch
	 *            十六进制char
	 * @param index
	 *            十六进制字符在字符数组中的位置
	 * @return 一个整数
	 * @throws RuntimeException
	 *             当ch不是一个合法的十六进制字符时，抛出执行时异常
	 */
	protected static int toDigit(char ch, int index) {
		int digit = Character.digit(ch, 16);
		if (digit == -1) {
			throw new RuntimeException("Illegal hexadecimal character " + ch
					+ " at index " + index);
		}
		return digit;
	}

	public static void main(String[] args) {
		String srcStr = "待转换字符串";
		String encodeStr = encodeHexStr(srcStr.getBytes());
		String decodeStr = new String(decodeHex(encodeStr.toCharArray()));
		System.out.println("转换前：" + srcStr);
		System.out.println("转换后：" + encodeStr);
		System.out.println("还原后：" + decodeStr);
		
		
		System.out.println("---------------------------------------");
		decodeStr = new String(decodeHex("3435363738390d0a626c6f62".toCharArray()));
		System.out.println("还原后：" + decodeStr);
	}

}

对于hive能够在入库前转换成string。或者直接入库后使用udf来转换

以上是关于Sqoop处理Clob与Blob字段的主要内容，如果未能解决你的问题，请参考以下文章

Oracle35BLOB字段和CLOB字段

jdbc—CLOB和BLOB

Struts+Spring+Hibernate处理Lob(Blob,Clob)

[19/05/07-星期二] JDBC(Java DataBase Connectivity)_CLOB(存储大量的文本数据)与BLOB(存储大量的二进制数据)

2015.1.5 用DBFactorySingleton写读二进制字段与oralce CLOB类型字段读写[除非需要做内部解析，不要用CLOB，CLOB速度要比BLOB慢15倍以上]

Sqoop：导入所有转换 blob 类型的表