orc文件压缩、本地导出、查看、下载

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了orc文件压缩、本地导出、查看、下载相关的知识,希望对你有一定的参考价值。

参考技术A 压缩比例在1:7到1:10之间,3份副本的话会节省接近10倍空间
调查数据周末要给出
数据压缩后要注意负载均衡问题,可以尝试reblance

hive的orc文件使用sqoop导出到mysql使用hcatalog直接增加一些配置参数即可

以json方式查看orc文件

以KV形式查看orc文件

orc读取会查找字段在min和max中的值,不包含则跳过,所以速度会快

mysql查看数据库和表的占用空间大小

mysql查看数据库和表的占用空间大小

?

  1. 第一部分-任务

将线上db,导出后,导入到office db

一.

两种方案:

1,将数据直接从online-->office,通过mysqldump

通过本地putty等和ecs建隧道,然后传数据到本地.(本地win可以按照gzip,压缩后传到office server)

2,先在ecs上mysqldump压缩,然后下载下来

下载方案:

1,rsync daemon

2,rsync ssh

3,scp

4,sz <----这种速度较快,前三者都差不多,记得md5sum

?

?

  1. 第二部分

查看数据库大小

1.查看数据库的大小

?

use 数据库名

SELECT sum(DATA_LENGTH)+sum(INDEX_LENGTH) FROM information_schema.TABLES where TABLE_SCHEMA=‘数据库名‘;

得到的结果是以字节为单位,除1024为K,除1048576为M。

?

2.查看表的最后mysql修改时间

?

select TABLE_NAME,UPDATE_TIME from INFORMATION_SCHEMA.tables where TABLE_SCHEMA=‘数据库名‘;

可以通过查看数据库中表的mysql修改时间,来确定mysql数据库是否已经长期不再使用。

?

3.查看数据库中各个表占用的空间大小

?

?

如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话,可以打开MySQL的 information_schema 数据库。在该库中有一个 TABLES 表,这个表主要字段分别是:

?

TABLE_SCHEMA : 数据库名

TABLE_NAME:表名

ENGINE:所使用的存储引擎

TABLES_ROWS:记录数

DATA_LENGTH:数据大小

INDEX_LENGTH:索引大小

?

其他字段请参考MySQL的手册,我们只需要了解这几个就足够了。

?

所以要知道一个表占用空间的大小,那就相当于是 数据大小 + 索引大小 即可。

?

SQL:

?

SELECT TABLE_NAME,DATA_LENGTH+INDEX_LENGTH,TABLE_ROWS FROM TABLES WHERE TABLE_SCHEMA=‘数据库名‘ AND TABLE_NAME=‘表名‘

?

4.查看表的最后mysql修改时间

?

select TABLE_NAME,UPDATE_TIME from INFORMATION_SCHEMA.tables where TABLE_SCHEMA=‘数据库名‘;

?

可以通过查看数据库中表的mysql修改时间,来确定mysql数据库是否已经长期不再使用。

以上是关于orc文件压缩、本地导出、查看、下载的主要内容,如果未能解决你的问题,请参考以下文章

php导出excel表后,打包成压缩包,然后下载到本地如何实现?

快速压缩文件的 Redshift 加载

parquet和orc

Java POI实现excel大数据量下载

使用SSH分卷压缩,下载到本地如何解压缩?

压缩和存储