orc文件压缩、本地导出、查看、下载
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了orc文件压缩、本地导出、查看、下载相关的知识,希望对你有一定的参考价值。
参考技术A 压缩比例在1:7到1:10之间,3份副本的话会节省接近10倍空间调查数据周末要给出
数据压缩后要注意负载均衡问题,可以尝试reblance
hive的orc文件使用sqoop导出到mysql使用hcatalog直接增加一些配置参数即可
以json方式查看orc文件
以KV形式查看orc文件
orc读取会查找字段在min和max中的值,不包含则跳过,所以速度会快
mysql查看数据库和表的占用空间大小
mysql查看数据库和表的占用空间大小
?
第一部分-任务
将线上db,导出后,导入到office db
一.
两种方案:
1,将数据直接从online-->office,通过mysqldump
通过本地putty等和ecs建隧道,然后传数据到本地.(本地win可以按照gzip,压缩后传到office server)
2,先在ecs上mysqldump压缩,然后下载下来
下载方案:
1,rsync daemon
2,rsync ssh
3,scp
4,sz <----这种速度较快,前三者都差不多,记得md5sum
?
?
第二部分
查看数据库大小
1.查看数据库的大小
?
use 数据库名
SELECT sum(DATA_LENGTH)+sum(INDEX_LENGTH) FROM information_schema.TABLES where TABLE_SCHEMA=‘数据库名‘;
得到的结果是以字节为单位,除1024为K,除1048576为M。
?
2.查看表的最后mysql修改时间
?
select TABLE_NAME,UPDATE_TIME from INFORMATION_SCHEMA.tables where TABLE_SCHEMA=‘数据库名‘;
可以通过查看数据库中表的mysql修改时间,来确定mysql数据库是否已经长期不再使用。
?
3.查看数据库中各个表占用的空间大小
?
?
如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话,可以打开MySQL的 information_schema 数据库。在该库中有一个 TABLES 表,这个表主要字段分别是:
?
TABLE_SCHEMA : 数据库名
TABLE_NAME:表名
ENGINE:所使用的存储引擎
TABLES_ROWS:记录数
DATA_LENGTH:数据大小
INDEX_LENGTH:索引大小
?
其他字段请参考MySQL的手册,我们只需要了解这几个就足够了。
?
所以要知道一个表占用空间的大小,那就相当于是 数据大小 + 索引大小 即可。
?
SQL:
?
SELECT TABLE_NAME,DATA_LENGTH+INDEX_LENGTH,TABLE_ROWS FROM TABLES WHERE TABLE_SCHEMA=‘数据库名‘ AND TABLE_NAME=‘表名‘
?
4.查看表的最后mysql修改时间
?
select TABLE_NAME,UPDATE_TIME from INFORMATION_SCHEMA.tables where TABLE_SCHEMA=‘数据库名‘;
?
可以通过查看数据库中表的mysql修改时间,来确定mysql数据库是否已经长期不再使用。
以上是关于orc文件压缩、本地导出、查看、下载的主要内容,如果未能解决你的问题,请参考以下文章