SAS数据的对比和清洗

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了SAS数据的对比和清洗相关的知识,希望对你有一定的参考价值。

参考技术A

SAS中对比两个数据集的命令是proc compare,它的基本格式如下:

其中, proc compare 语句是调用数据比较过程,选项 base 和 compare 分别指定被比较的两个数据集; nosummary 的作用是不显示一些概括性的结果;而 transpose 则是按记录显示不一致的结果,默认是按变量显示不一致的结果。

而 id 语句通常指定索引变量,如id号,默认显示行号。举例说明:

一旦发现输入错误的数据集,便可以使用 if ...then... 语句进行修改,举例说明:

SAS利用 proc sort 过程来查找和删除重复值,它的基本格式如下:

其中,若不指定 out 选项,那么排序后的数据集将覆盖原有数据集; nouniquekey 的作用是输出重复值, nodupkey 选项是输出唯一值。

by 语句指定排序的变量,可以指定多个,默认按升序排序。

SAS的sort过程会自动产生两个变量:first.变量和last.变量,这两个变量分别表示 某变量某个值 的第一个和最后一个观测。直接举例说明其用法:

在上述例子中,需要注意的是,用 set 语句赋值数据集时,也要加上 by 语句,否则SAS不认 first.id last.id

除此之外,如果想要过滤掉观测的第一行,可以在 proc print; 前面加一句 if not first.id;

Hive教程---整合HBASE

目录

6.4.1 HBase与Hive的对比

6.4.2 HBase与Hive集成使用


6.4.1 HBase与Hive的对比

  1. Hive
    (1) 数据仓库
    Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。
    (2) 用于数据分析、清洗
    Hive适用于离线的数据分析和清洗,延迟较高。
    (3) 基于HDFS、MapReduce
    Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。
  2. HBase
    (1) 数据库
    是一种面向列存储的非关系型数据库。
    (2) 用于存储结构化和非结构化的数据
    适用于单表非关系型数据的存储,不适合做关联查询,类似JOIN等操作。
    (3) 基于HDFS
    数据持久化存储的体现形式是Hfile,存放于DataNode中,被ResionServer以region的形式进行管理。
    (4) 延迟较低,接入在线业务使用
    面对大量的企业数据,HBase可以直线单表大量数据的存储,同时提供了高效的数据访问速度。

6.4.2 HBase与Hive集成使用

       尖叫提示:HBase与Hive的集成在最新的两个版本中无法兼容。所以,我们只能含着泪勇敢的重新编译:hive-hbase-handler-1.2.2.jar!!好气!!

以上是关于SAS数据的对比和清洗的主要内容,如果未能解决你的问题,请参考以下文章

pandas使用to_sql方法将dataframe注册为数据库表进行数据整合和数据清洗并不对比SQL操作和dataframe操作

SAS vs SSD对比测试MySQL tpch性能

大数据之Hbase:HBase与Hive的对比

看到这些,做好数据分析并不难

Hive教程---整合HBASE

ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle