请问sas中scan函数如何使用?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了请问sas中scan函数如何使用?相关的知识,希望对你有一定的参考价值。

scan函数: scan(s,n,"char")表示从字串string中以char为分隔符提取第n个字串。

功能(function):从字符表达式s中搜取给定的n个单词

语法(syntax)

1、scan(s,n) n为正数时,从字符s末尾提取n个字符

2、scan(s,n) n为负数时,从字符s开始提取n个字符

3、scan(s,n<,list-of-delimiters>)

如果指定分隔符,则只会按照该分隔符提取。如果不指定,则按照常用的分隔符拆分,默认分隔符为:空格 . < ( + & ! $ *) ; ^ - / , % | 等之一或组合。

扩展资料

注意事项:

1、如果缺失指定的生成变量的长度,系统默认长度为200。

2、如果|n|=0或大于字符s的长度,则该函数返回空格。

3、用于读入纯字符或者数字,没有表头;

4、如果输入的单一类型的变量,例如均是:数值或者均是字符,用scan效率更高。但其不能读入混合类型的数据,也就是在scan()读入的必须同为字符或者同为数值;

5、默认情况下用scan读入的数据生成向量类型(这也就是为什么读入的数据必须是同为字符或者同为数字)。

参考技术A scan(string,i,"char")
表示从字串string中以char为分隔符提取第i个字串。本回答被提问者采纳
参考技术B Scan函数
【功能】从字符表达式s中搜取给定的n个单词
【类别】 字符函数
【语法】
1. Scan(s,n) n为正数时,从字符s末尾提取n个字符
2. Scan(s,n) n为负数时,从字符s开始提取n个字符
3. SCAN (s,n<,list-of-delimiters>)
【注意】
1. 如果缺失指定的生成变量的长度,系统默认长度为200.
2. 如果|n|=0或大于字符s的长度,则该函数返回空格。
【例子】
data a;
arg='ABC.DEF(X=Y)';
word=scan(arg,3);
put word;
run;

data b;
arg='ABC.DEF(X=Y)';
word=scan(arg,-3);
put word;
run;

data c;
arg='ABC.DEF(X=Y)';
word=scan(arg,-20);
put word;
run;

data d;
input Arr $ & 22.;
ArrivalGate=scan(Arr,1,' ');
DepartureGate = scan(Arr,2,' ');
put DepartureGate ArrivalGate arr;
cards;
Arrival DepartureGates
;
run;
参考技术C 一、数学函数

ABS(x) 求x的绝对值。

MAX(x1,x2,…,xn) 求所有自变量中的最大一个。

MIN(x1,x2,…,xn) 求所有自变量中的最小一个。

MOD(x,y) 求x除以y的余数。

SQRT(x) 求x的平方根。

ROUND(x,eps) 求x按照eps指定的精度四舍五入后的结果,比如ROUND(5654.5654,0.01) 结果为5654.57,ROUND(5654.5654,10)结果为5650。

CEIL(x) 求大于等于x的最小整数。当x为整数时就是x本身,否则为x右边最近的整数。

FLOOR(x) 求小于等于x的最大整数。当x为整数时就是x本身,否则为x左边最近的整数。

INT(x) 求x扔掉小数部分后的结果。

FUZZ(x) 当x与其四舍五入整数值相差小于1E-12时取四舍五入。

LOG(x) 求x的自然对数。

LOG10(x) 求x的常用对数。

EXP(x) 指数函数 。

SIN(x), COS(x), TAN(x) 求x的正弦、余弦、正切函数。

ARSIN(y) 计算函数y=sin(x)在区间的反函数,y取[-1,1]间值。

ARCOS(y) 计算函数y=cos(x)在的反函数,y取[-1,1]间值。

ATAN(y) 计算函数y=tan(x)在 的反函数,y取间值。

SINH(x), COSH(x), TANH(x) 双曲正弦、余弦、正切

ERF(x) 误差函数

GAMMA(x) 完全 函数

此外还有符号函数SIGN,函数一阶导数函数DIGAMMA,二阶导数函数TRIGAMMA ,误差函数余函数ERFC,函数自然对数LGAMMA,ORDINAL函数,AIRY 函数,DAIRY函数,Bessel函数JBESSEL,修正的Bessel函数IBESSEL,等等。

二、数组函数

数组函数计算数组的维数、上下界,有利于写出可移植的程序。数组函数包括:

DIM(x) 求数组x第一维的元素的个数(注意当下界为1时元素个数与上界相同,否则元素个数不一定与上界相同)。

DIM k(x) 求数组x第k维的元素的个数。

LBOUND(x) 求数组x第一维的下界。

HBOUND(x) 求数组x第一维的上界。

LBOUND k(x) 求数组x第 k维的下界。

HBOUND k(x) 求数组x第 k维的上界。

三、字符函数

较重要的字符函数有:

TRIM(s) 返回去掉字符串s的尾随空格的结果。

UPCASE(s) 把字符串s中所有小写字母转换为大写字母后的结果。

LOWCASE(s) 把字符串s中所有大写字母转换为小写字母后的结果。

INDEX(s,s1) 查找s1在s中出现的位置。找不到时返回0。

RANK(s) 字符s的ASCII码值。

BYTE(n) 第n个ASCII码值的对应字符。

REPEAT(s,n) 字符表达式s重复n次。

SUBSTR(s,p,n) 从字符串s中的第p个字符开始抽取n个字符长的子串

TRANWRD(s,s1,s2) 从字符串s中把所有字符串s1替换成字符串s2后的结果。

其它字符函数还有 COLLATE,COMPRESS,INDEXC,LEFT,LENGTH,REVERSE,RIGHT,SCAN ,TRANSLATE,VERIFY,COMPBL,DEQUOTE,INDEXW,QUOTE,SOUNDEX,TRIMN,INDEXW。

四、日期和时间函数

常用日期和时间函数有:

MDY(m,d,yr) 生成yr年m月d日的SAS日期值

YEAR(date) 由SAS日期值date得到年

MONTH(date) 由SAS日期值date得到月

DAY(date) 由SAS日期值date得到日

WEEKDAY(date) 由SAS日期值date得到星期几

QTR(date) 由SAS日期值date得到季度值

HMS(h,m,s) 由小时h、分钟m、秒s生成SAS时间值

DHMS(d,h,m,s) 由SAS日期值d、小时h、分钟m、秒s生成SAS日期时间值

DATEPART(dt) 求SAS日期时间值dt的日期部分

INTNX(interval,from,n) 计算从from开始经过n个in间隔后的SAS日期。其中interval 可以取'YEAR'、'QTR'、'MONTH'、'WEEK'、'DAY'等。比如,INTNX('MONTH', '16Dec1997'd, 3)结果为1998年3月1日。注意它总是返回一个周期的开始值。

INTCK(interval,from,to) 计算从日期from到日期to中间经过的interval间隔的个数,其中interval取'MONTH'等。比如,INTCK('YEAR', '31Dec1996'd, '1Jan1998'd)计算1996年12 月31日到1998年1月1日经过的年间隔的个数,结果得2,尽管这两个日期之间实际只隔1年。

其它日期和时间函数还有DATE、TODAY、 DATETIME、DATEJUL、JULDATE、HOUR、MINUTE、SECOND 、TIME、TIMEPART等。详见《SAS系统-Base SAS软件使用手册》、《SAS系统-SAS/ETS软件使用手册》。

五、分布密度函数、分布函数

作为一个统计计算语言,SAS提供了多种概率分布的有关函数。分布密度、概率、累积分布函数等可以通过几种统一的格式调用,格式为

分布函数值 = CDF(' 分布', x <, 参数表>);

密度值 = PDF(' 分布', x <, 参数表>);

概率值 = PMF(' 分布', x <, 参数表>);

对数密度值 = LOGPDF(' 分布', x <, 参数表>);

对数概率值 = LOGPMF(' 分布', x <, 参数表>);

CDF计算由'分布'指定的分布的分布函数, PDF计算分布密度函数值,PMF计算离散分布的分布概率,LOGPDF为PDF的自然对数,LOGPMF为PMF的自然对数。函数在自变量 x处计算,<, 参数表>表示可选的参数表。

分布类型取值可以为: BERNOULLI, BETA, BINOMIAL, CAUCHY, CHISQUARED, EXPONENTIAL, F, GAMMA, GEOMETRIC, HYPERGEOMETRIC, LAPLACE, LOGISTIC, LOGNORMAL, NEGBINOMIAL, NORMAL 或 GAUSSIAN, PARETO, POISSON, T, UNIFORM, WALD 或 IGAUSS, and WEIBULL。可以只写前四个字母。

例如,PDF('NORMAL', 1.96)计算标准正态分布在1.96处的密度值(0.05844),CDF('NORMAL', 1.96)计算标准正态分布在1.96处的分布函数值(0.975)。PMF对连续型分布即PDF。

除了用上述统一的格式调用外,SAS还单独提供了常用的分布的密度、分布函数。

PROBNORM(x) 标准正态分布函数

PROBT(x,df<,nc>) 自由度为df的t分布函数。可选参数nc为非中心参数。

PROBCHI(x,df<,nc>) 自由度为df的卡方分布函数。可选参数nc为非中心参数。

PROBF(x,ndf,ddf<,nc>) F(ndf,ddf)分布的分布函数。可选参数nc为非中心参数。

PROBBNML(p,n,m) 设随机变量Y服从二项分布B(n,p),此函数计算P(Y m)。

POISSON((lambda,n) 参数为lambda的Poisson分布Y n的概率。

PROBNEGB(p,n,m) 参数为(n,p)的负二项分布Y m的概率。

PROBHYPR(N,K,n,x<,r>) 超几何分布的分布函数。设N个产品中有K个不合格品,抽取n个样品,其中不合格品数小于等于x的概率为此函数值。可选参数r是不匀率,缺省为1 ,r代表抽到不合格品的概率是抽到合格品概率的多少倍。

PROBBETA(x,a,b) 参数为(a,b)的Beta分布的分布函数。

PROBGAM(x,a) 参数为a的Gamma分布的分布函数。

PROBMC 计算多组均值的多重比较检验的概率值和临界值。

PROBBNRM(x,y,r) 标准二元正态分布的分布函数,r为相关系数。

六、分位数函数

分位数函数是概率分布函数的反函数。其自变量在0到1之间取值。分位数函数计算的是分布的左侧分位数。SAS提供了六种常见连续型分布的分位数函数。

PROBIT(p) 标准正态分布左侧p分位数。结果在-5到5之间。

TINV(p, df <,nc>) 自由度为df的t分布的左侧p分位数。可选参数nc为非中心参数。

CINV(p,df<,nc>) 自由度为df的卡方分布的左侧p分位数。可选参数nc为非中心参数。

FINV(p,ndf,ddf<,nc>) F(ndf,ddf)分布的左侧p分位数。可选参数nc为非中心参数。

GAMINV(p,a) 参数为a的伽马分布的左侧p分位数。

BETAINV(p,a,b) 参数为(a,b)的贝塔分布的左侧p分位数。

七、随机数函数

SAS可以用来进行随机模拟。它提供了常见分布的伪随机数生成函数。

1.均匀分布随机数

有两个均匀分布随机数函数:UNIFORM(seed),seed必须是常数,为0,或5位、6位、7位的奇数。RANUNI(seed),seed为小于2**31-1的任意常数。在同一个数据步中对同一个随机数函数的多次调用将得到不同的结果,但不同数据步中从同一种子出发将得到相同的随机数序列。随机数种子如果取0或者负数则种子采用系统日期时间。

2.正态分布随机数

有两种,NORMAL(seed),seed为0,或5位、6位、7位的奇数。RANNOR(seed),seed为任意数值常数。

3.指数分布随机数

RANEXP(seed),seed为任意数值,产生参数为1的指数分布的随机数。参数为lambda的指数分布可以用RANEXP(seed)/lambda得到。

另外若Y=alpha-beta*LOG(RANEXP(seed)),则Y为位置参数为alpha,尺度参数为beta的极值分布。若Y=FLOOR(-RANEXP(seed)/LOG(p)),那么Y是具有参数p的几何分布变量。

4.伽马分布随机数

RANGAM(seed, alpha),seed为任意数值常数,alpha>0,得到参数为alpha的伽马分布。设X=RANGAM(seed, alpha),则Y=beta*X是形状参数为alpha,尺度参数为beta的GAMMA分布随机数。如果alpha是整数,则Y=2*X是自由度为 2*alpha的卡方分布随机数。

如果alpha是正整数,则Y=beta*X是Erlang分布随机数,为alpha个独立的均值为beta的指数分布变量的和。

如果Y1=RANGAM(seed,alpha),Y2=RANGAM(seed,beta),在Y=Y1/(Y1+Y2)是参数为(alpha,beta )的贝塔分布随机数。

5.三角分布随机数

RANTRI(seed,h),seed为任意数值常数,0<h<1。此分布在0到1取值,密度在0到h 之间为2x/h,在h到1之间为2(1-x)/(1-h)。

6.柯西分布随机数

RANCAU(seed),seed为任意数值常数。产生位置参数为0,尺度参数为1的标准柯西分布随机数。Y=alpha+beta*RANCAU(seed)为位置参数为alpha,尺度参数为beta的一般柯西分布随机数。

7.二项分布随机数

RANBIN(seed,n,p)产生参数为(n,p)的二项分布随机数,seed为任意数值。

8.泊松分布随机数

RANPOI(seed,lambda)产生参数为lambda>0的泊松分布随机数,seed为任意数值。

9.一般离散分布随机数

RANTBL(seed, p1, …, pn)生成取1,2,…,n的概率分别为p1,…,pn的离散分布随机数。

八、样本统计函数

样本统计函数把输入的自变量作为一组样本,计算样本统计量。其调用格式为“函数名(自变量1,自变量2,…,自变量n)”或者“函数名(OF 变量名列表)”。比如SUM是求和函数,如果要求x1,x2,x3的和,可以用SUM(x1,x2,x3),也可以用SUM(OF x1-x3)。这些样本统计函数只对自变量中的非缺失值进行计算,比如求平均时把缺失值不计入内。

各样本统计函数为:

MEAN 均值

MAX 最大值

MIN 最小值

N 非缺失数据的个数

NMISS 缺失数值的个数。

SUM 求和

VAR 方差

STD 标准差

STDERR 均值估计的标准误差,用STD/SQRT(N)计算。

CV 变异系数

RANGE 极差

CSS 离差平方和

USS 平方和

SKEWNESS 偏度

KURTOSIS 峰度

scanf()函数是格式化输入函数, 它从标准输入设备(键盘) 读取输入的信息。
其调用格式为: scanf("<格式化字符串>", <地址表>);
格式化字符串包括以下三类不同的字符;
1. 格式化说明符: 格式化说明符与printf()函数中的格式说明符基本相同。
2. 空白字符: 空白字符会使scanf()函数在读操作中略去输入中的一个或多
个空白字符。
3. 非空白字符: 一个非空白字符会使scanf()函数在读入时剔除掉与这个非
空白字符相同的字符。 scan(string,i,"char"),表示从字串string中以char为分隔符提取第i个字串。

FINDC() 中的“k”修饰符在 SAS 中如何工作?

【中文标题】FINDC() 中的“k”修饰符在 SAS 中如何工作?【英文标题】:How does the 'k' modifier in FINDC() work in SAS? 【发布时间】:2017-07-27 17:34:30 【问题描述】:

我正在通读《SAS 函数示例 - 第二版》一书,由于示例和输出结果,我在尝试理解某个函数时遇到了困难。

函数:FINDC 目的:定位字符串中出现或未出现的字符。使用可选参数,您可以定义搜索的起点、设置搜索的方向、忽略大小写或尾随空格,或者查找列出的字符以外的字符。

语法:FINDC(character-value, find-characters &lt;,'modifiers'&gt; &lt;,start&gt;)

两个修饰符是ik

i忽略大小写k只计算不在查找字符列表中的字符

所以现在其中一个例子是这样的:

注意:STRING1 = "苹果和书籍"

FINDC(STRING1,"aple",'ki')

对于输出,他们说它返回1,因为苹果中“A”的位置。然而,这让我感到困惑,因为我认为 k 修饰符说要在查找字符列表中查找 not 的字符。那么为什么它在查找字符列表中搜索a 时,忽略大小写的字母“A”。对我来说,我觉得这个例子应该为 Apples 中的“s”输出6

有没有人能更好地向我解释k修饰符,以及为什么这个答案的输出是1而不是6

编辑 1

在线阅读SASdocumentation,我发现这个例子似乎与我正在阅读的书相矛盾:

示例 3:搜索字符并使用 K 修饰符 此示例搜索字符串并返回执行以下操作的字符 没有出现在字符列表中。

data _null_;
   string = 'Hi, ho!';
   charlist = 'hi';
   j = 0;
   do until (j = 0);
      j = findc(string, charlist, "k", j+1);
      if j = 0 then put +3 "That's all";
      else do;
         c = substr(string, j, 1);
         put +3 j= c=;
      end;
   end;
run;

SAS writes the following output to the log: 
   j=1 c=H
   j=3 c=,
   j=4 c= 
   j=6 c=o
   j=7 c=!
   That's all

那么,这本书错了吗?

【问题讨论】:

这是内部一致性以没有多大意义的东西而告终的情况之一。 k 这样做是因为它首先出现在 compress 中,它告诉 compress 而不是删除 [list] 中的字符,它应该 keep 它们。在这里使用k 是没有意义的,但因为它在compress 中已经意味着它,并且它保证我们不会有任何其他冲突...... 【参考方案1】:

书错了。

511  data _null_;
512    STRING1 = "Apples and Books" ;
513    x=FINDC(STRING1,"aple",'ki');
514    put x=;
515    if x then do;
516      ch=char(string1,x);
517      put ch=;
518    end;
519  run;

x=6
ch=s

【讨论】:

以上是关于请问sas中scan函数如何使用?的主要内容,如果未能解决你的问题,请参考以下文章

具有宏阵列的sas扫描功能

scala中scan()函数的用法例子

FINDC() 中的“k”修饰符在 SAS 中如何工作?

如何在SAS中按十年分类日期

如何使用sas筛选时间段并且求和?

SAS编程:如何批量读入某路径下外部文档数据?