Category: 网站建设

七天搞定SAS（七）：常用统计模型

本系列连载文章：

其实最后一天，反而是任务最繁重的。这一天，需要纵览SAS的各个常用的统计模块。BTW，在用惯了ggplot2之后，再也不认为有任何理由用其他软件画图了...所以SAS的图形模块自动被我无视（貌似很多SAS用户也一直在吐槽这东西着实不好使）。

SAS里面的概要统计：PROC MEANS

其实前几天也说过了PROC MEANS，不过这里稍稍补充一点置信区间的东西吧。其实它的参数真的挺多的：

CLM：双侧置信区间
CSS：调整平方和
CV：变异系数
KURTOSIS：峰度
LCLM ：单侧置信区间——左侧
MAX:最大值
MEAN：均值
MIN：最小值
MODE:众数
N ：非缺失值个数
NMISS：缺失值个数
MEDIAN(P50):中位数
RANGE：范围
SKEWNESS：偏度
STDDEV：标准差
STDERR：均值的标准误
SUM：求和
SUMWGT：加权求和
UCLM：单侧置信区间：右侧
USS：未修正的平方和
VAR：方差

ode variance

PROBT：t统计量对应的p值
T：t统计量
Q3 (P75):75%分位数，etc.
P10：10%分位数，etc.

在调用CLM的时候需要指定ALPHA：

DATA booklengths;
INFILE 'c:\MyRawData\Picbooks.dat';
INPUT NumberOfPages @@;
RUN;
*Produce summary statistics;
PROC MEANS DATA=booklengths N MEAN MEDIAN CLM ALPHA=.10;
TITLE 'Summary of Picture Book Lengths';
RUN;

结果如下：

SAS里面的相关性分析：PROC CORR

虽然correlation一直被各种批判，但是往往在拿到数据的第一步、毫无idea的时候，correlation还是值得一看的参考指标。SAS里面的PROC CORR提供了相应的功能。

PROC CORR DATA = class;
VAR Television Exercise;
WITH Score;
TITLE ’Correlations for Test Scores’;
TITLE2 ’With Hours of Television and Exercise’;
RUN;

SAS的相关性分析结果输出如下：

SAS里面的基本回归分析：PROC REG

类似于R中的lm()，这个实在是没什么好说的了，最基本的最小二乘法。

DATA hits;
INFILE 'c:\MyRawData\Baseball.dat';
INPUT Height Distance @@;
RUN;
* Perform regression analysis;
PROC REG DATA = hits;
MODEL Distance = Height;
TITLE 'Results of Regression Analysis';
RUN;

SAS的输出结果如下：

包含了回归模型的基本统计量。我们一般更关注的回归系数：

到这里，我的感慨就是：真的很像Stata呀!值得注意的是，REG有很多可选的参数，对于这些参数是干嘛用的，最权威的自然还是SAS官方的文档：http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_reg_sect007.htm。其实熟悉了SAS的语法和工作模式之后，具体到某个模型还是看官方文档比较舒服。不愧是商业软件啊，文档写的都很专业，有很多模型选择问题其实看看文档就能多少明白一些了。

比如PROC REG的参数就有：

Table 73.1 PROC REG Statement Options
Option	Description
Data Set Options
DATA=	names a data set to use for the regression
OUTEST=	outputs a data set that contains parameter estimates and other model fit summary statistics
OUTSSCP=	outputs a data set that contains sums of squares and crossproducts
COVOUT	outputs the covariance matrix for parameter estimates to the OUTEST= data set
EDF	outputs the number of regressors, the error degrees of freedom, and the model to the OUTEST= data set
OUTSEB	outputs standard errors of the parameter estimates to the OUTEST= data set
OUTSTB	outputs standardized parameter estimates to the OUTEST= data set. Use only with the RIDGE= or PCOMIT= option.
OUTVIF	outputs the variance inflation factors to the OUTEST= data set. Use only with the RIDGE= or PCOMIT= option.
PCOMIT=	performs incomplete principal component analysis and outputs estimates to the OUTEST= data set
PRESS	outputs the PRESS statistic to the OUTEST= data set
RIDGE=	performs ridge regression analysis and outputs estimates to the OUTEST= data set
RSQUARE	same effect as the EDF option
TABLEOUT	outputs standard errors, confidence limits, and associated test statistics of the parameter estimates to the OUTEST= data set
ODS Graphics Options
PLOTS=	produces ODS graphical displays
Traditional Graphics Options
ANNOTATE=	specifies an annotation data set
GOUT=	specifies the graphics catalog in which graphics output is saved
Display Options
CORR	displays correlation matrix for variables listed in MODEL and VAR statements
SIMPLE	displays simple statistics for each variable listed in MODEL and VAR statements
USCCP	displays uncorrected sums of squares and crossproducts matrix
ALL	displays all statistics (CORR, SIMPLE, and USSCP)
NOPRINT	suppresses output
LINEPRINTER	creates plots requested as line printer plot
Other Options
ALPHA=	sets significance value for confidence and prediction intervals and tests
SINGULAR=	sets criterion for checking for singularity

SAS里面的基本方差分析：PROC ANOVA

方差分析也就不赘述了，其实我感觉没有回归分析更用的普遍...这俩东西某种程度上也是一回事儿，看怎么理解了。

PROC ANOVA DATA = basket;
CLASS Team;
MODEL Height = Team;
MEANS Team / SCHEFFE;
TITLE ”Girls’ Heights on Basketball Teams”;
RUN;

SAS的输出如下：

先是用作分类的变量的基本统计。然后是模型的基本统计：

最后是各个组的分析结果（两两比较，由于指定了SCHEFFE参数）：

SAS中的离散被解释变量模型：PROC LOGISTIC和PROC GENMOD

最简单的离散被解释变量模型就是logit了，在SAS里面有直接的PROC LOGISTIC。官方文档在此：http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#logistic_toc.htm

语法自然是一如既往的简单：

proc logistic;
model y=x1 x2;
run;

结果返回：

The LOGISTIC Procedure

Model Information
Data Set	WORK.INGOTS
Response Variable (Events)	r
Response Variable (Trials)	n
Model	binary logit
Optimization Technique	Fisher's scoring

Number of Observations Read	19
Number of Observations Used	19
Sum of Frequencies Read	387
Sum of Frequencies Used	387

首先自然是模型的统计信息。然后是数据的统计：

Response Profile
Ordered Value	Binary Outcome	Total Frequency
1	Event	12
2	Nonevent	375

Model Convergence Status
Convergence criterion (GCONV=1E-8) satisfied

然后是假设检验：

Model Fit Statistics
Criterion	Intercept Only	Intercept and Covariates
AIC	108.988	103.222
SC	112.947	119.056
-2 Log L	106.988	95.222

Testing Global Null Hypothesis: BETA=0
Test	Chi-Square	DF	Pr > ChiSq
Likelihood Ratio	11.7663	3	0.0082
Score	16.5417	3	0.0009
Wald	13.4588	3	0.0037

最后是参数估计：

Analysis of Maximum Likelihood Estimates
Parameter	DF	Estimate	Standard Error	Wald Chi-Square	Pr > ChiSq
Intercept	1	-5.9901	1.6666	12.9182	0.0003
Heat	1	0.0963	0.0471	4.1895	0.0407
Soak	1	0.2996	0.7551	0.1574	0.6916
Heat*Soak	1	-0.00884	0.0253	0.1219	0.7270

而对于泊松模型，则需要PROC GENMOD。我觉得我一一个列出这些模型已经超出了这篇笔记的范围了...所以干脆就改成简单翻译一下各个PROC的主要模型吧。说过了，学习模型不是主要的目的——模型终究不该通过软件来学...虽然SAS的user guide真的还算是比较好的统计学教材呢。

SAS里面的PROC一览

除了上面说到的PROC，SAS当然还有更多强大的模块。我就顺手一一点开看看这些东西都能做什么...

The ACECLUS Procedure:聚类的协方差矩阵近似估计（approximate covariance estimation for clustering）
The ANOVA Procedure：方差分析
The BOXPLOT Procedure：箱形图
The CALIS Procedure：结构方程模型
The CANCORR Procedure：典型相关分析
The CANDISC Procedure：主成分分析和典型相关分析
The CATMOD Procedure：类别分析
The CLUSTER Procedure：聚类分析，包括11种（average linkage, the centroid method, complete linkage, density linkage (including Wong’s hybrid and th-nearest-neighbor methods), maximum likelihood for mixtures of spherical multivariate normal distributions with equal variances but possibly unequal mixing proportions, the flexible-beta method, McQuitty’s similarity analysis, the median method, single linkage, two-stage density linkage, and Ward’s minimum-variance method，机器翻译为：平均联动，重心法，完全连锁，密度连接（包括Wong混合模型，最近邻的方法），最大的可能性，McQuitty的相似性分析，中位数法，单联动，两阶段密度联动，Ward最小方差法）。
The CORRESP Procedure：简单的对应分析和多元对应分析（MCA）
The DISCRIM Procedure：生成分类器的判别标准
The DISTANCE Procedure：距离，不相似或相似性分析
The FACTOR Procedure：因子分析和因子旋转
The FASTCLUS Procedure：快速聚类分析（给定计算出来的距离）
The FREQ Procedure：频率统计
The GAM Procedure：广义可加模型
The GENMOD Procedure：广义线性模型，泊松回归、贝叶斯回归等
The GLIMMIX Procedure： generalized linear mixed models (GLMM)，广义线性混合模型
The GLM Procedure：最小二乘法模型，包括回归、方差分析、协方差分析、多元方差分析、偏相关。
The GLMMOD Procedure：广义线性模型设计
The GLMPOWER Procedure：预测力和样本大小的线性模型分析
The GLMSELECT Procedure：变量选择，包括Lasso和LAR等。
The HPMIXED Procedure：线性混合模型，包括固定效应、随机效应等。
The INBREED Procedure：协方差或近亲繁殖系数。
The KDE Procedure：单变量和二元核密度估计
The KRIGE2D Procedure：二维克里格法，包括各向异性和嵌套的半方差图模型
The LATTICE Procedure：简单的栅格设计实验的方差分析和协方差分析
The LIFEREG Procedure：生存分析中的参数模型，包括各种截尾数据
The LIFETEST Procedure：生存分析的相关检验
The LOESS Procedure：非参数模型、多维数据、支持多因变量、直接和插值的kd树、统计推断、自动平滑参数的选择、执行迭代时有异常值的数据。
The LOGISTIC Procedure：logit回归
The MCMC Procedure：Markov chain Monte Carlo (MCMC) simulation-马尔可夫链蒙特卡洛模拟
The MDS Procedure:Multidimensional scaling (MDS)-多维标度模型
The MI Procedure:缺失值处理
The MIANALYZE Procedure：缺失值分析
The MIXED Procedure：混合线性模型，面板数据的常用模型
The MODECLUS Procedure：各种参数、非参数的聚类模型
The MULTTEST Procedure：多重检验的p值调整
The NESTED Procedure：嵌套的随机效应模型(nested random effects model)
The NLIN Procedure：非线性回归模型
The NLMIXED Procedure：非线性混合模型(固定效应和随机效应都是非线性的)
The NPAR1WAY Procedure：位置和规模差异的非参数检验
The ORTHOREG Procedure：更精准的广义线性模型（Gentleman-Givens 变换来求解QR分解）
The PHREG Procedure： Cox proportional hazards model-Cox比例风险模型
The PLAN Procedure：因子实验设计
The PLS Procedure：partial least squares (PLS)-偏最小二乘法
The POWER Procedure：模型能力和样本量分析
The Power and Sample Size Application：桌面版的能力和样本量分析程序
The PRINCOMP Procedure：主成份分析
The PRINQUAL Procedure：定质，定量，或混合数据的主成分分析（PCA）
The PROBIT Procedure：probit回归
The QUANTREG Procedure：分位数回归
The REG Procedure：最小二乘回归
The ROBUSTREG Procedure：稳健回归（剔除离群点影响）
The RSREG Procedure：二次响应回归模型
The SCORE Procedure:打分
The SEQDESIGN Procedure：临床试验的中期设计
The SEQTEST Procedure:临床试验的中期分析
The SIM2D Procedure：高斯随机场的空间模拟（anisotropic and nested semivariogram models）
The SIMNORMAL Procedure：生成高斯分布的模拟数据
The STDIZE Procedure：标准化数据
The STEPDISC Procedure：逐步回归（变量选择）
The SURVEYFREQ Procedure:单向或者多向频率和交叉表的抽样调查数据分析
The SURVEYLOGISTIC Procedure：抽样调查的logit回归
The SURVEYMEANS Procedure：抽样调查数据的概要统计
The SURVEYREG Procedure：抽样调查数据的回归分析
The SURVEYSELECT Procedure：选择基于概率的随机样本
The TCALIS Procedure：结构方程模型（目测是CALIS的加强版）
The TPSPLINE Procedure：补偿最小二乘法来拟合非参数回归模型
The TRANSREG Procedure：transformation regression(一系列基于最小二乘法的变换)
The TREE Procedure：树状图
The TTEST Procedure：各种情况下的t检验
The VARCLUS Procedure：不相交或分层聚类
The VARCOMP Procedure：含有随机效应的广义线性模型
The VARIOGRAM Procedure：二维空间数据的连续性分析

Tags PROC ANOVA, PROC CORR, PROC MEANS, PROC REG, SAS, 回归分析, 方差分析, 概要统计, 相关性分析, 统计模型, 统计量

日常应用

七天搞定SAS（六）：宏的编写、程序调错

本系列连载文章：

在SAS各种繁杂的PROC之后，还要来看看MACRO才可以嘛。又不能写函数...

SAS中的MACRO：宏编写

MACRO主要是DO和%LET的各种组合，前者负责循环后者负责变量。

一个例子：

%LET flowertype = Ginger;
* Read the data and subset with a macro variable;
DATA flowersales;
INFILE 'c:\MyRawData\TropicalSales.dat';
INPUT CustomerID $4. @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
IF Variety = "&flowertype";
RUN;
* Print the report using a macro variable;
PROC PRINT DATA = flowersales;
FORMAT SaleDate WORDDATE18.;
TITLE "Sales of &flowertype";
RUN;

这段代码可以做什么呢？很简单，替换文字。我们指定了一个SAS MACRO中的变量flowertype，在执行MACRO的时候他会被自动翻译成标准的SAS代码。这样执行的结果就是:

看到了吧，标题已经被替换了。

一段MACRO以%macro开始，然后以%mend结束。

* Macro to print 5 largest sales;
%MACRO sample;
PROC SORT DATA = flowersales;
BY DESCENDING Quantity;
RUN;
PROC PRINT DATA = flowersales (OBS = 5);
FORMAT SaleDate WORDDATE18.;
TITLE 'Five Largest Sales';
RUN;
%MEND sample;
* Read the flower sales data;
DATA flowersales;
INFILE 'c:\MyRawData\TropicalSales.dat';
INPUT CustomerID $4. @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
RUN;
* Invoke the macro;
%sample

这样执行之后的结果就是：

虽然SAS不可以直接写函数，但是MACRO还是有参数可以传入的。

* Macro with parameters;
%MACRO select(customer=,sortvar=);
PROC SORT DATA = flowersales OUT = salesout;
BY &sortvar;
WHERE CustomerID = "&customer";
RUN;
PROC PRINT DATA = salesout;
FORMAT SaleDate WORDDATE18.;
TITLE1 "Orders for Customer Number &customer";
TITLE2 "Sorted by &sortvar";
RUN;
%MEND select;
* Read all the flower sales data;
DATA flowersales;
INFILE 'c:\MyRawData\TropicalSales.dat';
INPUT CustomerID $4. @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
RUN;
*Invoke the macro;
%select(customer = 356W, sortvar = Quantity)
%select(customer = 240W, sortvar = Variety)

这样传入的参数会自动作为变量被替换掉。结果如下：

当然MACRO中也会有需要判断的时候，这就是IF上场之时啦：

%MACRO dailyreports;
%IF &SYSDAY = Monday %THEN %DO;
PROC PRINT DATA = flowersales;
FORMAT SaleDate WORDDATE18.;
TITLE 'Monday Report: Current Flower Sales';
RUN;
%END;
%ELSE %IF &SYSDAY = Tuesday %THEN %DO;
PROC MEANS DATA = flowersales MEAN MIN MAX;
CLASS Variety;
VAR Quantity;
TITLE 'Tuesday Report: Summary of Flower Sales';
RUN;
%END;
%MEND dailyreports;
DATA flowersales;
INFILE 'c:\MyRawData\TropicalSales.dat';
INPUT CustomerID $4. @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
RUN;
%dailyreports

比如周二，那么翻译出来的SAS代码就是：

DATA flowersales;
INFILE 'c:\MyRawData\TropicalSales.dat';
INPUT CustomerID $ @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
RUN;
PROC MEANS DATA = flowersales MEAN MIN MAX;
CLASS Variety;
VAR Quantity;
TITLE 'Tuesday Report: Summary of Flower Sales';
RUN;

最终得到的结果为：

SAS中使用CALL SYMPUT：用数据值赋予变量

如果有的时候需要数据集中的值来给MACRO中的变量赋值，我们就需要使用CALL SYMPUT了。

* Read the raw data;
DATA flowersales;
INFILE 'c:\MySASLib\TropicalSales.dat';
INPUT CustomerID $4. @6 SaleDate MMDDYY10. @17 Variety $9. Quantity;
PROC SORT DATA = flowersales;
BY DESCENDING Quantity;
RUN;
* Find biggest order and pass the customer id to a macro variable;
DATA _NULL_;
SET flowersales;
IF _N_ = 1 THEN CALL SYMPUT("selectedcustomer",CustomerID);
ELSE STOP;
RUN;
PROC PRINT DATA = flowersales;
WHERE CustomerID = "&selectedcustomer";
FORMAT SaleDate WORDDATE18.;
TITLE "Customer &selectedcustomer Had the Single Largest Order";
RUN;

这样的结果就成了：

看出来这里面的逻辑了么？我们先对数据集flowersales进行了排序，然后选择第一名的订单用户，赋值给selectedcustomer这个变量，然后就可以直接在后面用&selectedcustomer调用这个变量值，去查找属于他的观测记录了。

SAS MACRO的DEBUG调试

这里就是一些基本的找错技巧了：

避免最常见的语法错误：先写一般的SAS语句，然后去替换需要用到变量的部分。
引号问题：如果用单引号，那么SAS不会替换里面的变量值；如果用双引号，那么里面&variable的值会被替换掉。所以酌情注意。
SAS的报错记录：有MERROR（找不到macro）、SERROR（找不到变量）、MLOGIC（SAS将在日志中输出详细的执行情况）、MPRINT（SAS将在日志中输出翻译出来的SAS代码）、SYMBOLGEN（SAS将在日志中输出变量当时的赋值）。

SAS常见程序错误

最常见的大概就是少了结尾的分号...这里的报错一般是：

ERROR 180-322: Statement is not valid or it is used out of proper order.

或者其他类似的语句无法被SAS理解的。

还有就是输入数据不正确或者有缺失值什么的...这个我觉得在数据源是数据库管理系统的时候，不是什么问题...

还有就是数值型被转换成文本型...报错类似于：

NOTE: Character values have been converted to numeric values at the places
given by:(Line):(Column).

我们利用PUTLOG可以一步步的输出SAS计算的过程：

9 * Keep only students with mean below 70;
10 DATA lowscore;
11 INFILE ’c:MyRawDataClass.dat’;
12 INPUT Name $ Score1 Score2 Score3 Homework;
13 Homework = Homework * 2;
14 AverageScore = MEAN(Score1 + Score2 + Score3 + Homework);
15 PUTLOG Name= Score1= Score2= Score3= Homework= AverageScore=;
16 IF AverageScore < 70;
17 RUN;

这样也有利于查错。

其他的可以直接看报错信息来判断，不赘述了。

Tags MACRO, SAS, 宏变量, 宏编写, 程序调错

日常应用

七天搞定SAS（五）：数据操作与合并

本系列连载文章：

数据集操作永远是逃不掉的问题，最简单的就是两个数据集的合并——当然不是简简单单的行列添加，按照某一主键或者某些主键合并才是最常用的。在SAS中，要熟悉的就是SET这个声明，可以用改变数据集等等。

生成新变量

这里一个比较简单的例子，就是有一个现成的数据集，我们想增加一个变量。

DATA averagetrain;
SET 'c:MySASLibtrains';
PeoplePerCar = People / Cars;
RUN;
PROC PRINT DATA = averagetrain;
TITLE 'Average Number of People per Train Car';
FORMAT Time TIME5.;
RUN;

这样的结果就是增加了一个新的变量PeoplePerCar：

Average Number of People per Train Car
Obs Time Cars People PeoplePerCar
1 10:10 6 21 3.50000
2 12:15 10 56 5.60000
3 15:30 10 25 2.50000
4 11:30 8 34 4.25000
5 13:15 8 12 1.50000
6 10:45 6 13 2.16667
7 20:30 6 32 5.33333
8 23:15 6 12 2.00000

行合并

这里比较类似于R里面的rbind()函数，就是直接在尾部附上后面的数据。当SET指定了两个或多个数据集的时候，可以进行这样的操作。距离如下：

* Create a data set, both, combining northentrance and southentrance;
* Create a variable, AmountPaid, based on value of variable Age;
DATA both;
SET southentrance northentrance;
IF Age = . THEN AmountPaid = .;
ELSE IF Age < 3 THEN AmountPaid = 0;
ELSE IF Age < 65 THEN AmountPaid = 35;
ELSE AmountPaid = 27;
PROC PRINT DATA = both;
TITLE 'Both Entrances';
RUN;

然后结果输出为：

这里很容易看出，对于第一个数据集没有的变量LOT，会自动添加缺失值。

SET还可以进一步结合BY对数据排序：

DATA interleave;
SET northentrance southentrance;
BY PassNumber;
PROC PRINT DATA = interleave;
TITLE 'Both Entrances, By Pass Number';
RUN;

这样返回的结果就是按照PassNumber排序的了：

SAS一对一合并数据集

类似于SQL的join和R的merge，SAS也可以合并数据集。先从最简单的一对一合并说起：

* Merge data sets by CodeNum;
DATA chocolates;
MERGE sales descriptions;
BY CodeNum;
PROC PRINT DATA = chocolates;
TITLE ”Today's Chocolate Sales”;
RUN;

这样就可以得到按照CodeNum来合并这两个数据集了，返回结果为：

当然一对多也是可行的。

原数据为：

然后代码为：

* Perform many-to-one match merge;
DATA prices;
MERGE regular discount;
BY ExerciseType;
NewPrice = ROUND(RegularPrice - (RegularPrice * Adjustment), .01);
PROC PRINT DATA = prices;
TITLE ’Price List for May’;
RUN;

最后得到的结果就是：

有的时候我们还想把一些统计量也合并进来，比如PROC MEANS得到的那些，这样自然也是不怎么麻烦的。

DATA shoes;
INFILE ’c:\MyRawData\Shoesales.dat’;
INPUT Style $ 1-15 ExerciseType $ Sales;
PROC SORT DATA = shoes;
BY ExerciseType;
RUN;
* Summarize sales by ExerciseType and print;
PROC MEANS NOPRINT DATA = shoes;
VAR Sales;
BY ExerciseType;
OUTPUT OUT = summarydata SUM(Sales) = Total;
PROC PRINT DATA = summarydata;
TITLE ’Summary Data Set’;
RUN;
* Merge totals with the original data set;
DATA shoesummary;
MERGE shoes summarydata;
BY ExerciseType;
Percent = Sales / Total * 100;
PROC PRINT DATA = shoesummary;
BY ExerciseType;
ID ExerciseType;
VAR Style Sales Total Percent;
TITLE ’Sales Share by Type of Exercise’;
RUN;

这里用到了OUTPUT输出统计结果到SAS数据集，这样最后结果就是：

还有一些特定的情况，可以不用MERGE而是UPDATE，这个就得稍稍小心一点了...

* Update patient data with transactions;
DATA perm.patientmaster;
UPDATE perm.patientmaster transactions;
BY Account;
PROC PRINT DATA = perm.patientmaster;
FORMAT BirthDate LastUpdate MMDDYY10.;
TITLE 'Admissions Data';
RUN;

基本就是把patientmaster这个数据集用transactions里面有的数据覆盖掉相应的记录。

SAS里面拆分数据

在读入数据的时候，SAS还可以自动按照某些条件把其拆分为两个数据集，这里需要调用OUTPUT声明。

DATA morning afternoon;
INFILE 'c:\MyRawData\Zoo.dat';
INPUT Animal $ 1-9 Class $ 11-18 Enclosure $ FeedTime $;
IF FeedTime = 'am' THEN OUTPUT morning;
ELSE IF FeedTime = 'pm' THEN OUTPUT afternoon;
ELSE IF FeedTime = 'both' THEN OUTPUT;
RUN;
PROC PRINT DATA = morning;
TITLE 'Animals with Morning Feedings';
PROC PRINT DATA = afternoon;
TITLE 'Animals with Afternoon Feedings';
RUN;

得到的就是两个数据集（虽然我们读入的只有一个...你也可以理解为生成了两个原数据集的子集）：

这里就类似于R里面的split()函数了。

还有一些数据格式比较不稳定，比如一行多条记录：

Jan Varsity 56723 Downtown 69831 Super-6 70025
Feb Varsity 62137 Downtown 43901 Super-6 81534
Mar Varsity 49982 Downtown 55783 Super-6 69800

这个时候就可以利用OUTPUT的操作，来逐行读取并输出：

* Create three observations for each data line read
* using three OUTPUT statements;
DATA theaters;
INFILE 'c:\MyRawData\Movies.dat';
INPUT Month $ Location $ Tickets @;
OUTPUT;
INPUT Location $ Tickets @;
OUTPUT;
INPUT Location $ Tickets;
OUTPUT;
RUN;
PROC PRINT DATA = theaters;
TITLE 'Ticket Sales';
RUN;

最后得到的数据就相当规范了（我在想为啥SAS可以有这么多奇葩的数据输入...真折磨人啊）：

SAS里面变量选取等参数

其实DATA里面的参数还是蛮多的，除了以前提到过的KEEP,DROP，还有可以重命名的RENAME等。还有一个比较有用的可能就是IN了：

DATA noorders;
MERGE customer orders (IN = Recent);
BY CustomerNumber;
IF Recent = 0;
PROC PRINT DATA = noorders;
TITLE ’Customers with No Orders in the Third Quarter’;
RUN;

这样可以增加一个新的变量Recent，来记录某条记录是否被合并。

WHERE的用法也可以稍稍赘述一下：

*Input the data and create two subsets;
DATA tallpeaks (WHERE = (Height > 6000))
american (WHERE = (Continent CONTAINS ('America')));
INFILE 'c:\MyRawData\Mountains.dat';
INPUT Name $1-14 Continent $15-28 Height;
RUN;
PROC PRINT DATA = tallpeaks;
TITLE 'Members of the Seven Summits above 6,000 Meters';
PROC PRINT DATA = american;
TITLE 'Members of the Seven Summits in the Americas';
RUN;

这样得到的结果为：

SAS中数据的转置：TRANSPOSE

数据的转置有时候也是逃不掉的。这里就有些类似于R里面的reshape()函数了，但是肯定没有reshape2里面的melt and cast强大...我一度觉得reshape2的用法很麻烦，后来才发现原来这东西真的强大到一定程度了...

DATA baseball;
INFILE 'c:\MyRawData\Transpos.dat';
INPUT Team $ Player Type $ Entry;
PROC SORT DATA = baseball;
BY Team Player;
PROC PRINT DATA = baseball;
TITLE 'Baseball Data After Sorting and Before Transposing';
RUN;
* Transpose data so salary and batavg are variables;
PROC TRANSPOSE DATA = baseball OUT = flipped;
BY Team Player;
ID Type;
VAR Entry;
PROC PRINT DATA = flipped;
TITLE 'Baseball Data After Transposing';
RUN;

结果为：

SAS里面自带的变量

SAS里面有些默认自带的变量，有时候用起来还是蛮方便的，类似于R会自带一个row.names这种变量。

比如_N_就会加上行号（当然有时候也不是，呃，准确的说应该是SAS执行的循环顺序，说了SAS是一行行操作数据的嘛）：

DATA walkers;
INFILE 'c:\MyRawData\Walk.dat';
INPUT Entry AgeGroup $ Time @@;
PROC SORT DATA = walkers;
BY Time;
* Create a new variable, Place;
DATA ordered;
SET walkers;
Place = _N_;
PROC PRINT DATA = ordered;
TITLE 'Results of Walk';
PROC SORT DATA = ordered;
BY AgeGroup Time;
* Keep the first observation in each age group;
DATA winners;
SET ordered;
BY AgeGroup;
IF FIRST.AgeGroup = 1;
PROC PRINT DATA = winners;
TITLE 'Winners in Each Age Group';
RUN;

这样得到的结果就是排序后的次序了：

类似的变量还有FIRST.variable和LST.variable，这里由于我们用到了 FIRST.AgeGroup，所以第二次输出的时候只有第一个AGE GROUP的结果。

Tags R, SAS, 变量选取, 拆分数据集, 操作数据, 数据转置, 数据集合并, 生成新变量

日常应用

七天搞定SAS（四）：数据输出

本系列连载文章：

弄清楚了基本的PROC之后，开始研究SAS的输出...毕竟有了数据处理的结果之后，还要有一个比较舒服的输出格式才可以嘛。

SAS的结果发送系统：ODS

SAS里面的输出叫的比较好听： Output Delivery System (ODS)，结果发送系统。也就是说，要不停的开始研究ODS这个东西了。输出的方向包括：

LISTING：标准SAS输出
HTML： HTML网页输出
RTF：富文本格式
PRINTER：高分辨率打印
PS： ps矢量格式
PCL：打印机操纵语言
PDF：PDF格式
OUTPUT： SAS数据表格
MARKUP：XML、excel、csv、latex等格式
DOCUMENT：输出文档

基本满足要求了？当然，SAS还有模板可以选，还有追踪和选择...不着急，我们一个个来研究。

模板的话，需要调用PROC TEMPLATE：

PROC TEMPLATE;
LIST STYLES;
RUN;

自带了若干模板：

ANALYSIS D3D MINIMAL SASWEB
BARETTSBLUE DEFAULT PRINTER SANSPRINTER
BRICK JOURNAL RTF STATISTICAL

然后TRACE会在日志文件里面跟踪输出的对象：

DATA giant;
INFILE 'c:\MyRawData\Tomatoes.dat' DSD;
INPUT Name :$15. Color $ Days Weight;
* Trace PROC MEANS;
ODS TRACE ON;
PROC MEANS DATA = giant;
BY Color;
RUN;
ODS TRACE OFF;

这样就有日志中的记录：

Output Added:
-------------
Name: Summary
Label: Summary statistics
Template: base.summary
Path: Means.ByGroup1.Summary
-------------
NOTE: The above message was for the following by-group: Color=red
Output Added:
-------------
Name: Summary
Label: Summary statistics
Template: base.summary
Path: Means.ByGroup2.Summary
-------------
NOTE: The above message was for the following by-group: Color=yellow

最后，还可以选择ODS输出的对象：

PROC MEANS DATA = giant;
BY Color;
TITLE 'Red Tomatoes';
ODS SELECT Means.ByGroup1.Summary;
RUN;

这样就只有第一组的统计数据了。

SAS中建立输出数据表：OUTPUT

很多时候我们希望直接把结果放在另外一个SAS的数据表中，这样就需要OUTPUT声明了。

DATA giant;
INFILE 'c:\MyRawData\Tomatoes.dat' DSD;
INPUT Name :$15. Color $ Days Weight;
PROC TABULATE DATA = giant;
CLASS Color;
VAR Days Weight;
TABLE Color ALL, (Days Weight) * MEAN;
TITLE 'Standard TABULATE Output';
ODS OUTPUT Table = tabout;
RUN;
PROC PRINT DATA = tabout;
TITLE 'OUTPUT SAS Data Set from TABULATE';
RUN;

最终可以得到：

很显然，对于下面那个SAS表格的输出，我们可以像操纵普通表格一样来操纵它，各种方便省事对吧？毕竟有的时候SAS给我们的并不是我们想要的最终结果，还要各种小小加工一番才好。

SAS的输出：HTML

有的时候HTML格式的报告会更加方便传播，或者放在服务器上、自动定期更新什么的，便于大家远程直接查看。代码其实也不麻烦：

* Create the HTML files and remove procedure name;
ODS HTML FILE = 'c:\MyHTMLFiles\Marine.html';
ODS NOPROCTITLE;
DATA marine;
INFILE 'c:\MyRawData\Sealife.dat';
INPUT Name $ Family $ Length @@;
RUN;
PROC MEANS DATA = marine MEAN MIN MAX;
CLASS Family;
TITLE 'Whales and Sharks';
RUN;
PROC PRINT DATA = marine;
RUN;
* Close the HTML files;
ODS HTML CLOSE;

最终可以得到HTML网页截屏如下：

SAS输出富文本：RTF

RTF是一种可以直接被WORD等office软件读取的格式，支持图文表格混排什么的。有的时候直接输出出来也会各种方便（吐槽：相比于R的knitr直接各种文件格式混搭、数据随处可以插入，SAS还是有很长的一段路要走哇）。

* Create an RTF file;
ODS RTF FILE = 'c:\MyRTFFiles\Marine.rtf' BODYTITLE COLUMNS=2;
ODS NOPROCTITLE;
DATA marine;
INFILE 'c:\MyRawData\Sealife.dat';
INPUT Name $ Family $ Length @@;
RUN;
PROC MEANS DATA = marine MEAN MIN MAX;
CLASS Family;
TITLE 'Whales and Sharks';
RUN;
PROC PRINT DATA = marine;
RUN;
* Close the RTF file;
ODS RTF CLOSE;

输出的文档大概长成这样：

勉强可以看看吧。SAS的默认配色真心丑陋，像上世纪win 98时代的...

SAS的输出样式自定义

对于PRINTER输出和REPORT、TABULATE加STYLE选项，就不赘述了，目测不会有用到的需求——一般SAS都不会给我最终拿去给partner或者boss汇报的格式，再者就算SAS里面能做，也实在是太麻烦了，成本太高。我的观点就是，做统计的软件还是做统计吧，那些花里胡哨的修饰还是交给excel这种所见即所得的软件来搞定吧。各有所长才是~

不过SAS有个高亮单元格的功能，可以简单说一下。

ODS HTML FILE='c:MyHTMLmens2.html';
PROC FORMAT;
VALUE rec 0 -< 378.72 ='red'
378.72 -< 382.20 = 'orange'
382.20 - HIGH = 'white';
RUN;
PROC PRINT DATA=results;
ID Place;
VAR Name Country;
VAR Time/STYLE={BACKGROUND=rec.};
TITLE 'Men''s 5000m Speed Skating';
TITLE2 '2002 Olympic Results';
RUN;
ODS HTML CLOSE;

这样最终的结果就会有单元格高亮效果了：

勉强可以一看吧。EXCEL的条件格式（conditional formatting）更顺手强大。

SAS的导出模块：EXPORT

如果说ODS是结果的发送，那么export则是更加原始的数据输出（数据而不一定是分析结果）、供其他软件读取。

SAS图形界面下有一步步向导式的export，但是可惜我悲催的一开始就要接触命令行下面的SAS...跳过。

EXPORT可以输出文本格式，最常用的就是逗号或者tab分割的。

LIBNAME travel ’c:\MySASLib’;
* Create Tab-delimited file;
PROC EXPORT DATA = travel.golf OUTFILE = 'c:\MyRawData\Golf.txt' REPLACE;
RUN;

这里就输出了一个tab分割的文本文件。

当然也可以输出excel文件：

LIBNAME travel 'c:\MySASLib';
* Create Microsoft Excel file';
PROC EXPORT DATA=travel.golf OUTFILE = 'c:\MyExcel\Golf.xls' REPLACE;
RUN;

这个和ODS有点重复了呢。不过R也是啊，有各种各样输出的方式，任君选取。

Tags CSV, excel, Html, ODS, RTF, SAS, SAS OUTPUT, SAS的输出样式自定义, 输出

日常应用

七天搞定SAS（三）：基本模块调用（格式、计数、概要统计、排序等）

Post author By Liyun
Post date November 15, 2012
1 Comment on 七天搞定SAS（三）：基本模块调用（格式、计数、概要统计、排序等）

本系列连载文章：

搞定基本的函数之后，开始鼓捣SAS里面的模型。也就是说，要开始写PROC了。说实话，越学SAS，越觉得SAS像Stata...无论是从输出的样式，还是语法。好不习惯没有()的模型调用呀。若是说SAS和Stata的区别，怕只是Stata更侧重于计量模型而SAS则是服务于大多数统计模型吧。

PROC的基本内容：CONTENT

先是一个最基本的PROC：content，可以显示数据集的主要特性。比如，

LIBNAME tropical 'c:\MySASLib';
PROC CONTENTS DATA = tropical.banana;

这里主要是两个声明:TITLE和FOOTNOTE。前者输出时候会产生一个标题，后者会产生尾注。用法也是比较直接的：

TITLE ”Here’s another title”;
TITLE ’Here’’s another title’;
FOOTNOTE3 ’This is the third footnote’;

最后还有一个很像Stata的LABEL声明：

LABEL ReceiveDate = ’Date order was received’
ShipDate = ’Date merchandise was shipped’;

可以变量加注释。其实R里面给变量加注释是一件非常麻烦的事情，只有少数几个包可以搞定，还非常不值的。一般说来，我尽量在变量命名的时候长一点，这样直接可以读懂；再就是重建一个新的表，存储变量名和label。

SAS PROC求子集:WHERE

如果要在PROC里面先求子集的话，可以直接调用WHERE。感觉这里和SQL的思路比较像。用法也算是比较简单（SAS里面的用法都不是很麻烦，除了某些模型）：

PROC PRINT DATA = 'c:\MySASLib\style';
WHERE Genre = 'Impressionism';
TITLE 'Major Impressionist Painters';
FOOTNOTE 'F = France N = Netherlands U = US';
RUN;

这样最终得到的结果就是：

Major Impressionist Painters 1
Obs Name Genre Origin
1 Mary Cassatt Impressionism U
3 Edgar Degas Impressionism F
5 Claude Monet Impressionism F
6 Pierre Auguste Renoir Impressionism F
F = France N = Netherlands U = US

SAS PROC 数据进行排序:SORT

排序就更简单了，直接PROC SORT就可以了。

DATA marine;
INFILE 'c:\MyRawData\Lengths.dat';
INPUT Name $ Family $ Length @@;
RUN;
* Sort the data;
PROC SORT DATA = marine OUT = seasort NODUPKEY;
BY Family DESCENDING Length;
PROC PRINT DATA = seasort;
TITLE 'Whales and Sharks';
RUN;

这样数据就按照Family、Length（递减）排序了。

Whales and Sharks 1
Obs Name Family Length
1 humpback 50.0
2 whale shark 40.0
3 basking shark 30.0
4 mako shark 12.0
5 dwarf shark 0.5
6 blue whale 100.0
7 sperm whale 60.0
8 gray whale 50.0
9 killer whale 30.0
10 beluga whale 15.0

SAS PROC 输出数据:PRINT

最简单的数据输出怕就是PRINT了，顾名思义，直接打印数据出来。这里可以进行便啦的选择，还就可以选择统计量：

DATA sales;
INFILE 'c:\MyRawData\Candy.dat';
INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10. CandyType $
Quantity;
Profit = Quantity * 1.25;
PROC SORT DATA = sales;
BY Class;
PROC PRINT DATA = sales;
BY Class;
SUM Profit;
VAR Name DateReturned CandyType Profit;
TITLE 'Candy Sales for Field Trip by Class';
RUN;

得到的结果为：

Candy Sales for Field Trip by Class 1
-------------------------------- Class=14 ---------------------------------
Date Candy
Obs Name Returned Type Profit
1 Nathan 17612 CD 23.75
2 Matthew 17612 CD 17.50
3 Claire 17613 CD 13.75
4 Chris 17616 CD 7.50
5 Stephen 17616 CD 12.50
----- ------
Class 75.00
-------------------------------- Class=21 ---------------------------------
Date Candy
Obs Name Returned Type Profit
6 Adriana 17612 MP 8.75
7 Caitlin 17615 CD 11.25
8 Ian 17615 MP 22.50
9 Anthony 17616 MP 16.25
10 Erika 17616 MP 21.25
----- ------
Class 80.00
======
155.00

SAS PROC里面改变输出格式：FORMAT

基本就是FORMAT一下就可以了，再就是PUT的时候也可以调整。

DATA sales;
INFILE 'c:\MyRawData\Candy.dat';
INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10. CandyType $
Quantity;
Profit = Quantity * 1.25;
PROC PRINT DATA = sales;
VAR Name DateReturned CandyType Profit;
FORMAT DateReturned DATE9. Profit DOLLAR6.2;
TITLE 'Candy Sale Data Using Formats';
RUN;

输出结果为：

Candy Sale Data Using Formats 1
Date Candy
Obs Name Returned Type Profit
1 Adriana 21MAR2008 MP $8.75
2 Nathan 21MAR2008 CD $23.75
3 Matthew 21MAR2008 CD $17.50
4 Claire 22MAR2008 CD $13.75
5 Caitlin 24MAR2008 CD $11.25
6 Ian 24MAR2008 MP $22.50
7 Chris 25MAR2008 CD $7.50
8 Anthony 25MAR2008 MP $16.25
9 Stephen 25MAR2008 CD $12.50
10 Erika 25MAR2008 MP $21.25

常用的格式有：

文本型：$HEXw.和$w.
日期型：DATEw.（输出为ddmmyy或者ddmmyyyy）、DATETIMEw.d（输出为ddmmyy:hh:mm:ss）、DAYw.（输出为dd）、EURDFDDw. 、JULIANw.、MMDDYYw.（输出为mmddyy或mmddyyyy）、TIMEw.d（输出为hh:mm:ss）、WEEKDATEw.（输出为工作日）、WORDDATEw.(输出为单词)。
数字型：BESTw.（自动选择）、COMMAw.d（逗号分隔）、DOLLARw.d（货币）、Ew.（科学计数法）、PDw.d、w.d（标准小数）

输出的样本见下：

当然FORMAT还可以自定义factor型变量的输出格式，比如：

DATA carsurvey;
INFILE 'c:\MyRawData\Cars.dat';
INPUT Age Sex Income Color $;
PROC FORMAT;
VALUE gender 1 = 'Male'
2 = 'Female';
VALUE agegroup 13 -< 20 = 'Teen'
20 -< 65 = 'Adult'
65 - HIGH = 'Senior';
VALUE $col 'W' = 'Moon White'
'B' = 'Sky Blue'
'Y' = 'Sunburst Yellow'
'G' = 'Rain Cloud Gray';
* Print data using user-defined and standard (DOLLAR8.) formats;
PROC PRINT DATA = carsurvey;
FORMAT Sex gender. Age agegroup. Color $col. Income DOLLAR8.;
TITLE 'Survey Results Printed with User-Defined Formats';
RUN;

就可以把数字型的1，2转换为对应的文本male和female等，还可以把变量离散化，得到的输出为：

Survey Results Printed with User-Defined Formats 1
Obs Age Sex Income Color
1 Teen Male $14,000 Sunburst Yellow
2 Adult Male $65,000 Rain Cloud Gray
3 Senior Female $35,000 Sky Blue
4 Adult Male $44,000 Sunburst Yellow
5 Adult Female $83,000 Moon White

最终可以实现的自定义输出还包括简单的文本连接，比如：

* Write a report with FILE and PUT statements;
DATA _NULL_;
INFILE 'c:\MyRawData\Candy.dat';
INPUT Name $ 1-11 Class @15 DateReturned MMDDYY10.
CandyType $ Quantity;
Profit = Quantity * 1.25;
FILE 'c:\MyRawData\Student.txt' PRINT;
TITLE;
PUT @5 'Candy sales report for ' Name 'from classroom ' Class
// @5 'Congratulations! You sold ' Quantity 'boxes of candy'
/ @5 'and earned ' Profit DOLLAR6.2 ' for our field trip.';
PUT _PAGE_;
RUN;

可以给出若干连续的输出（注意DATA _NULL_;将不生成任何SAS的数据表）：

Candy sales report for Adriana from classroom 21
Congratulations! You sold 7 boxes of candy and earned $8.75 for our field trip.
------------
Candy sales report for Nathan from classroom 14
Congratulations! You sold 19 boxes of candy and earned $23.75 for our field trip.
------------
Candy sales report for Matthew from classroom 14
Congratulations! You sold 14 boxes of candy and earned $17.50 for our field trip.
------------

SAS里面总结数据:MEANS

SAS当然还有类似于excel的数据透视表和R的data.table的模块，就是MEANS。可以输出的summary statistics包括最大值、最小值、平均值、中位数、余非缺失值个数、缺失值个数、范围、标准差、和等等。此外，还可以使用BY或者CLASS进行分组统计，VAR选择变量等。

比如：

DATA sales;
INFILE 'c:\MyRawData\Flowers.dat';
INPUT CustomerID $ @9 SaleDate MMDDYY10. Petunia SnapDragon
Marigold;
Month = MONTH(SaleDate);
PROC SORT DATA = sales;
BY Month;
* Calculate means by Month for flower sales;
PROC MEANS DATA = sales;
BY Month;
VAR Petunia SnapDragon Marigold;
TITLE 'Summary of Flower Sales by Month';
RUN;

可以实现：

Summary of Flower Sales by Month 1
--------------------------------- Month=5 ---------------------------------
The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
---------------------------------------------------------------------------
Petunia 3 86.6666667 35.1188458 50.0000000 120.0000000
SnapDragon 3 113.3333333 41.6333200 80.0000000 160.0000000
Marigold 3 81.6666667 25.6580072 60.0000000 110.0000000
--------------------------------- Month=6 ---------------------------------
Variable N Mean Std Dev Minimum Maximum
---------------------------------------------------------------------------
Petunia 4 81.2500000 16.5201897 60.0000000 100.0000000
SnapDragon 4 97.5000000 47.8713554 60.0000000 160.0000000
Marigold 4 83.7500000 19.7378655 60.0000000 100.0000000
---------------------------------------------------------------------------

当然这些统计量也可以直接的写入一个SAS数据表，只需要加上一个OUTPUT就可以了。原数据：

756-01 05/04/2008 120 80 110
834-01 05/12/2008 90 160 60
901-02 05/18/2008 50 100 75
834-01 06/01/2008 80 60 100
756-01 06/11/2008 100 160 75
901-02 06/19/2008 60 60 60
756-01 06/25/2008 85 110 100

SAS代码：

DATA sales;
INFILE 'c:\MyRawData\Flowers.dat';
INPUT CustomerID $ @9 SaleDate MMDDYY10. Petunia SnapDragon Marigold;
PROC SORT DATA = sales;
BY CustomerID;
* Calculate means by CustomerID, output sum and mean to new data set;
PROC MEANS NOPRINT DATA = sales;
BY CustomerID;
VAR Petunia SnapDragon Marigold;
OUTPUT OUT = totals MEAN(Petunia SnapDragon Marigold) =
MeanPetunia MeanSnapDragon MeanMarigold
SUM(Petunia SnapDragon Marigold) = Petunia SnapDragon Marigold;
PROC PRINT DATA = totals;
TITLE 'Sum of Flower Data over Customer ID';
FORMAT MeanPetunia MeanSnapDragon MeanMarigold 3.;
RUN;

最终结果为：

SAS PROC统计频率：FREQ

计数的话，就要靠SAS里面的FREQ模块了。比如我们有一个数据集：

esp w cap d cap w kon w ice w kon d esp d kon w ice d esp d
cap w esp d cap d Kon d . d kon w esp d cap w ice w kon w
kon w kon w ice d esp d kon w esp d esp w kon w cap w kon w

然后可以用FREQ来统计一些基本量：

DATA orders;
INFILE 'c:\MyRawData\Coffee.dat';
INPUT Coffee $ Window $ @@;
* Print tables for Window and Window by Coffee;
PROC FREQ DATA = orders;
TABLES Window Window * Coffee;
RUN;

最终会得到一个2×5的表格：

SAS PROC汇报表格：TABULATE

基本看到TABULATE就可以想到那个著名的软件Tabular了...不过貌似SAS也自带了一个类似的表格模块。这个东西可以变得非常复杂，不过鉴于我一时半会儿还用不到，所以也没有细细看。抄个例子吧。

原数据：

Silent Lady Maalea sail sch 75.00
America II Maalea sail yac 32.95
Aloha Anai Lahaina sail cat 62.00
Ocean Spirit Maalea power cat 22.00
Anuenue Maalea sail sch 47.50
Hana Lei Maalea power cat 28.99
Leilani Maalea power yac 19.99
Kalakaua Maalea power cat 29.50
Reef Runner Lahaina power yac 29.95
Blue Dolphin Maalea sail cat 42.95

SAS代码：

DATA boats;
INFILE 'c:\MyRawData\Boats.dat';
INPUT Name $ 1-12 Port $ 14-20 Locomotion $ 22-26 Type $ 28-30
Price 32-36;
RUN;
* Tabulations with three dimensions;
PROC TABULATE DATA = boats;
CLASS Port Locomotion Type;
TABLE Port, Locomotion, Type;
TITLE 'Number of Boats by Port, Locomotion, and Type';
RUN;

最终结果：

类似的，还可以增加统计量（类似于MEANS那里）：

DATA boats;
INFILE 'c:\MyRawData\Boats.dat';
INPUT Name $ 1-12 Port $ 14-20 Locomotion $ 22-26 Type $ 28-30
Price 32-36;
RUN;
* PROC TABULATE report with options;
PROC TABULATE DATA = boats FORMAT=DOLLAR9.2;
CLASS Locomotion Type;
VAR Price;
TABLE Locomotion ALL, MEAN*Price*(Type ALL)
/BOX='Full Day Excursions' MISSTEXT='none';
TITLE;
RUN;

可以得到：

最后还可以混合FORMAT等等，可以变得相当的复杂。貌似这东西是美国劳工部鼓捣出来的格式...

DATA boats;
INFILE 'c:\MyRawData\Boats.dat';
INPUT Name $ 1-12 Port $ 14-20 Locomotion $ 22-26 Type $ 28-30
Price 32-36 Length 38-40;
RUN;
* Using the FORMAT= option in the TABLE statement;
PROC TABULATE DATA = boats;
CLASS Locomotion Type;
VAR Price Length;
TABLE Locomotion ALL,
MEAN * (Price*FORMAT=DOLLAR6.2 Length*FORMAT=6.0) * (Type ALL);
TITLE 'Price and Length by Type of Boat';
RUN;

BOSS级汇报表格呈现了...

我只能感慨，不愧是商业软件啊，用户需求考虑的真的是特别的周到...这种费时费力做汇报表格的事情也被搞定了，强悍。

SAS里面的报告：REPORT

还有一个REPORT，看到有TABULATE的时候我已经不奇怪并略略的有些期待一个做报告的模块出现了。这东西基本就是前面几个的超级混合体，反正你想搞到的汇报模式总是能够搞出来的。

又是一堆数据：

17 sci 9 bio 28 fic 50 mys 13 fic 32 fic 67 fic 81 non 38 non
53 non 16 sci 15 bio 61 fic 52 ref 22 mys 76 bio 37 fic 86 fic
49 mys 78 non 45 sci 64 bio 8 fic 11 non 41 fic 46 ref 69 fic
34 fic 26 mys 23 sci 74 ref 15 sci 27 fic 23 mys 63 fic 78 non
40 bio 12 fic 29 fic 54 mys 67 fic 60 fic 38 sci 42 fic 80 fic

然后一堆SAS代码：

DATA books;
INFILE 'c:\MyRawData\LibraryBooks.dat';
INPUT Age BookType $ @@;
RUN;
*Define formats to group the data;
PROC FORMAT;
VALUE agegpa
0-18 = '0 to 18'
19-25 = '19 to 25'
26-49 = '26 to 49'
50-HIGH = ' 50+ ';
VALUE agegpb
0-25 = '0 to 25'
26-HIGH = ' 26+ ';
VALUE $typ
'bio','non','ref' = 'Non-Fiction'
'fic','mys','sci' = 'Fiction';
RUN;
*Create two way table with Age grouped into four categories;
PROC FREQ DATA = books;
TITLE 'Patron Age by Book Type: Four Age Groups';
TABLES BookType * Age / NOPERCENT NOROW NOCOL;
FORMAT Age agegpa. BookType $typ.;
RUN;
*Create two way table with Age grouped into two categories;
PROC FREQ DATA = books;
TITLE 'Patron Age by Book Type: Two Age Groups';
TABLES BookType * Age / NOPERCENT NOROW NOCOL;
FORMAT Age agegpb. BookType $typ.;
RUN;

然后一堆交叉计数的结果就出来了：

当然，简单的计算和分类统计也不在话下：

DATA natparks;
INFILE 'c:\MyRawData\Parks.dat';
INPUT Name $ 1-21 Type $ Region $ Museums Camping;
RUN;
*Statistics in COLUMN statement with two group variables;
PROC REPORT DATA = natparks NOWINDOWS HEADLINE;
COLUMN Region Type N (Museums Camping),MEAN;
DEFINE Region / GROUP;
DEFINE Type / GROUP;
TITLE 'Statistics with Two Group Variables';
RUN;
*Statistics in COLUMN statement with group and across variables;
PROC REPORT DATA = natparks NOWINDOWS HEADLINE;
COLUMN Region N Type,(Museums Camping),MEAN;
DEFINE Region / GROUP;
DEFINE Type / ACROSS;
TITLE 'Statistics with a Group and Across Variable';
RUN;

可以得到一个看起来很fancy的表格：

SAS数据总结综述

我的感觉是，MEANS, TABULATE和REPORT这三个模块各有千秋，基本就是可以替代EXCEL的数据透视表，虽然效率上说不好谁比谁高...随便哪一个用习惯了就好，反正又不是天天出政府报告的，我就懒得深究了。