SAS: subconjuntos de datos

Subconjuntos de un conjunto de datos SAS significa extraer una parte del conjunto de datos seleccionando un número menor de variables o un número menor de observaciones o ambos. Mientras que el subconjunto de variables se realiza utilizandoKEEP y DROP declaración, el subconjunto de observaciones se realiza utilizando DELETE declaración.

Además, los datos resultantes de la operación de subconjunto se mantienen en un nuevo conjunto de datos que se puede utilizar para análisis adicionales. La subconfiguración se utiliza principalmente con el fin de analizar una parte del conjunto de datos sin utilizar las variables u observaciones que pueden no ser relevantes para el análisis.

Subconjuntos de variables

En este método, extraemos solo unas pocas variables de todo el conjunto de datos.

Sintaxis

La sintaxis básica para las variables de subconfiguración en SAS es:

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

A continuación se muestra la descripción de los parámetros utilizados:

  • var1 and var2 son los nombres de las variables del conjunto de datos que deben mantenerse o eliminarse.

Ejemplo

Considere el siguiente conjunto de datos SAS que contiene los detalles de los empleados de una organización. Si solo estamos interesados ​​en obtener los valores de Nombre y Departamento del conjunto de datos, entonces podemos usar el siguiente código.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Cuando se ejecuta el código anterior, obtenemos el siguiente resultado.

Se puede obtener el mismo resultado descartando las variables que no son necesarias. El siguiente código ilustra esto.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Subconjuntos de observaciones

En este método, extraemos solo algunas observaciones de todo el conjunto de datos.

Sintaxis

Usamos PROC FREQ que realiza un seguimiento de las observaciones seleccionadas para el nuevo conjunto de datos.

La sintaxis para las observaciones de subconjuntos es:

IF Var Condition THEN DELETE ;

A continuación se muestra la descripción de los parámetros utilizados:

  • Var es el nombre de la variable en función de cuyo valor se eliminarán las observaciones utilizando la condición especificada.

Ejemplo

Considere el siguiente conjunto de datos SAS que contiene los detalles de los empleados de una organización. Si solo nos interesa obtener los datos de los empleados con un salario superior a 700, usamos el siguiente código.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Cuando se ejecuta el código anterior, obtenemos el siguiente resultado.