SAS: gráficos de dispersión

Un diagrama de dispersión es un tipo de gráfico que utiliza valores de dos variables trazadas en un plano cartesiano. Suele utilizarse para averiguar la relación entre dos variables. En SAS utilizamosPROC SGSCATTER para crear diagramas de dispersión.

Tenga en cuenta que creamos el conjunto de datos denominado CARS1 en el primer ejemplo y usamos el mismo conjunto de datos para todos los conjuntos de datos posteriores. Este conjunto de datos permanece en la biblioteca de trabajo hasta el final de la sesión SAS.

Sintaxis

La sintaxis básica para crear un diagrama de dispersión en SAS es:

PROC sgscatter  DATA = DATASET;
   PLOT VARIABLE_1 * VARIABLE_2
   / datalabel = VARIABLE group = VARIABLE;
RUN;

A continuación se muestra la descripción de los parámetros utilizados:

  • DATASET es el nombre del conjunto de datos.

  • VARIABLE es la variable utilizada del conjunto de datos.

Diagrama de dispersión simple

En una gráfica de dispersión simple, elegimos dos variables del conjunto de datos y las agrupamos con respecto a una tercera variable. También podemos etiquetar los datos. El resultado muestra cómo las dos variables se encuentran dispersas en elCartesian plane.

Ejemplo

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM 
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;

TITLE 'Scatterplot - Two Variables';
PROC sgscatter  DATA = CARS1;
   PLOT horsepower*Invoice 
   / datalabel = make group = type grid;
   title 'Horsepower vs. Invoice for car makers by types';
RUN;

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:

Diagrama de dispersión con predicción

podemos usar un parámetro de estimación para predecir la fuerza de la correlación dibujando una elipse alrededor de los valores. Usamos las opciones adicionales en el procedimiento para dibujar la elipse como se muestra a continuación.

Ejemplo

proc sgscatter data = cars1; 
compare y = Invoice  x = (horsepower length)  
         / group = type  ellipse =(alpha = 0.05 type = predicted); 
title
'Average Invoice vs. horsepower for cars by length'; 
title2
'-- with 95% prediction ellipse --'
; 
format
Invoice dollar6.0;
run;

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:

Matriz de dispersión

También podemos tener una gráfica de dispersión que involucre más de dos variables agrupándolas en pares. En el siguiente ejemplo, consideramos tres variables y dibujamos una matriz de diagrama de dispersión. Obtenemos 3 pares de matriz resultante.

Ejemplo

PROC sgscatter  DATA = CARS1;
   matrix horsepower invoice length
   / group = type;

   title 'Horsepower vs. Invoice vs. Length for car makers by types';
RUN;

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado: