Elementi di R e Radiant per un primo corso di Statistica

2.2 Analisi descrittive univariate

2.2.1 Una singola variabile categorica

Nel caso ci interessi sintetizzare le informazioni relative ad una variabile categorica, gli strumenti che possiamo utilizzare sono la distribuzione di frequenze insieme ad una rappresentazione grafica della stessa²⁸.

Prima di mostrare alcuni esempi, vi ricordiamo che in R le variabili categoriche corrispondono a vettori di tipo factor, che abbiamo presentato nella Sezione 1.3.4. Se la variabile che intendete analizzare non fosse codificata come factor, dovete prima convertirla in quel formato. Una volta caricato il data set, possiamo eseguire questa operazione in Radiant posizionandoci nel tab Transform del menu Data e seguendo questa procedura:

selezionate la variabile nella lista delle variabili che trovata sulla sinistra²⁹
nel box chiamato Transformation type, scegliete Change type
nel box chiamato Change variable type, scegliete As factor
cliccate sul pulsante verde +Store per confermare le scelte effettuate

In Figura 2.4 potete vedere la corrispondente schermata applicata alla variabile IndustryCode.

Figura 2.4: Schermata Radiant per la conversione di una colonna numerica in un vettore factor.

Fate attenzione perché, a meno che non modifichiate prima il nome del data frame nel box Store changes in, premendo su +Store sovrascriverete il data frame originale³⁰.

Per costruire la distribuzione di frequenze di una variabile categorica in Radiant possiamo usare la procedura seguente (si veda la Figura 2.5):

cliccate sul tab Pivot del menu Data
cliccate nel box Categorical variables e selezionate la variabile WideIndustry
cliccate sul pulsante verde Create pivot table per generare la tabella

Schermata Radiant per la costruzione di una distribuzione di frequenze di un vettore di tipo factor (ovvero di una variabile categorica).

Figura 2.5: Schermata Radiant per la costruzione di una distribuzione di frequenze di un vettore di tipo factor (ovvero di una variabile categorica).

La tabella non sarà visualizzata completamente a meno che non scegliate All nel box Show ... entries che trovate sopra la tabella stessa. Potete anche salvare la tabella in un file di testo CSV se cliccate sulla freccia rivolta verso il basso che si trova in alto a destra rispetto alla tabella. Infine, potete visualizzare il diagramma a barre corrispondente alla distribuzione di frequenze³¹ cliccando sul checkbox Show plot. Se il numero di livelli della variabile è elevato (più di 15-20), consigliamo di rendere il grafico più leggibile cliccando sul checkbox Flip nella parte denominata Plot type. Questa opzione consente di produrre il grafico in orizzontale.

Per riportare nella tabella e nel grafico le frequenze relative invece che quelle assolute, cliccate sul box Normalize by e scegliete Total.

Vi facciamo notare che eventuali modifiche al contenuto della tabella richiedono l’aggiornamento del risultato, ottenibile cliccando sul pulsante verde Update pivot table.

2.2.2 Una singola variabile numerica

La distribuzione di una variabile numerica è rappresentata da una tabella che riporta le frequenze con cui sono stati osservati i diversi valori, nel caso la variabile sia discreta, o le classi in cui è stata divisa, nel caso in cui la variabile sia continua. In entrambi i casi in Radiant è possibile utilizzare ancora il tab Pivot del menu Data, ma nel caso di variabili continue sarà prima necessario dividere i valori in classi³².

Per rappresentare graficamente la distribuzione di una variabile numerica è possibile usare vari tipi di grafici tra cui il diagramma ad aste, l’istogramma e il box-plot. Radiant consente di produrre solo gli ultimi due, mentre il box-plot può essere costruito solo per gruppi di osservazioni corrispondenti alle categorie di una variabile categorica.

In Radiant possiamo costruire un istogramma nel tab Visualize del menu Data seguendo questa procedura:

scegliete Distribution nel box Plot-type
selezionate la variabile nel box chiamato X-variable
cliccate sul pulsante verde Create plot

Lo slider denominato Number of bins ci permette di scegliere il numero di classi da usare. La Figura 2.6 riporta l’istogramma con 10 classi di uguale ampiezza per la variabile Salary.

Figura 2.6: Schermata Radiant per la costruzione di un istogramma.

Purtroppo Radiant non consente di costruire istogrammi con classi di diversa ampiezza, ma permette invece di generare istogrammi per sottogruppi di dati (ovvero permette di rappresentare graficamente le distribuzioni condizionate di una variabile rispetto ai valori assunti da una seconda variabile). Se ad esempio volessimo costruire gli istogrammi di Salary condizionatamente ai valori assunti dalla variabile MBA, la quale indica se ognuno dei CEO possedeva il titolo di MBA (valore 1) nel 1994 oppure no (valore 0), in aggiunta alle selezioni precedenti è necessario scegliere MBA nel box denominato Facet column e cliccare sul pulsante verde Update plot. Il risultato è mostrato in Figura 2.7.

Figura 2.7: Schermata Radiant per la costruzione di un istogramma condizionatamente ai valori di una seconda variabile.

Per quanto riguarda i box-plot, Radiant non dà la possibilità di costruire il box-plot per una singola variabile, ma permette di creare box-plot per sottogruppi di dati come abbiamo appena visto per gli istogrammi. L’unica differenza è che per ottenere i box-plot dobbiamo scegliere Box-plot nel box Plot-type (vedi Figura 2.8). Vi facciamo infine notare che, in presenza di outlier, Radiant costruisce i box-plot utilizzando una regola leggermente diversa rispetto a quella presentata nel corso. Per avere più dettagli sulla costruzione dei box-plot in Radiant vi invitiamo a consultare l’help, a cui si può accedere cliccando sul simbolo ? in basso a sinistra nella schermata.

Figura 2.8: Schermata Radiant per la costruzione di un box-plot condizionatamente ai valori di una seconda variabile.

Il calcolo degli indici di sintesi in Radiant è effettuato nel tab Explore, in cui è necessario selezionare le variabili oggetto dell’analisi nel box denominato Numeric variable(s) e la lista di indici da calcolare nel box Apply function(s). In particolare, cliccando su quest’ultimo apparirà una lista di indici disponibili tra cui scegliere. A titolo di esempio, calcoliamo il numero di dati mancanti (n_missing), la media campionaria (mean), la deviazione standard campionaria (sd), i quartili campionari (25% e 75%) e il coefficiente di variazione campionario (cv) per le variabili Salary, Bonus e Other, le quali indicano rispettivamente lo stipendio, i bonus e altre compensazioni ricevute dai CEO nel 1994. Il risultato è mostrato in Figura 2.9.

Figura 2.9: Schermata Radiant per il calcolo degli indici di sintesi.

Tramite il box Group by è possibile richiedere il calcolo degli indici per sottogruppi di dati, in analogia a quanto visto per l’istogramma e il box-plot.

In R e Radiant non esiste una funzione per il calcolo della moda, la quale si può comunque desumere dalla distribuzione di frequenze e dal relativo grafico.↩
E’ possibile applicare questa modifica contemporaneamente a un gruppo di variabili selezionandole tutte insieme nella lista.↩
Questa operazione non sovrascrive il file .RData originale, ma solo la copia locale del data frame caricata in memoria da Radiant.↩
Radiant non dà la possibilità di creare diagramma a torta. Nella Sezione 2.1 abbiamo spiegato come produrne uno direttamente con R.↩
Si può effettuare questa operazione scegliendo il tab Transform nel menu Data, selezionando Bin nel box Transformation type e indicando il numero di classi (solo di uguale ampiezza) che si intende usare. Fate attenzione perché questa procedura richiede che non ci siano dati mancanti nella colonna da ricodificare in classi. In presenza di dati mancanti, Radiant mostrerà un messaggio di errore.↩