2.2 Analisi descrittive univariate
2.2.1 Una singola variabile categorica
Nel caso ci interessi sintetizzare le informazioni relative ad una variabile categorica, gli strumenti che possiamo utilizzare sono la distribuzione di frequenze insieme ad una rappresentazione grafica della stessa28.
Prima di mostrare alcuni esempi, vi ricordiamo che in R le variabili categoriche corrispondono a vettori di tipo factor, che abbiamo presentato nella Sezione 1.3.4. Se la variabile che intendete analizzare non fosse codificata come factor, dovete prima convertirla in quel formato. Una volta caricato il data set, possiamo eseguire questa operazione in Radiant posizionandoci nel tab Transform
del menu Data
e seguendo questa procedura:
- selezionate la variabile nella lista delle variabili che trovata sulla sinistra29
- nel box chiamato
Transformation type
, sceglieteChange type
- nel box chiamato
Change variable type
, sceglieteAs factor
- cliccate sul pulsante verde
+Store
per confermare le scelte effettuate
In Figura 2.4 potete vedere la corrispondente schermata applicata alla variabile IndustryCode
.
Fate attenzione perché, a meno che non modifichiate prima il nome del data frame nel box Store changes in
, premendo su +Store
sovrascriverete il data frame originale30.
Per costruire la distribuzione di frequenze di una variabile categorica in Radiant possiamo usare la procedura seguente (si veda la Figura 2.5):
- cliccate sul tab
Pivot
del menuData
- cliccate nel box
Categorical variables
e selezionate la variabileWideIndustry
- cliccate sul pulsante verde
Create pivot table
per generare la tabella
La tabella non sarà visualizzata completamente a meno che non scegliate All
nel box Show ... entries
che trovate sopra la tabella stessa. Potete anche salvare la tabella in un file di testo CSV se cliccate sulla freccia rivolta verso il basso che si trova in alto a destra rispetto alla tabella. Infine, potete visualizzare il diagramma a barre corrispondente alla distribuzione di frequenze31 cliccando sul checkbox Show plot
. Se il numero di livelli della variabile è elevato (più di 15-20), consigliamo di rendere il grafico più leggibile cliccando sul checkbox Flip
nella parte denominata Plot type
. Questa opzione consente di produrre il grafico in orizzontale.
Per riportare nella tabella e nel grafico le frequenze relative invece che quelle assolute, cliccate sul box Normalize by
e scegliete Total
.
Vi facciamo notare che eventuali modifiche al contenuto della tabella richiedono l’aggiornamento del risultato, ottenibile cliccando sul pulsante verde Update pivot table
.
2.2.2 Una singola variabile numerica
La distribuzione di una variabile numerica è rappresentata da una tabella che riporta le frequenze con cui sono stati osservati i diversi valori, nel caso la variabile sia discreta, o le classi in cui è stata divisa, nel caso in cui la variabile sia continua. In entrambi i casi in Radiant è possibile utilizzare ancora il tab Pivot
del menu Data
, ma nel caso di variabili continue sarà prima necessario dividere i valori in classi32.
Per rappresentare graficamente la distribuzione di una variabile numerica è possibile usare vari tipi di grafici tra cui il diagramma ad aste, l’istogramma e il box-plot. Radiant consente di produrre solo gli ultimi due, mentre il box-plot può essere costruito solo per gruppi di osservazioni corrispondenti alle categorie di una variabile categorica.
In Radiant possiamo costruire un istogramma nel tab Visualize
del menu Data
seguendo questa procedura:
- scegliete
Distribution
nel boxPlot-type
- selezionate la variabile nel box chiamato
X-variable
- cliccate sul pulsante verde
Create plot
Lo slider denominato Number of bins
ci permette di scegliere il numero di classi da usare. La Figura 2.6 riporta l’istogramma con 10 classi di uguale ampiezza per la variabile Salary
.
Purtroppo Radiant non consente di costruire istogrammi con classi di diversa ampiezza, ma permette invece di generare istogrammi per sottogruppi di dati (ovvero permette di rappresentare graficamente le distribuzioni condizionate di una variabile rispetto ai valori assunti da una seconda variabile). Se ad esempio volessimo costruire gli istogrammi di Salary
condizionatamente ai valori assunti dalla variabile MBA
, la quale indica se ognuno dei CEO possedeva il titolo di MBA (valore 1) nel 1994 oppure no (valore 0), in aggiunta alle selezioni precedenti è necessario scegliere MBA
nel box denominato Facet column
e cliccare sul pulsante verde Update plot
. Il risultato è mostrato in Figura 2.7.
Per quanto riguarda i box-plot, Radiant non dà la possibilità di costruire il box-plot per una singola variabile, ma permette di creare box-plot per sottogruppi di dati come abbiamo appena visto per gli istogrammi. L’unica differenza è che per ottenere i box-plot dobbiamo scegliere Box-plot
nel box Plot-type
(vedi Figura 2.8). Vi facciamo infine notare che, in presenza di outlier, Radiant costruisce i box-plot utilizzando una regola leggermente diversa rispetto a quella presentata nel corso. Per avere più dettagli sulla costruzione dei box-plot in Radiant vi invitiamo a consultare l’help, a cui si può accedere cliccando sul simbolo ?
in basso a sinistra nella schermata.
Il calcolo degli indici di sintesi in Radiant è effettuato nel tab Explore
, in cui è necessario selezionare le variabili oggetto dell’analisi nel box denominato Numeric variable(s)
e la lista di indici da calcolare nel box Apply function(s)
. In particolare, cliccando su quest’ultimo apparirà una lista di indici disponibili tra cui scegliere. A titolo di esempio, calcoliamo il numero di dati mancanti (n_missing
), la media campionaria (mean
), la deviazione standard campionaria (sd
), i quartili campionari (25%
e 75%
) e il coefficiente di variazione campionario (cv
) per le variabili Salary
, Bonus
e Other
, le quali indicano rispettivamente lo stipendio, i bonus e altre compensazioni ricevute dai CEO nel 1994. Il risultato è mostrato in Figura 2.9.
Tramite il box Group by
è possibile richiedere il calcolo degli indici per sottogruppi di dati, in analogia a quanto visto per l’istogramma e il box-plot.
In R e Radiant non esiste una funzione per il calcolo della moda, la quale si può comunque desumere dalla distribuzione di frequenze e dal relativo grafico.↩
E’ possibile applicare questa modifica contemporaneamente a un gruppo di variabili selezionandole tutte insieme nella lista.↩
Questa operazione non sovrascrive il file
.RData
originale, ma solo la copia locale del data frame caricata in memoria da Radiant.↩Radiant non dà la possibilità di creare diagramma a torta. Nella Sezione 2.1 abbiamo spiegato come produrne uno direttamente con R.↩
Si può effettuare questa operazione scegliendo il tab
Transform
nel menuData
, selezionandoBin
nel boxTransformation type
e indicando il numero di classi (solo di uguale ampiezza) che si intende usare. Fate attenzione perché questa procedura richiede che non ci siano dati mancanti nella colonna da ricodificare in classi. In presenza di dati mancanti, Radiant mostrerà un messaggio di errore.↩