11396 - ANALISI STATISTICA MULTIVARIATA

Scheda insegnamento

Anno Accademico 2017/2018

Conoscenze e abilità da conseguire

Al termine del corso, lo studente possiede una conoscenza dell'Analisi Statistica Multivariata per il trattamento dei dati. E' in grado di utilizzare gli strumenti delle Distribuzioni normali multivariate, l'Analisi Multipla della Varianza, l'Analisi delle Componenti Principali e Fattoriale.

Programma/Contenuti

TEORIA

• Applicazione di Tecniche Multivariate: concetti generali. Organizzazione dei dati: Matrici, Statistica descrittiva multivariata, Tecniche grafiche, Distanza statistica.

• Vettori e Matrici Casuali: Vettore media e Matrice di Varianza/Covarianza, Valore di Attesa, Media Marginale e Vettore Media di popolazione, Varianza e Covarizanza Marginali e Matrice di Varianza-Covarianza di popolazione.

• Campioni casuali e valori attesi per il vettore media e la Matrice di Covarianza campionarie. Varianza Generalizzata e Varianza totale campionarie.

• Distribuzione Normale multivariata: dal caso univariato al multivariato, proprieta' fondamentali, curve di livello. Verosimiglianza Normale Multivariata. Comportamento per grandi campioni. Test sull'ipotesi di normalita': Plot Q-Q. Trasformazioni per quasi-normalita'.

• La Statistica T2 di Hotelling: ipotesi statistiche e test di significativita', dal test t-student al test T2. Regioni di confidenza e intervalli di confidenza simultanei per il vettore media di una distribuzione normale multivariata. Il caso di grandi campioni. Grafici di controllo qualitá multivariato.

• Confronto di coppie di trattamenti: Statistica accoppiata. Confronto di vettori di media tra due popolazioni: Caso di uguale matrice di covarianza, Caso di matrici di covarianza diverse. Confronto di medie di varie popolazioni multivariate: dal caso univariato (test di Fisher) al caos multivariato (MANOVA: test sul Λ di Wilks).

• Modello classico di Regressione lineare multivariata. La Stima col metodo dei minimi quadrati. Regione di confidenza per i parametri di regressione. Valutazione del modello mediante i valori stimati. Stime del valore atteso e previsione di una nuova osservazione.

• Componenti Principali: definizione ed interpretazione. Componenti Principali da Variabili standardizzate. Analisi della variabilita' dei dati mediante l'uso delle componenti principali. Studio grafico dei componenti principali.

• Misure di dissimilarita' (distanze). Misure di similarita' e associazione. Analisi di Clusters con metodi di aggregazione.

LABORATORIO

Analisi statistica univariata. Errori casuali e sistematici. Statistica descrittiva. Intervallo di confidenza. Test di significatività

Regressione lineare. metodo MLR. Leverages. Coefficienti di regressione. Parametri di valutazione di un modello di regressione. Coefficiente di correlazione.

Struttura multivariata dei dati. Principali operazioni matriciali trasposizione, centratura, covarianza, correlazione. Pretrattamento dei dati. Trasformazione delle variabili. Gestione dei dati mancanti.

Analisi delle componenti principali. Grafici dei loadings. Grafici degli scores. Scelta delle componenti principali (scree plot).

Analisi dei clusters. Matrice delle distanze, matrice di similarità. Dendrogrammi. Custer analisi su PCA.

Modelli e Classificazione. Metodi di classificazione. Validazione di un modello.

Metodi di regressione: modelli quantitativi. Metodo di Regressione in Componenti Principali (PCR). Metodo Partial Least Squares (PLS).

Testi/Bibliografia

Applied Multivariate Statistical Analysis, R. A. Johnson e D. W. Wichern, Prentice Hall, V edizione, 2002

Introduzione alla chemiometria, Tedeschi Roberto, Edises, 1998

Metodi Statistici per la Sperimentazione Biologica, A. Camussi, F. Möller, E. Ottaviano, M. Sari Gorla, Zanichelli, II edizione, 1995.

Metodi didattici

Lezioni in aula ed in laboratorio informatico.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene attraverso il solo esame finale, che accerta l'acquisizione delle conoscenze e delle abilità attese tramite lo svolgimento di una prova scritta/orale. La durata complessiva della prova è mediamente di 120-180 minuti ed è strutturata nel seguente modo:

- Verifica scritta degli argomenti svolti nel corso della parte teorica

- Esercitazione in laboratorio informatico su argomenti svolti in laboratorio

Il voto finale viene calcolato come media pesata (sui crediti) della votazione acquisita nella verifica scritta degli argomenti teorici e del voto ottenuto nell'esercitazione.

Strumenti a supporto della didattica

1) Lezioni (ed esercizi) tenute alla lavagna e con supporto del video-proiettore. Dispense.

2) Esercitazioni al calcolatore

Orario di ricevimento

Consulta il sito web di Assimo Maris

Consulta il sito web di Giovanni Valenti