(seconda figura da: Navarra Simoncini, Springer 2010)

Matematica Computazionale:
Matrix methods for Data Mining

a.a. 2016-2017. Corso di laurea triennale in Matematica - Bologna

6 crediti
Lezioni: II semestre
Docente: Prof. V. Simoncini

Orari del Corso (inizio lezioni: 22/02/2017 in aula Arzela')

Mercoledi 14-16 (Aula Arzela' / Multimediale - forse per lezioni frontali)
Giovedi 14-16 (Aula Enriques / Multimediale - forse per lezioni frontali)

Orario di Ricevimento Studenti (periodo di lezione)

su appuntamento.

Programma

Il corso prevede lo studio di: Matrix methods for Data Mining. L'informazione contenuta in grandi quantita' di dati, usufruita per esempio dai motori di ricerca (es. Google), od usata nello studio di dati climatici, nel pattern recognition, ecc., e' spesso gestibile grazie all'uso di tecniche matriciali avanzate di alto livello, per la risoluzione numerica di sistemi lineari di enormi dimensioni, la risoluzione numerica di problemi agli autovalori e valori singolari di grandi dimensioni, il calcolo di funzioni di matrici, e la gestione di grafi. Il corso prevede di studiare queste tecniche, partendo dagli aspetti analitici di Teoria delle Matrici, e arrivando al loro utilizzo pratico nel Data Mining.
Dettaglio (approssimativo):
- Organizzazione dei dati e note introduttive
- Autovalori e proprieta' variazionali
- Valori singolari e loro proprieta'
- Metodi QR, Gram-Schmidt, e minimi quadrati
- Approssimazione di k autovalori di matrici di grandi dimensioni
- Approssimazione di k valori singolari di matrici di grandi dimensioni
- NMF approssimata (non-negative matrix factorization)
- Similarita', metodi di Clustering (Complete Linkage, kmeans, spectral clustering)
- Analisi delle Componenti Principali e Fattoriale
- Metodi matriciali per i complex networks (cenni)
Applicazioni: (Handwritten digits, Text mining, Page Ranking)
Dettaglio: Registro delle lezioni completo del corso. -----------------

Il corso prevede ore in Laboratorio informatico.

Prerequisiti:

Concetti fondamentali di Analisi Matematica.
Algebra Lineare di base (spazi vettoriali, matrici, vettori, norma, ...) ed aspetti computazionali (QR, Choleski, LU, Autovalori, SVD, ...)
Conoscenze di base dell'ambiente computazionale Matlab.


Testi di Consultazione:


* Lucidi del corso (file pdf. CREDENZIALI NUOVE di Matematica)
* R. Horn e C. Johnson, Matrix Analysis , Cambridge Univ. Press, 1985.
* Lars Elden, Matrix Methods in Data Mining and Pattern Recognition , SIAM, April 2007.
*R. Johnson e D. Wichern, Applied Multivariate Statistical Analysis, Prentice-Hall, (V ed.) 2002.
* M.W. Berry and M. Browne, Understanding Search Engines: Mathematical Modeling and Text Retrieval , SIAM Book Series: Software, Environments, and Tools, Second Edition (Maggio 2005).
* Extrapolation Methods for Accelerating PageRank Computations Sep Kamvar, Taher Haveliwala, Chris Manning, and Gene Golub. Proceedings of the Twelfth International World Wide Web Conference, May, 2003.
* Algorithms for Non-negative Matrix Factorization Daniel D. Lee and H. Sebastian Seung, Advances in Neural Information Processing Systems 13, (2001), 556-562.
* Algorithms, Initializations, and Convergence for the Nonnegative Matrix Factorization Russell Albright, James Cox, David Duling, Amy N. Langville, and Carl D. Meyer, NCSU Technical Report Math 81706.
* A tutorial on spectral clustering Ulrike von Luxburg, Statistics and COmputing, 17 (4), 2007.
* Network properties revealed through matrix functions E. Estrada and D.J. Higham, SIAM Review, 52 (4), 2010.
altri testi....


Laboratorio Informatico:


Esercizi del 15/03/17. (nuove credenziali) Dati: A_med.mat . Q_med.mat . dict_med.mat .
Esercizi del 23/03/17. Dati: bodyfat
Esercizi del 05/04/17. Dati: A.mat.
Esercizi del 12/04/17. Dati: mnist_all.mat.gz. Codici: ima2.m. testHW.m.
Esercizi del 19/04/17. Dati: stanford-berkeley-web.tar.gz.
Esercizi del 26/04/17. Dati: Protein.html. clustering.m. test1_kmeans.m.
Esercizi del 27/04/17.
Esercizi del 03-04/05/17. Dati e codici: Ainf.dat . glen_exp.tar.gz . readfaces.m .
Esercizi del 11/05/17. Dati e codici: protein.m . spec_clust.m . clusteringfromData.m .
Esercizi del 17/05/17.
Esercizi del 18/05/17. Dati e codici: ACID RAIN . MDscaling1.m .

Appelli:


Prova d'esame:

L'esame consiste in una presentazione orale di un progetto su argomenti svolti nel corso e nel laboratorio informatico. E' a disposizione un file (gzipped tar) con un esempio di semplice presentazione. Altri files utili: sem-page.sty. seminar.cls.

Problemi per l'esame :

testo.

Informazioni utili: Mercoledi 29/03 la lezione non avra' luogo. Riprenderemo regolarmente Giovedi 30/03 ore 14:16.


(Yale Face Dataset, http://vision.ucsd.edu/datasetsAll)