(seconda figura da: Navarra Simoncini, Springer 2010)
SITO IN COSTRUZIONE
Matematica Computazionale:
Matrix methods for Data Mining
a.a. 2011-2012.
Corso di laurea triennale in Matematica - Bologna
6 crediti
Lezioni: I semestre
Docente: Prof. V. Simoncini
Orari del Corso (inizio lezioni: 29/09/2011)
Venerdi 9:11 (Aula Laboratorio Linux - anche per lezioni frontali)
Venerdi 11:13 (Aula Laboratorio Linux - anche per lezioni frontali)
Orario di Ricevimento Studenti (periodo di lezione)
su appuntamento.
Programma
Il corso prevede lo studio di: Matrix methods for Data Mining. L'informazione contenuta in grandi quantita' di dati, usufruita per esempio dai motori di ricerca (es. Google), od usata nello studio di dati climatici, nel pattern recognition, ecc., e' spesso gestibile grazie all'uso di tecniche matriciali avanzate di alto livello, per la risoluzione numerica di sistemi lineari di enormi dimensioni, la risoluzione numerica di problemi agli autovalori e valori singolari di grandi dimensioni, il calcolo di funzioni di matrici, e la gestione di grafi. Il corso prevede di studiare queste tecniche, partendo dagli aspetti analitici di Teoria delle Matrici, e arrivando al loro utilizzo pratico nel Data Mining.
Dettaglio (approssimativo):
- Organizzazione dei dati e note introduttive
- Autovalori e proprieta' variazionali
- Valori singolari e loro proprieta'
- Metodi QR, Gram-Schmidt, e minimi quadrati
- Approssimazione di k autovalori di matrici di grandi dimensioni
- Approssimazione di k valori singolari di matrici di grandi dimensioni
- NMF approssimata (non-negative matrix factorization)
- Similarita', metodi di Clustering (Complete Linkage, kmeans, spectral clustering)
- Analisi delle Componenti Principali e Fattoriale
Applicazioni: (Handwritten digits, Text mining, Page Ranking)
-----------------
Il corso prevede ore in Laboratorio informatico.
Prerequisiti:
Concetti fondamentali di Analisi Matematica.
Algebra Lineare di base (spazi vettoriali, matrici, vettori, norma, ...)
ed aspetti computazionali
(QR, Choleski, LU, Autovalori, SVD, ...)
Conoscenze di base dell'ambiente computazionale Matlab.
Testi di Consultazione:
*
Lucidi del corso (file pdf, pp.1-220)
* R. Horn e C. Johnson,
Matrix Analysis , Cambridge Univ. Press, 1985.
* Lars Elden,
Matrix Methods in Data Mining and Pattern Recognition , SIAM, April 2007.
* M.W. Berry and M. Browne, Understanding Search Engines: Mathematical Modeling and Text Retrieval , SIAM Book Series: Software, Environments, and Tools, Second Edition (Maggio 2005).
*
Extrapolation Methods for Accelerating PageRank Computations
Sep Kamvar, Taher Haveliwala, Chris Manning, and Gene Golub.
Proceedings of the Twelfth International World Wide Web Conference, May, 2003.
*
Algorithms for Non-negative Matrix Factorization
Daniel D. Lee and H. Sebastian Seung, Advances in Neural Information
Processing Systems 13, (2001), 556-562.
*
Algorithms, Initializations, and Convergence for the Nonnegative
Matrix Factorization
Russell Albright, James Cox, David Duling, Amy N. Langville, and Carl D. Meyer,
NCSU Technical Report Math 81706.
*
A tutorial on spectral clustering
Ulrike von Luxburg, Statistics and COmputing, 17 (4), 2007.
altri testi....