Objetivos
O objetivo da classe é estudar métodos de aprendizado de máquinas não-supervisionado, com grande foco em métodos de clustering e extração de atributos / redução de dimensões. Os projetos do curso devem ser desenvolvidos usando R ou alguma linguagem de programação comparável. Não usaremos software proprietário.
Leia o PDD, com o plano de desenvolvimento do curso.
Instrutor
Sala |  Horário de atendimento | ||
Guilherme Ludwig | 233 | Somente pelo Moodle | gvludwig |
Horários
Segunda 16:00-18:00 | CB07 | |
Quarta 16:00-18:00 | CB07 |
Referências
C. Bouveyron, G. Celeux, T. Brendan Murphy e A. E. Raftery. Model-Based Clustering and Classification for Data Science. Cambridge University Press, 2019. |
B. S. Everitt, S. Landau, M. Leese e D. Stahl. Cluster Analysis, 5th edition. John Wiley & Sons, 2011. |
L. Kaufman e P. J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 2005. |
K. V. Mardía, J. T. Kent e J. M. Bibby. Multivariate Analysis. Academic Press, 1979. |
T. F. Cox e M. A. Cox. Multidimensional Scaling. Chapman and Hall/CRC, 2000. |
B. S. Everitt e T. Hothorn. An Introduction to Applied Multivariate Analysis with R. Springer, 2011. |
T. Hastie, R. Tibshirani e J. Friedman. The Elements of Statistical Learning, 2nd edition. URL. Springer, 2008. |
A. J. Izenman. Modern Multivariate Statistical Techniques. Springer, 2008 |
T. Kohonen. Self-Organizing Maps. Springer, 2000 |
J. R. Magnus e H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley, 1999. |
M. Ester, H.-P. Kriegel, J. Sander e X. Xu. "A density-based algorithm for discovering clusters in large spatial databases with noise." Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996. |
M. Hahsler, M. Piekenbrock e D. Doran. "dbscan: fast density-based clustering with R". Journal of Statistical Software, Vol. 91, Issue 1, URL. Pacote no R, 2019. |
M. Hubert, P. J. Rousseeuw e S. van Aelst. "High-Breakdown Robust Multivariate Methods", Statistical Science, Vol. 23, Issue 1, URL, 2008. |
Calendário
Note: esse calendário é um plano preliminar e provavelmente o conteúdo das aulas estará sujeito a alterações! Qualquer assunto depois da Aula 15 tem grandes chances de será modificado.
Dia | Tópico | Material extra |
04/03/2021 |
Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância. Mardía, Kent e Bibby (1979, pp. 26-33; 452-481). |
|
06/03/2021 |
Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações. Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32). |
|
11/03/2021 |
Aula 03: A distribuição normal multivariada. Mardía, Kent e Bibby (1979, pp. 59-86). |
|
13/03/2021 |
Aula 04: Estimadores de máxima verossimilhança da normal multivariada. Breve visão de cálculo com matrizes. Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111). |
|
18/03/2021 | Não tivemos aula | |
20/03/2021 | Não tivemos aula | |
25/03/2021 |
Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros. Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32). |
|
27/03/2021 |
Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM). Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119). |
|
01/04/2021 | Não tivemos aula | |
03/04/2021 |
Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta. Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções). |
|
08/04/2021 |
Aula 08: Análise de componentes principais. Redução de dimensão. Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242). |
|
10/04/2021 |
Aula 09: Dados com atributos misturados. Multidimensional scaling. Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420). |
|
15/04/2021 |
Aula 10: Dados binários. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência. Clustering monotético. Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310). |
|
17/04/2021 |
Aula 11: Clustering divisivo monotético (MONA) e clustering hierárquico divisivo (DIANA). Kaufman e Rousseeuw (2005, pp. 253-310). Entrega da Atividade #1. |
|
22/04/2021 |
Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo. Everitt, Landau, Leese e Stahl (2011, pp. 111-142). |
|
24/04/2021 |
Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN). Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019). |
|
29/04/2021 |
Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM. Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31). Último dia para desistência de matrícula. |
|
01/05/2021 |
Feriado / Expediente Suspenso |
|
06/05/2021 |
Aula 15: Clustering baseado em modelos Gaussianos. Modelos de covariância. Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75). |
|
08/05/2021 |
Aula 16: Determinando o número de clusteres. BIC. Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75). |
|
13/05/2021 |
Aula 17: Lidando com outliers. Métodos não-supervisionados para detecção de anomalias. Clustering Bayesiano. Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288). Artigo: Hubert et al. (2008). |
|
15/05/2021 |
Aula 18: Clustering de dados discretos com misturas multinomiais. Entrega da Atividade #2. |
|
20/05/2021 | Aula 19: Clustering de dados discretos e contínuos com misturas. | |
22/05/2021 |
Aula 20: Clustering de dados em redes e stochastic block model. |
|
27/05/2021 |
Aula 21: Self-organizing maps. Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000). |
|
29/05/2021 | Aula 22: Clustering baseado em modelos com covariáveis. | |
03/06/2021 |
Aula 23: Seleção de variáveis e regularização para clustering baseados em modelos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215). |
|
05/06/2021 |
Aula 24: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi. Hastie, Tibshirani e Friedman (2008, pp. 295-317). |
|
10/06/2021 |
Aula 25: Classificação. Análise discriminante. Aprendizado semi-supervisionado. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160). |
|
12/06/2021 |
Aula 26: Processamento de texto. Análise de sentimentos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368). |
|
17/06/2021 |
Aula 27: Dados funcionais e imagens. Representação em funções base. Hastie, Tibshirani e Friedman (2008, pp. 139-189). |
|
19/06/2021 |
Aula 28: Clustering de dados funcionais e imagens. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370). Entrega da Atividade #3. |
|
24/06/2021 | Aula 29: Trabalhando com problemas de alta dimensão. Text embeddings. | |
26/06/2021 |
Aula 30: Conexão entre grafos, text embeddings, PCA. Redes neurais, self-supervised learning, large language models...? |
|
01/07/2021 | ~~ | |
03/07/2021 | ~~ | |
10/07/2021 |
Feriado / Expediente Suspenso |
|
10/07/2021 | Exame final |