Objetivos
O objetivo da classe é estudar métodos de aprendizado de máquinas não-supervisionado, com grande foco em métodos de clustering e extração de atributos / redução de dimensões. Os projetos do curso devem ser desenvolvidos usando R ou alguma linguagem de programação comparável. Não usaremos software proprietário.
Leia a ementa, com o plano de atividades do curso.
Link para aula: https://meet.google.com/sks-cjio-wjf
Instrutor
| Sala | Horário de atendimento | ||
| Guilherme Ludwig | 233 | Somente pelo Moodle | gvludwig |
Horários
| Terça 16:00-18:00 | |
| Quinta 16:00-18:00 |
Referências
| C. Bouveyron, G. Celeux, T. Brendan Murphy e A. E. Raftery. Model-Based Clustering and Classification for Data Science. Cambridge University Press, 2019. |
| B. S. Everitt, S. Landau, M. Leese e D. Stahl. Cluster Analysis, 5th edition. John Wiley & Sons, 2011. |
| L. Kaufman e P. J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 2005. |
| K. V. Mardía, J. T. Kent e J. M. Bibby. Multivariate Analysis. Academic Press, 1979. |
| T. F. Cox e M. A. Cox. Multidimensional Scaling. Chapman and Hall/CRC, 2000. |
| B. S. Everitt e T. Hothorn. An Introduction to Applied Multivariate Analysis with R. Springer, 2011. |
| T. Hastie, R. Tibshirani e J. Friedman. The Elements of Statistical Learning, 2nd edition. URL. Springer, 2008. |
| A. J. Izenman. Modern Multivariate Statistical Techniques. Springer, 2008 |
| T. Kohonen. Self-Organizing Maps. Springer, 2000 |
| J. R. Magnus e H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley, 1999. |
| M. Ester, H.-P. Kriegel, J. Sander e X. Xu. "A density-based algorithm for discovering clusters in large spatial databases with noise." Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996. |
| M. Hahsler, M. Piekenbrock e D. Doran. "dbscan: fast density-based clustering with R". Journal of Statistical Software, Vol. 91, Issue 1, URL. Pacote no R, 2019. |
| M. Hubert, P. J. Rousseeuw e S. van Aelst. "High-Breakdown Robust Multivariate Methods", Statistical Science, Vol. 23, Issue 1, URL, 2008. |
Avaliação
| Atividade Teórica 1 | 15% |
| Atividade Prática 1 | 15% |
| Atividade Teórica 2 | 15% |
| Atividade Prática 2 | 15% |
| Trabalho Final | 40% |
| Total | 100% |
Calendário
Note: esse calendário é um plano preliminar e provavelmente o conteúdo das aulas estará sujeito a alterações!
| Dia | Tópico | Material extra |
| 16/03/2021 |
Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância. Mardía, Kent e Bibby (1979, pp. 26-33; 452-481). |
|
| 18/03/2021 |
Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações. Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32). |
|
| 23/03/2021 |
Aula 03: A distribuição normal multivariada. Mardía, Kent e Bibby (1979, pp. 59-86). |
|
| 25/03/2021 |
Aula 04: A distribuição de Wishart. Estimadores de máxima verossimilhança da normal multivariada. Otimização. Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111). |
|
| 30/03/2021 |
Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros. Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32). |
|
| 01/04/2021 | Feriado: Quinta-feira Santa | |
| 06/04/2021 |
Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM). Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119). |
|
| 08/04/2021 |
Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta. Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções). |
|
| 13/04/2021 | Aula 08: Atividade Teórica 1. Divulgação da Atividade Prática 1 | |
| 15/04/2021 |
Aula 09: Análise de componentes principais. Redução de dimensão. Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242). |
|
| 20/04/2021 |
Aula 10: Dados binários e análise monotética. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência. Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310) Entrega da Atividade Prática 1 (fim do dia) |
|
| 22/04/2021 |
Aula 11: Dados com atributos misturados. Multidimensional scaling. Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420). |
|
| 27/04/2021 |
Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo. Everitt, Landau, Leese e Stahl (2011, pp. 111-142). |
|
| 29/04/2021 |
Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN). Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019). |
|
| 04/05/2021 |
Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM. Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31). |
|
| 06/05/2021 |
Aula 15: Clustering baseado em modelos Gaussianos. Determinando o número de clusteres. Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75). |
|
| 11/05/2021 |
Aula 16: Clustering de dados categóricos baseados em modelos Gaussianos latentes. Clustering Bayesiano. Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288). |
|
| 13/05/2021 |
Aula 17: Seleção de variáveis e regularização para clustering baseados em modelos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215). |
|
| 18/05/2021 |
Aula 18: Métodos não-supervisionados para detecção de anomalias. Artigo: Hubert et al. (2008). |
|
| 20/05/2021 |
Aula 19: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi. Hastie, Tibshirani e Friedman (2008, pp. 295-317). |
|
| 25/05/2021 | Aula 20: Atividade Teórica 2. Divulgação da Atividade Prática 2 | |
| 27/05/2021 |
Aula 21: Classificação. Análise discriminante. Aprendizado semi-supervisionado. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160). |
|
| 01/06/2021 |
Aula 22: Métodos baseados em redes neurais. Self-organizing maps. Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000). Entrega da Atividade Prática 2 (fim do dia) |
|
| 03/06/2021 |
Feriado: Corpus Christi |
|
| 08/06/2021 |
Aula 23: Processamento de texto. Análise de sentimentos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368). |
|
| 10/06/2021 |
Aula 24: Dados funcionais e imagens. Representação em funções base. Hastie, Tibshirani e Friedman (2008, pp. 139-189). |
|
| 15/06/2021 |
Aula 25: Clustering de dados funcionais e imagens. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370). |
|
| 17/06/2021 |
Aula 26: Apresentações do trabalho final (1) Ordem as apresentações Entrega dos relatórios finais |
|
| 22/06/2021 | Aula 27: Apresentações do trabalho final (2) | |
| 24/06/2021 | Aula 28: Apresentações do trabalho final (3) | |
| 29/06/2021 | Aula 29: Apresentações do trabalho final (4) | |
| 01/07/2021 | Aula 30: Apresentações do trabalho final (5) | |
| 06/07/2021 | Aula 31: Apresentações do trabalho final (6) | |
| 08/07/2021 |
Aula 32: Apresentações do trabalho final, mas só se precisar. Avaliação substitutiva. Somente nos casos previstos no Regimento Geral (Art. 72). Se a demanda for baixa, o exame servirá de prova substitutiva. |
|
| 13/07/2021 | ~~ | |
| 20/07/2021 | Exame final (graduação) |