ME921 - Métodos em Aprendizado Não-Supervisionado de Máquinas

Objetivos

O objetivo da classe é estudar métodos de aprendizado de máquinas não-supervisionado, com grande foco em métodos de clustering e extração de atributos / redução de dimensões. Os projetos do curso devem ser desenvolvidos usando R ou alguma linguagem de programação comparável. Não usaremos software proprietário.

Leia o PDD, com o plano de desenvolvimento do curso.

Instrutor
     Sala    Horário de atendimento  Email
Guilherme Ludwig  233    Somente pelo Moodle     gvludwig

Horários
 Segunda 16:00-18:00CB07
 Quarta 16:00-18:00CB07

Referências
C. Bouveyron, G. Celeux, T. Brendan Murphy e A. E. Raftery. Model-Based Clustering and Classification for Data Science. Cambridge University Press, 2019.
B. S. Everitt, S. Landau, M. Leese e D. Stahl. Cluster Analysis, 5th edition. John Wiley & Sons, 2011.
L. Kaufman e P. J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 2005.
K. V. Mardía, J. T. Kent e J. M. Bibby. Multivariate Analysis. Academic Press, 1979.

Referências adicionais (livros)
T. F. Cox e M. A. Cox. Multidimensional Scaling. Chapman and Hall/CRC, 2000.
B. S. Everitt e T. Hothorn. An Introduction to Applied Multivariate Analysis with R. Springer, 2011.
T. Hastie, R. Tibshirani e J. Friedman. The Elements of Statistical Learning, 2nd edition. URL. Springer, 2008.
A. J. Izenman. Modern Multivariate Statistical Techniques. Springer, 2008
T. Kohonen. Self-Organizing Maps. Springer, 2000
J. R. Magnus e H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley, 1999.

Referências adicionais (papers e software)
M. Ester, H.-P. Kriegel, J. Sander e X. Xu. "A density-based algorithm for discovering clusters in large spatial databases with noise." Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996.
M. Hahsler, M. Piekenbrock e D. Doran. "dbscan: fast density-based clustering with R". Journal of Statistical Software, Vol. 91, Issue 1, URL. Pacote no R, 2019.
M. Hubert, P. J. Rousseeuw e S. van Aelst. "High-Breakdown Robust Multivariate Methods", Statistical Science, Vol. 23, Issue 1, URL, 2008.

Calendário
Note: esse calendário é um plano preliminar e provavelmente o conteúdo das aulas estará sujeito a alterações! Qualquer assunto depois da Aula 15 tem grandes chances de será modificado.

Dia Tópico Material extra
04/03/2021 Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância.
  Mardía, Kent e Bibby (1979, pp. 26-33; 452-481).
06/03/2021 Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações.
  Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32).
11/03/2021 Aula 03: A distribuição normal multivariada.
  Mardía, Kent e Bibby (1979, pp. 59-86).
13/03/2021 Aula 04: Estimadores de máxima verossimilhança da normal multivariada. Breve visão de cálculo com matrizes.
  Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111).

18/03/2021 Não tivemos aula
20/03/2021 Não tivemos aula
25/03/2021 Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros.
  Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32).

27/03/2021 Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM).
  Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119).

01/04/2021 Não tivemos aula
03/04/2021 Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta.
  Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções).

08/04/2021 Aula 08: Análise de componentes principais. Redução de dimensão.
  Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242).

10/04/2021 Aula 09: Dados com atributos misturados. Multidimensional scaling.
  Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420).

15/04/2021 Aula 10: Dados binários. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência. Clustering monotético.
  Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310).

17/04/2021 Aula 11: Clustering divisivo monotético (MONA) e clustering hierárquico divisivo (DIANA).
  Kaufman e Rousseeuw (2005, pp. 253-310).
  Entrega da Atividade #1.

22/04/2021 Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo.
  Everitt, Landau, Leese e Stahl (2011, pp. 111-142).

24/04/2021 Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN).
  Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019).

29/04/2021 Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM.
  Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31).
  Último dia para desistência de matrícula.

01/05/2021 Feriado / Expediente Suspenso

06/05/2021 Aula 15: Clustering baseado em modelos Gaussianos. Modelos de covariância.
  Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).

08/05/2021 Aula 16: Determinando o número de clusteres. BIC.
  Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).

13/05/2021 Aula 17: Lidando com outliers. Métodos não-supervisionados para detecção de anomalias. Clustering Bayesiano.
  Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288). Artigo: Hubert et al. (2008).

15/05/2021 Aula 18: Clustering de dados discretos com misturas multinomiais.
  Entrega da Atividade #2.

20/05/2021 Aula 19: Clustering de dados discretos e contínuos com misturas.
22/05/2021 Aula 20: Clustering de dados em redes e stochastic block model.

27/05/2021 Aula 21: Self-organizing maps.
  Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000).

29/05/2021 Aula 22: Clustering baseado em modelos com covariáveis.
03/06/2021 Aula 23: Seleção de variáveis e regularização para clustering baseados em modelos.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215).

05/06/2021 Aula 24: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi.
  Hastie, Tibshirani e Friedman (2008, pp. 295-317).

10/06/2021 Aula 25: Classificação. Análise discriminante. Aprendizado semi-supervisionado.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160).

12/06/2021 Aula 26: Processamento de texto. Análise de sentimentos.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368).

17/06/2021 Aula 27: Dados funcionais e imagens. Representação em funções base.
  Hastie, Tibshirani e Friedman (2008, pp. 139-189).

19/06/2021 Aula 28: Clustering de dados funcionais e imagens.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370).
  Entrega da Atividade #3.

24/06/2021 Aula 29: Trabalhando com problemas de alta dimensão. Text embeddings.
26/06/2021 Aula 30: Conexão entre grafos, text embeddings, PCA. Redes neurais, self-supervised learning, large language models...?

01/07/2021 ~~
03/07/2021 ~~
10/07/2021 Feriado / Expediente Suspenso

10/07/2021 Exame final