MI407 / ME732 A / ME921- Análise Multivariada / Métodos em Análise Multivariada II / Métodos em Aprendizado Não-Supervisionado de Máquinas

Objetivos

O objetivo da classe é estudar métodos de aprendizado de máquinas não-supervisionado, com grande foco em métodos de clustering e extração de atributos / redução de dimensões. Os projetos do curso devem ser desenvolvidos usando R ou alguma linguagem de programação comparável. Não usaremos software proprietário.

Leia a ementa, com o plano de atividades do curso.

Link para aula: https://meet.google.com/sks-cjio-wjf

Instrutor
     Sala    Horário de atendimento  Email
Guilherme Ludwig  233    Somente pelo Moodle     gvludwig

Horários
 Terça 16:00-18:00
 Quinta 16:00-18:00

Referências
C. Bouveyron, G. Celeux, T. Brendan Murphy e A. E. Raftery. Model-Based Clustering and Classification for Data Science. Cambridge University Press, 2019.
B. S. Everitt, S. Landau, M. Leese e D. Stahl. Cluster Analysis, 5th edition. John Wiley & Sons, 2011.
L. Kaufman e P. J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 2005.
K. V. Mardía, J. T. Kent e J. M. Bibby. Multivariate Analysis. Academic Press, 1979.

Referências adicionais (livros)
T. F. Cox e M. A. Cox. Multidimensional Scaling. Chapman and Hall/CRC, 2000.
B. S. Everitt e T. Hothorn. An Introduction to Applied Multivariate Analysis with R. Springer, 2011.
T. Hastie, R. Tibshirani e J. Friedman. The Elements of Statistical Learning, 2nd edition. URL. Springer, 2008.
A. J. Izenman. Modern Multivariate Statistical Techniques. Springer, 2008
T. Kohonen. Self-Organizing Maps. Springer, 2000
J. R. Magnus e H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley, 1999.

Referências adicionais (papers e software)
M. Ester, H.-P. Kriegel, J. Sander e X. Xu. "A density-based algorithm for discovering clusters in large spatial databases with noise." Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996.
M. Hahsler, M. Piekenbrock e D. Doran. "dbscan: fast density-based clustering with R". Journal of Statistical Software, Vol. 91, Issue 1, URL. Pacote no R, 2019.
M. Hubert, P. J. Rousseeuw e S. van Aelst. "High-Breakdown Robust Multivariate Methods", Statistical Science, Vol. 23, Issue 1, URL, 2008.

Avaliação
  Atividade Teórica 1  15%
  Atividade Prática 1  15%
  Atividade Teórica 2  15%
  Atividade Prática 2  15%
  Trabalho Final  40%


Total100%

Calendário
Note: esse calendário é um plano preliminar e provavelmente o conteúdo das aulas estará sujeito a alterações!

Dia Tópico Material extra
16/03/2021 Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância.
  Mardía, Kent e Bibby (1979, pp. 26-33; 452-481).
18/03/2021 Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações.
  Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32).
23/03/2021 Aula 03: A distribuição normal multivariada.
  Mardía, Kent e Bibby (1979, pp. 59-86).
25/03/2021 Aula 04: A distribuição de Wishart. Estimadores de máxima verossimilhança da normal multivariada. Otimização.
  Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111).

30/03/2021 Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros.
  Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32).

01/04/2021 Feriado: Quinta-feira Santa
06/04/2021 Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM).
  Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119).

08/04/2021 Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta.
  Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções).

13/04/2021 Aula 08: Atividade Teórica 1. Divulgação da Atividade Prática 1
15/04/2021 Aula 09: Análise de componentes principais. Redução de dimensão.
  Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242).

20/04/2021 Aula 10: Dados binários e análise monotética. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência.
  Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310)
  Entrega da Atividade Prática 1 (fim do dia)

22/04/2021 Aula 11: Dados com atributos misturados. Multidimensional scaling.
  Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420).

27/04/2021 Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo.
  Everitt, Landau, Leese e Stahl (2011, pp. 111-142).

29/04/2021 Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN).
  Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019).

04/05/2021 Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM.
  Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31).

06/05/2021 Aula 15: Clustering baseado em modelos Gaussianos. Determinando o número de clusteres.
  Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).

11/05/2021 Aula 16: Clustering de dados categóricos baseados em modelos Gaussianos latentes. Clustering Bayesiano.
  Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288).

13/05/2021 Aula 17: Seleção de variáveis e regularização para clustering baseados em modelos.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215).

18/05/2021 Aula 18: Métodos não-supervisionados para detecção de anomalias.
  Artigo: Hubert et al. (2008).

20/05/2021 Aula 19: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi.
  Hastie, Tibshirani e Friedman (2008, pp. 295-317).

25/05/2021 Aula 20: Atividade Teórica 2. Divulgação da Atividade Prática 2
27/05/2021 Aula 21: Classificação. Análise discriminante. Aprendizado semi-supervisionado.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160).

01/06/2021 Aula 22: Métodos baseados em redes neurais. Self-organizing maps.
  Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000).
  Entrega da Atividade Prática 2 (fim do dia)

03/06/2021 Feriado: Corpus Christi

08/06/2021 Aula 23: Processamento de texto. Análise de sentimentos.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368).

10/06/2021 Aula 24: Dados funcionais e imagens. Representação em funções base.
  Hastie, Tibshirani e Friedman (2008, pp. 139-189).

15/06/2021 Aula 25: Clustering de dados funcionais e imagens.
  Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370).

17/06/2021 Aula 26: Apresentações do trabalho final (1)
  Ordem as apresentações
  Entrega dos relatórios finais

22/06/2021 Aula 27: Apresentações do trabalho final (2)
24/06/2021 Aula 28: Apresentações do trabalho final (3)
29/06/2021 Aula 29: Apresentações do trabalho final (4)
01/07/2021 Aula 30: Apresentações do trabalho final (5)
06/07/2021 Aula 31: Apresentações do trabalho final (6)
08/07/2021 Aula 32: Apresentações do trabalho final, mas só se precisar.
Avaliação substitutiva.
Somente nos casos previstos no Regimento Geral (Art. 72).
Se a demanda for baixa, o exame servirá de prova substitutiva.

13/07/2021 ~~
20/07/2021 Exame final (graduação)