ME921 - Métodos em Aprendizado Não-Supervisionado de Máquinas

ME921 - Métodos em Aprendizado Não-Supervisionado de Máquinas

Objetivos

O objetivo da classe é estudar métodos de aprendizado de máquinas não-supervisionado, com grande foco em métodos de clustering e extração de atributos / redução de dimensões. Os projetos do curso devem ser desenvolvidos usando R ou alguma linguagem de programação comparável. Não usaremos software proprietário.

Leia o PDD, com o plano de desenvolvimento do curso.

Instrutor

Sala Horário de atendimento Email

Guilherme Ludwig 233 Somente pelo Moodle gvludwig

Horários

Segunda 16:00-18:00 CB07

Quarta 16:00-18:00 CB07

Referências

C. Bouveyron, G. Celeux, T. Brendan Murphy e A. E. Raftery. Model-Based Clustering and Classification for Data Science. Cambridge University Press, 2019.

B. S. Everitt, S. Landau, M. Leese e D. Stahl. Cluster Analysis, 5^th edition. John Wiley & Sons, 2011.

L. Kaufman e P. J. Rousseeuw. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons, 2005.

K. V. Mardía, J. T. Kent e J. M. Bibby. Multivariate Analysis. Academic Press, 1979.

Referências adicionais (livros)

T. F. Cox e M. A. Cox. Multidimensional Scaling. Chapman and Hall/CRC, 2000.

B. S. Everitt e T. Hothorn. An Introduction to Applied Multivariate Analysis with R. Springer, 2011.

T. Hastie, R. Tibshirani e J. Friedman. The Elements of Statistical Learning, 2^nd edition. URL. Springer, 2008.

A. J. Izenman. Modern Multivariate Statistical Techniques. Springer, 2008

T. Kohonen. Self-Organizing Maps. Springer, 2000

J. R. Magnus e H. Neudecker. Matrix Differential Calculus with Applications in Statistics and Econometrics. Wiley, 1999.

Referências adicionais (papers e software)

M. Ester, H.-P. Kriegel, J. Sander e X. Xu. "A density-based algorithm for discovering clusters in large spatial databases with noise." Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 1996.

M. Hahsler, M. Piekenbrock e D. Doran. "dbscan: fast density-based clustering with R". Journal of Statistical Software, Vol. 91, Issue 1, URL. Pacote no R, 2019.

M. Hubert, P. J. Rousseeuw e S. van Aelst. "High-Breakdown Robust Multivariate Methods", Statistical Science, Vol. 23, Issue 1, URL, 2008.

Calendário
Note: esse calendário é um plano preliminar e provavelmente o conteúdo das aulas estará sujeito a alterações! Qualquer assunto depois da Aula 15 tem grandes chances de será modificado.

Dia Tópico Material extra

04/03/2021 Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância.
Mardía, Kent e Bibby (1979, pp. 26-33; 452-481).

06/03/2021 Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações.
Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32).

11/03/2021 Aula 03: A distribuição normal multivariada.
Mardía, Kent e Bibby (1979, pp. 59-86).

13/03/2021 Aula 04: Estimadores de máxima verossimilhança da normal multivariada. Breve visão de cálculo com matrizes.
Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111).

18/03/2021 Não tivemos aula

20/03/2021 Não tivemos aula

25/03/2021 Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros.
Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32).

27/03/2021 Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM).
Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119).

01/04/2021 Não tivemos aula

03/04/2021 Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta.
Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções).

08/04/2021 Aula 08: Análise de componentes principais. Redução de dimensão.
Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242).

10/04/2021 Aula 09: Dados com atributos misturados. Multidimensional scaling.
Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420).

15/04/2021 Aula 10: Dados binários. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência. Clustering monotético.
Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310).

17/04/2021 Aula 11: Clustering divisivo monotético (MONA) e clustering hierárquico divisivo (DIANA).
Kaufman e Rousseeuw (2005, pp. 253-310).
Entrega da Atividade #1.

22/04/2021 Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo.
Everitt, Landau, Leese e Stahl (2011, pp. 111-142).

24/04/2021 Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN).
Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019).

29/04/2021 Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM.
Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31).
Último dia para desistência de matrícula.

01/05/2021 Feriado / Expediente Suspenso

06/05/2021 Aula 15: Clustering baseado em modelos Gaussianos. Modelos de covariância.
Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).

08/05/2021 Aula 16: Determinando o número de clusteres. BIC.
Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).

13/05/2021 Aula 17: Lidando com outliers. Métodos não-supervisionados para detecção de anomalias. Clustering Bayesiano.
Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288). Artigo: Hubert et al. (2008).

15/05/2021 Aula 18: Clustering de dados discretos com misturas multinomiais.
Entrega da Atividade #2.

20/05/2021 Aula 19: Clustering de dados discretos e contínuos com misturas.

22/05/2021 Aula 20: Clustering de dados em redes e stochastic block model.

27/05/2021 Aula 21: Self-organizing maps.
Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000).

29/05/2021 Aula 22: Clustering baseado em modelos com covariáveis.

03/06/2021 Aula 23: Seleção de variáveis e regularização para clustering baseados em modelos.
Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215).

05/06/2021 Aula 24: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi.
Hastie, Tibshirani e Friedman (2008, pp. 295-317).

10/06/2021 Aula 25: Classificação. Análise discriminante. Aprendizado semi-supervisionado.
Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160).

12/06/2021 Aula 26: Processamento de texto. Análise de sentimentos.
Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368).

17/06/2021 Aula 27: Dados funcionais e imagens. Representação em funções base.
Hastie, Tibshirani e Friedman (2008, pp. 139-189).

19/06/2021 Aula 28: Clustering de dados funcionais e imagens.
Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370).
Entrega da Atividade #3.

24/06/2021 Aula 29: Trabalhando com problemas de alta dimensão. Text embeddings.

26/06/2021 Aula 30: Conexão entre grafos, text embeddings, PCA. Redes neurais, self-supervised learning, large language models...?

01/07/2021 ~~

03/07/2021 ~~

10/07/2021 Feriado / Expediente Suspenso

10/07/2021 Exame final

	Sala	Horário de atendimento	Email
Guilherme Ludwig	233	Somente pelo Moodle	gvludwig

Dia	Tópico	Material extra
04/03/2021	Aula 01: Introdução ao curso e motivação. Vetores aleatórios, esperança e variância. Mardía, Kent e Bibby (1979, pp. 26-33; 452-481).
06/03/2021	Aula 02: Matrizes positivas-definidas. Atributos. Distância Euclideana e algumas generalizações. Everitt, Landau, Leese e Stahl (2011, pp. 43-69), Kaufman e Rousseeuw (2005, pp. 3-32).
11/03/2021	Aula 03: A distribuição normal multivariada. Mardía, Kent e Bibby (1979, pp. 59-86).
13/03/2021	Aula 04: Estimadores de máxima verossimilhança da normal multivariada. Breve visão de cálculo com matrizes. Mardía, Kent e Bibby (1979, pp. 96-113), Magnus e Neudecker (1999, pp. 75-111).
18/03/2021	Não tivemos aula
20/03/2021	Não tivemos aula
25/03/2021	Aula 05: Dados com atributos reais. Clustering hierárquico. Dendrogramas. Distância entre clusteres: single-linkage, complete-linkage, outros. Everitt, Landau, Leese e Stahl (2011, pp. 71-86), Kaufman e Rousseeuw (2005, pp. 3-32).
27/03/2021	Aula 06: Mais sobre otimização numérica. Clustering tipo K-means. Partition around medoids (PAM). Everitt, Landau, Leese e Stahl (2011, pp. 111-130), Kaufman e Rousseeuw (2005, pp. 108-119).
01/04/2021	Não tivemos aula
03/04/2021	Aula 07: Alguns métodos para determinar o número de clusteres: inspeção visual, análise de silhueta. Everitt, Landau, Leese e Stahl (2011, em várias seções), Izenman (2008, pp. 426-428), Kaufman e Rousseeuw (2005, em várias seções).
08/04/2021	Aula 08: Análise de componentes principais. Redução de dimensão. Izenman (2008, pp. 195-205), Mardía, Kent e Bibby (1979, pp. 213-242).
10/04/2021	Aula 09: Dados com atributos misturados. Multidimensional scaling. Cox e Cox (2000), Everitt e Hothorn (2011, pp. 105-132), Izenman (2008, pp. 463-503), Mardía, Kent e Bibby (1979, pp. 394-420).
15/04/2021	Aula 10: Dados binários. Dados com atributos categóricos e contagens. Distâncias baseadas em análise de correspondência. Clustering monotético. Izenman (2008, pp. 633-663), Kaufman e Rousseeuw (2005, pp. 280-310).
17/04/2021	Aula 11: Clustering divisivo monotético (`MONA`) e clustering hierárquico divisivo (`DIANA`). Kaufman e Rousseeuw (2005, pp. 253-310). Entrega da Atividade #1.
22/04/2021	Aula 12: Técnicas de clustering baseadas em otimização de outras funções objetivo. Everitt, Landau, Leese e Stahl (2011, pp. 111-142).
24/04/2021	Aula 13: Métodos não-paramétricos baseados em densidades. Density-based spatial clustering of applications with noise (DBSCAN). Everitt, Landau, Leese e Stahl (2011, pp. 215-220), Artigos: Ester et al. (1996), Hahsler et al. (2019).
29/04/2021	Aula 14: Modelos de misturas finitas Gaussianas. Algoritmo EM. Everitt, Landau, Leese e Stahl (2011, pp. 143-150), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 15-31). Último dia para desistência de matrícula.
01/05/2021	Feriado / Expediente Suspenso
06/05/2021	Aula 15: Clustering baseado em modelos Gaussianos. Modelos de covariância. Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).
08/05/2021	Aula 16: Determinando o número de clusteres. BIC. Everitt, Landau, Leese e Stahl (2011, pp. 157-165), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 39-75).
13/05/2021	Aula 17: Lidando com outliers. Métodos não-supervisionados para detecção de anomalias. Clustering Bayesiano. Everitt, Landau, Leese e Stahl (2011, pp. 150-157), Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 259-288). Artigo: Hubert et al. (2008).
15/05/2021	Aula 18: Clustering de dados discretos com misturas multinomiais. Entrega da Atividade #2.
20/05/2021	Aula 19: Clustering de dados discretos e contínuos com misturas.
22/05/2021	Aula 20: Clustering de dados em redes e stochastic block model.
27/05/2021	Aula 21: Self-organizing maps. Everitt, Landau, Leese e Stahl (2011, pp. 249-255), Kohonen (2000).
29/05/2021	Aula 22: Clustering baseado em modelos com covariáveis.
03/06/2021	Aula 23: Seleção de variáveis e regularização para clustering baseados em modelos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 199-215).
05/06/2021	Aula 24: Breve discussão de métodos supervisionados. Árvores de regressão. Segmentação. Diagramas de Voronoi. Hastie, Tibshirani e Friedman (2008, pp. 295-317).
10/06/2021	Aula 25: Classificação. Análise discriminante. Aprendizado semi-supervisionado. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 109-127, 134-160).
12/06/2021	Aula 26: Processamento de texto. Análise de sentimentos. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 363-368).
17/06/2021	Aula 27: Dados funcionais e imagens. Representação em funções base. Hastie, Tibshirani e Friedman (2008, pp. 139-189).
19/06/2021	Aula 28: Clustering de dados funcionais e imagens. Bouveyron, Celeux, Brendan Murphy e Raftery (2019, pp. 351-358, 368-370). Entrega da Atividade #3.
24/06/2021	Aula 29: Trabalhando com problemas de alta dimensão. Text embeddings.
26/06/2021	Aula 30: Conexão entre grafos, text embeddings, PCA. Redes neurais, self-supervised learning, large language models...?
01/07/2021	~~
03/07/2021	~~
10/07/2021	Feriado / Expediente Suspenso
10/07/2021	Exame final