Um breve passeio pela Estatística em alta dimensão

Sobre
Com o avanço na facilidade de coleta de dados através de mecanismos físicos cada vez mais sofisticados (ex: máquinas de ressonância magnética, facilidades em sequenciamento genético, grandes telescópios, aceleradores de partículas), nos deparamos com um novo paradigma na Estatística. No cenário clássico onde temos n >> p, isto é, muito mais amostras do que parâmetros a serem estimados, tarefas como estimação de matrizes de covariância, regressão linear e PCA são garantidas de ter um bom desempenho através dos teoremas limite usuais da literatura de Teoria de Probabilidades. Porém, no novo cenário onde p é comparável a n ou p > n, os mesmos métodos e garantias de convergência no caso clássico não são mais aplicáveis; em particular, não podemos mais recorrer a resultados assintóticos. Esse segundo cenário é conhecido atualmente na literatura como "Estatística em alta dimensão".
O objetivo dessa palestra, promovida pela Escola de Matemática Aplicada (FGV EMAp), é ilustrar alguns problemas nesse cenário e como contorná-los, a fim de motivar o estudo dessa moderna e fascinante área da Estatística, bastante em alta no momento e extremamente importante para a compreensão de aspectos tanto teóricos quanto práticos de Ciência de Dados. Para isso, iremos começar abordando o clássico problema de regressão linear, e estudaremos o seu comportamento a medida que o número de variáveis explicativas aumenta. De brinde, no meio do caminho, aprenderemos aspectos geométricos bastante não intuitivos em espaços de alta dimensão.