A ciência por trás da incerteza na era do Big Data: pesquisa conduzida no IMECC, com apoio da FAPESP, aposta em novos modelos para previsão de risco em ambientes complexos

Em um mundo no qual decisões econômicas são tomadas em intervalos de tempo cada vez menores e os mercados reagem rapidamente a novas informações em um ambiente cada vez mais interligado, compreender e prever o risco tornou-se um dos grandes desafios científicos do nosso tempo.

Oscilações abruptas nas bolsas de valores, instabilidade nos preços em mercados emergentes, mudanças no comportamento de ativos financeiros e o volume massivo de dados gerados atualmente exigem ferramentas estatísticas cada vez mais sofisticadas para identificar padrões e a antecipação de cenários.

É nesse contexto que se insere o projeto do professor e pesquisador Carlos César Trucíos Maza, do Instituto de Matemática, Estatística e Computação Científica (IMECC) da UNICAMP. A pesquisa foi uma das 36 propostas aprovadas no Ciclo 1 da chamada Auxílio à Pesquisa Projeto Inicial π (Pi), da FAPESP, uma iniciativa voltada a apoiar ideias audaciosas e disruptivas capazes de impulsionar carreiras científicas promissoras.

Intitulado “Modelagem e Previsão de Medidas de Risco na Era do Big Data e da Computação Intensiva”, o projeto pretende desenvolver novos métodos e modelos capazes de modelar e prever riscos em sistemas complexos, especialmente em mercados financeiros caracterizados por grande volume de dados e alta velocidade de negociação.

 

O desafio de medir o risco em um mundo de dados massivos

Em áreas como a Economia e Finanças, o conceito de risco está diretamente ligado à incerteza sobre o futuro. “Ao comprar (ou vender) ações de uma empresa, não sabemos exatamente o que acontecerá com o preço da ação no futuro, ele pode subir ou cair. Essa possibilidade de perda associada à decisão é o que chamamos de risco”, exemplifica Trucíos.

Segundo o pesquisador, compreender esse fenômeno tornou-se substancialmente mais desafiador nos últimos anos. Se antes os analistas lidavam com conjuntos de dados relativamente pequenos ou moderados, hoje enfrentam um ambiente marcado por alto volume e elevada velocidade de geração de informações. Ao mesmo tempo, as interdependências entre mercados tornaram-se mais complexas, exigindo abordagens capazes de capturar essas características. O mercado de criptomoedas ilustra bem esse cenário, com milhões de transações diárias e um número crescente de ativos digitais.

Esse cenário cria um verdadeiro paradoxo científico. Por um lado, a abundância de dados amplia a informação disponível sobre a dinâmica dos mercados, favorecendo a modelagem e a previsão de medidas de risco. Por outro, o volume e a complexidade dessas informações introduzem novos desafios teóricos e computacionais.

Paralelamente, medir o risco com precisão tornou-se cada vez mais essencial para diversas decisões econômicas e financeiras. Como destaca Trucíos, essas medidas estão no centro de aplicações práticas importantes, especialmente na gestão de investimentos: “Uma melhor estimação e previsão da matriz de covariância permite decisões mais eficientes, seja para reduzir risco, seja para melhorar o retorno esperado ajustado ao risco.”

Nesse cenário, o desafio científico passa a ser transformar grandes volumes de dados em informação útil, por meio de modelos capazes de gerar previsões confiáveis com rapidez suficiente para orientar decisões na prática.

 

A insuficiência dos modelos atuais

Nas últimas décadas, grande parte da literatura em econometria e estatística desenvolveu modelos para compreender e prever o risco associado a ativos financeiros. Entre os mais influentes está o modelo Generalized Autoregressive Conditional Heteroskedasticity (GARCH), introduzido na década de 1980 e amplamente utilizado para modelar a volatilidade de séries temporais financeiras.

A volatilidade pode ser descrita como um indicador da intensidade das oscilações de um ativo financeiro. Na linguagem estatística, “volatilidade pode ser entendida como o desvio padrão condicional dos retornos, ou seja, a variabilidade esperada no futuro, dado o conjunto de informações disponíveis até o presente”, explica o pesquisador.

Para compreender o funcionamento desses modelos, imagine o comportamento do trânsito de uma cidade ao longo dos dias. Em alguns períodos, o fluxo é relativamente estável: os congestionamentos variam pouco de um dia para o outro. Em outros, esse sistema torna-se mais sensível: pequenos incidentes, como um acidente leve ou uma chuva inesperada, provocam grandes variações no trânsito, gerando congestionamentos mais intensos.

Além disso, o trânsito de uma cidade é um sistema interligado. Um problema em uma via pode rapidamente se propagar pela rede viária, afetando outras regiões e amplificando seus efeitos. Da mesma forma, nos mercados financeiros, choques em um ativo ou setor podem se espalhar para outros, aumentando a instabilidade de todo o sistema.

Essa última ilustração ajuda a compreender o conceito de covolatilidade. “Enquanto a volatilidade descreve o comportamento individual de um ativo, a covolatilidade captura como diferentes ativos se movimentam conjuntamente ao longo do tempo.” Entender essas relações de interdependência é fundamental, pois o risco de um conjunto de ativos não decorre apenas dos riscos individuais, mas também da forma como esses ativos co-movem.

Quando essa interdependência, e outras características inerentes aos dados, são negligenciadas, os modelos tendem a produzir diagnósticos incompletos ou imprecisos sobre o comportamento do risco. Segundo Trucíos, várias limitações dos modelos tradicionais decorrem justamente dessa simplificação excessiva. “Tais limitações decorrem, em parte, do uso de distribuições de probabilidade que não capturam adequadamente as características dos dados; da desconsideração da informação contida em dados intradiários; da falta de escalabilidade; da escassez de abordagens multivariadas que capturem adequadamente as relações de dependência entre os ativos; ou, ainda, por negligenciar diversos fatos estilizados já documentados na literatura, comprometendo assim o uso destes modelos em diversos contextos”, destaca o pesquisador.

 

Modelos mais rápidos para decisões em tempo real

Para superar as limitações dos modelos tradicionais e lidar com a complexidade decorrente da era de Big Data, o projeto propõe desenvolver modelos estatísticos capazes de explorar a riqueza de informações contidas em grandes volumes de dados, ao mesmo tempo em que permanecem viáveis do ponto de vista computacional.

Uma das frentes da pesquisa envolve a construção de novos métodos para modelagem e previsão da volatilidade e da covolatilidade em ambientes de alta dimensão. Em vez de analisar apenas um ativo por vez, a proposta busca lidar simultaneamente com grandes conjuntos de séries temporais, capturando tanto o comportamento individual de cada ativo quanto as interdependências entre eles.

O projeto também pretende integrar técnicas baseadas em medidas de volatilidade obtidas a partir de dados intradiários. Esses indicadores permitem estimativas mais precisas da variabilidade dos ativos ao longo do tempo, pois capturam as flutuações que ocorrem dentro do próprio dia de observação. Incorporar esse tipo de informação aos modelos econométricos pode melhorar significativamente a qualidade das previsões de risco.

Outro aspecto central da pesquisa é o desenvolvimento de modelos estatísticos escaláveis, isto é, capazes de operar de forma eficiente mesmo quando aplicados a problemas de grande porte. Segundo Trucíos, essa característica é essencial para que as ferramentas propostas sejam consideradas viáveis em aplicações práticas. Como exemplifica o pesquisador: “Suponha que queremos estimar o risco intradiário (digamos de 15 em 15 minutos) de uma carteira de investimentos com centenas ou milhares de ativos. Não basta que o modelo tenha boas propriedades (boas propriedades assintóticas, boas propriedades em amostras finitas e um bom fundamento teórico), ele também precisa ser computacionalmente viável. De pouco serviria se o modelo demorasse 20 minutos para dar resultados, sendo que estamos interessados na previsão dos próximos 15 minutos, certo?”

O componente computacional também constitui um elemento-chave da proposta. Os métodos desenvolvidos serão acompanhados de algoritmos eficientes e implementações otimizadas, capazes de processar grandes volumes de dados em tempo compatível com aplicações reais. Em ambientes como mercados financeiros, onde decisões precisam ser tomadas rapidamente, a velocidade de processamento torna-se tão importante quanto a precisão das estimativas. “Métodos que não conseguem entregar resultados em tempo hábil tornam-se pouco úteis nesses contextos”, ressalta o pesquisador.

 

Ferramentas ao alcance de todos

Um dos diferenciais mais disruptivos do projeto é o compromisso com a ciência aberta e com a transferência de conhecimento para além dos muros da universidade. Trucíos enfatiza que as ferramentas desenvolvidas não devem ficar restritas a publicações teóricas: "precisamos de modelos/métodos que possam também ser utilizados por usuários finais e não apenas na academia."

Para isso, todas as novas metodologias e modelos serão implementados e disponibilizados gratuitamente em repositórios públicos no GitHub, além de serem distribuídos como pacotes nas linguagens de programação R, Python e/ou Julia.

Na prática, isso significa que metodologias antes restritas a grandes instituições financeiras ou à academia passem a ser utilizadas também por pequenas corretoras, analistas independentes, pesquisadores e investidores individuais, ampliando o acesso a algoritmos avançados e facilitando a implementação prática de estratégias de proteção contra riscos.

 

Agradecimento final

Ao comentar a aprovação do projeto, Trucíos destaca a importância do apoio da FAPESP para o desenvolvimento de sua trajetória científica. Segundo o pesquisador, o financiamento recebido ao longo dos anos foi fundamental para consolidar sua linha de pesquisa e ampliar as possibilidades de colaboração acadêmica:

 

“Sou muito grato à FAPESP pelo apoio contínuo à minha trajetória de pesquisa, desde a época de estudante, com bolsas de doutorado, doutorado sanduíche, pós-doutorado e estágio de pesquisa no exterior. Além disso, esse apoio também se estende aos alunos sob minha orientação (por meio de bolsas), e aos auxílios regulares à pesquisa recebidos, incluindo mais recentemente, o auxílio π (Pi).”

 

Por: Isabel Pennafirme Ferreira