Pular para o conteúdo da página
Brasão da PUC-Rio

Temas e projetos

Ciência de Dados

Países:

Alemanha  |  China  |  Dinamarca  |  Estados Unidos  |  França  |  Holanda  |  Itália  |  Noruega  |  Reino Unido

Programas de Pós-Graduação:
Projetos:

Modelos Econométricos para “Big Data”: Teoria e Aplicações

Coordenador: Marcelo Cunha Medeiros

Descrição do Projeto:

O projeto tem como objetivo o desenvolvimento de um conjunto de técnicas econométricas e estatísticas com aplicações em diversas áreas de interesse na área de ciências sociais, em particular nas áreas de economia e finanças. Conta com a participação de diversos pesquisadores no Brasil e no exterior em parcerias internacionais já estabelecidas, principalmente pesquisadores das universidades de Duke, North Carolina, Oxford, e Virginia Tech. O foco do projeto é em gerar modelos econométricos para lidar com “big data”. Modelos em alta-dimensão estão presentes em diversas áreas de economia/finanças. Por exemplo, previsão com um número elevado de regressores, estimação com muitos instrumentos (potencialmente fracos), estimação de matrizes de covariância com muitos elementos (centenas de milhares), dentre muitas outras situações. A literatura sobre regularização e modelos esparsos está muito dinâmica com diversos trabalhos sendo publicados em periódicos de prestígio internacional. No entanto, a maior parte dos trabalhos recentes ou foca em modelos de fatores ou técnicas de regularização em dados cross-section e modelos lineares. Do ponto de vista de desenvolvimento teórico, o objetivo do projeto é contribuir para a literatura considerando métodos de regularização para dados dependentes (séries temporais) e possivelmente não-lineares. Do ponto de vista aplicado, três tópicos serão cuidadosamente estudados. O primeiro deles é a construção de medidas contrafactuais para análise de intervenções em dados agregados. As outras duas aplicações são: previsão de variáveis macroeconômicas e financeiras e estimação de matrizes de covariância para composição de portfolios com muitos ativos. O projeto pretende contribuir para a literatura de avaliação de efeitos de tratamento em dados agregados, dependentes, heterogêneos e possivelmente em um ambiente com alta-dimensão; contribuir para a literatura de estimação pelo método generalizado dos momentos, a partir do desenvolvimento de uma metodologia de estimação de condições de momento não-lineares com múltiplos instrumentos, potencialmente fracos; e contribuir para a literatura de dados em painel via a aplicação de técnicas de regularização para estimação de modelos não-lineares com efeitos fixos.

Instituições parceiras:

University of Oxford – Reino Unido
University of Warwick – Reino Unido
Dijke University – Estados Unidos
University of North Carolina, Chapel Hill – Estados Unidos
The Ohio State University – Estados Unidos
Princeton University – Estados Unidos
Erasmus Universiteit Rotterdam – Holanda
Arhus Universitet – Dinamarca


Ciência de Dados: Fundamentos, Técnicas e Aplicações

Coordenador: Marco Antonio Casanova

Descrição do Projeto:

Recentemente, a pesquisa em diversas áreas passou a utilizar sistemas computacionais em larga escala para compreender e extrair informação útil de grandes volumes de dados gerados de diversas formas, de sensores a conteúdo criado pelas pessoas. Este paradigma, denominado Ciência de Dados, contrasta com o cenário tradicional em que sistemas computacionais eram basicamente utilizados para resolver problemas bem definidos.
A primeira parte do projeto abordará os fundamentos de Ciência de Dados. Pretende contribuir, entre outros, para o desenvolvimento de métodos de redução de dimensionalidade, métodos de regularização para dados dependentes, possivelmente não-lineares, e métodos de aprendizado de máquina, incluindo redes neurais profundas.

O projeto envolverá o desenvolvimento de ferramentas para facilitar a adoção do paradigma de Ciência de Dados, do ponto de vista computacional. Tratará o desenvolvimento de ferramentas gerais para paralelizar o tratamento de grandes volumes de dados em formatos diversos, sem uma semântica bem definida (messy data), e para paralelizar o processamento de grandes volumes dados (big data). Considerará ainda problemas de implementação, para grandes volumes de dados, de algoritmos para análise automática de dados de sensores remotos, e algoritmos de agrupamento, computação de similaridade e redução de dimensionalidade, entre outros.

O projeto abordará o desenvolvimento de diversas classes de aplicações, adotando o paradigma de Ciência de Dados, em áreas como: Saúde, incluindo bioinformática, gestão de operações em saúde e desenvolvimento de próteses; Engenharia, incluindo campos de petróleo inteligentes, cidades inteligentes, monitoramento ambiental ou agrícola, e sistemas de rádio cognitivo; Economia e Finanças, incluindo previsão de variáveis macroeconômicas e financeiras e estimação de matrizes de covariância para composição de portfolios com muitos ativos.

O projeto envolverá pesquisadores e alunos dos PPGs de Informática, Engenharia Elétrica, Engenharia Industrial e Economia. Os principais parceiros são universidades e centros de pesquisa, como:  IRIT/Toulouse, Instituto Politécnico di Milano, U. Hanover, TU Dresden, TU Delft, Princeton U., Duke U., U. North Carolina, U. Oxford, e o Imperial College of Science and Technology. O projeto reforçará colaborações formais já existentes, como um GDRI – Groupe De Recherche International, patrocinado pelo CNRS/França, e envolvendo 8 laboratórios de universidades francesas.

Instituições parceiras:

École Centrale de Marseille – França
École Centrale de Lille – França
École de Technologie Supérieure, Montréal – Canada
École Centrale de Lyon – França
Georgia Institute of Technology – Estados Unidos
École Nationale Supérieure Mines-Télécom Atlantique Bretagne Pays de La Loire, Brest – França
Istituto di Scienza e Tecnologie Delliinformazione Alessandro Faedo – Italia
Lancaster University – Reino Unido
New Jersey Institute of Technology – Estados Unidos
New York University – Estados Unidos
Sorbonne Université – França
Technische Universitãt Kaiserslautern – Alemanha
Technische Universitãt Dresden – Alemanha
Université Claude Bernard Lyon 1 – França
Université Toulouse III - Paul Sabatier – França
Université de Versailles Saint-Quentin-En-Yvelines – França
University of Alberta – Canada
University of California, San Diego – Estados Unidos
Universitãt Rostock – Alemanha
Università Degli Studi di Verona – Itália
Universitat Oberta de Catalunya – Espanha
Aalborg Universitet – Dinamarca
École Nationale des Ponts Et Chaussées – França
Massachusetts Institute of Technology – Estados Unidos
Université Du Québec, Montréal – Canada
Aalto– Yliopisto – Finlândia
Hogskolen I Molde -  Vitenskapelig Hogskole I Logistikk – Noruega
Mayo Clinic – Estados Unidos
University of London – Reino Unido
Università Degli Studi di Modena E Reggio Emilia, Reggio Emilia – Itália
Stanford University – Estados Unidos
École Supérieure Diingénieurs, Saint-Etienne-Du-Rouvray – França
Liverpool John Moores University – Reino Unido
Politecnico di Milano – Itália
Hanover College – Estados Unidos
Università Degli Studi di Trento – Itália
Technische Universiteit Delft – Holanda
Auckland University of Technology – Nova Zelândia
University of York – Reino Unido
Università Degli Studi di Pavia – Itália
Rheinisch-Westfaelische Technische Hochschule Aachen – Alemanha


Linguística Computacional para as Humanidades

Coordenadora: Maria Claudia de Freitas

Descrição do Projeto:

O projeto Linguística Computacional para as Humanidades é o desdobramento de uma bem sucedida colaboração com a Linguateca (centro distribuído responsável por alavancar o  estado da arte da Linguística Computacional no que se refere à língua portuguesa, financiado pelo MCT de Portugal) que já dura mais de 10 anos; com a Universidade de Oslo, tendo em vista o igualmente longo trabalho de parceria com a professora Diana Santos, que incluem projetos conjuntos e co-orientações, com a Southern Denmark  University, e com a iniciativa européia COST Action: Distant Reading for European Literary History, à qual estou vinculada. O projeto se insere na área das Humanidades Digitais (HDs), tendo interdisciplinaridade e inovação como características principais. As HDs são uma nova abordagem para as Humanidades, baseada nos princípios de abertura de dados, compartilhamento e interdisciplinaridade, e que, ao fazer uso intensivo de recursos e ferramentas digitais, é capaz de abrir possibilidades de investigação e análise. No âmbito do referido projeto, tomamos como  objeto de análise grandes acervos textuais: se por um lado a linguagem é um rico repositório de informações sobre nossas práticas, por outro, sabemos que essas informações se distribuem pelos textos de maneira não estruturada (são dados não-estruturados) e por isso a relevância do processamento automático como auxiliar da análise humana. Em termos gerais, o projeto prevê a exploração de grandes acervos de texto, cuja leitura convencional seria inviável e pouco confiável. O projeto tem como objetivo geral a criação de um cenário para a exploração e análise de acervos de especial relevância para as Humanidades. Como método, serão utilizadas, de maneira complementar, técnicas de distant-reading e de close-reading. Para tanto, o projeto se distribui em 2 linhas de atuação: curadoria e preparação do acervo, para que seja processado automaticamente; e desenvolvimento de recursos e ferramentas para a exploração e análise do material. Reconhecendo a relevância dos princípios de compartilhamento e dados abertos, o projeto prevê ainda que boa parte dos recursos e ferramentas desenvolvidos incorporará modelos multilíngues de análise linguística, como o projeto Universal Dependencies, do qual sou participante. Como resultados adicionais do projeto, temos como meta avançar na formação de recursos humanos em uma área promissora e interdisciplinar, que ainda avança no Brasil mas que já vem se consolidando internacionalmente.

Instituições parceiras:

Universitetet I Oslo – Noruega
Syddansk Universitet – Dinamarca