REVISTA ELETRÔNICA DE JORNALISMO CIENTÍFICO
Dossiê Anteriores Notícias Reportagens Especiais HumorComCiência Quem Somos
Dossiê
Editorial
Parábola do cão digital - Carlos Vogt
Reportagens
Computação cognitiva: capturando corações, mentes e paladares
Roberto Takata
Memória artificial: sobre dados, vigilantes e vigiados
Kátia Kishi
Big Data traz demandas grandes à saúde
Patrícia Santos
A arte que trafega em dados
Janaína Quitério
As novas tecnologias em uso na agricultura: integrar dados para produzir com eficiência
Carolina Medeiros
Artigos
Ciência de dados: desafio para a ciência, indústria e governo
Artur Ziviani, Fábio Porto e Eduardo Ogasawara
Big data e jornalismo: datasets, APIs, algoritmos e sensores
Walter Teixeira Lima Junior
Big data e as capacidades de gestão da informação
Antônio Carlos Gastaud Maçada, Rafael Alfonso Brinkhues, José Carlos Freitas Júnior
Representação e análise de dados espaço-temporais
Karine Reis Ferreira
O céu é dos robôs
Ana Paula Zaguetto
Resenha
Decifrando códigos
Fabiana Micaele Silva
Entrevista
Danilo Doneda
Entrevistado por Sarah Schmidt
Poema
Campeão
Carlos Vogt
    Versão para impressão       Enviar por email       Compartilhar no Twitter       Compartilhar no Facebook
Artigo
Ciência de dados: desafio para a ciência, indústria e governo
Por Artur Ziviani, Fábio Porto e Eduardo Ogasawara
10/07/2015
O tratamento do dilúvio de dados sendo produzido pelas ciências e por bilhões de usuários de serviços globais de internet se apresenta como um dos grandes desafios para a atual sociedade do conhecimento. Apresentado de forma geral como um vetor de múltiplas facetas, o fenômeno ainda está sendo interpretado pelos cientistas e tem impulsionado iniciativas em diversas áreas. Nas ciências, o dilúvio aparece como a expressão de uma nova maneira de investigação, incitando biólogos, astrônomos, bioquímicos e demais pesquisadores em diversas áreas científicas a enfrentar problemas computacionais na chamada e-ciência, que se tornam barreiras para as suas descobertas. Na indústria, o dilúvio de dados aparece em sintonia com o ambiente de computação em nuvem, provendo escalabilidade e tolerância a falhas, em ambientes computacionais cada vez mais complexos e de tamanho proporcional ao desafio abordado. No setor governamental, há oportunidades de se debruçar sobre imensas bases de dados do setor público com vistas a tornar o planejamento mais eficiente, bem como novos serviços que possam melhorar o atendimento ao cidadão. Novas profissões especializadas no trato e, principalmente, na análise e interpretação de grandes volumes de dados, surgiram, trazendo o método científico para o setor empresarial.

A partir dessas condições, surge uma nova ciência baseada em dados, cujo objetivo é identificar os princípios, métodos e técnicas fundamentais para o gerenciamento e análise de grandes volumes de dados heterogêneos (Porto & Ziviani, 2014). Motivada pelos desafios anteriormente enfrentados por gestores, empresários e pesquisadores de áreas como saúde, óleo e gás, esporte, astronomia, mobilidade urbana, telecomunicações, internet, educação, defesa cibernética e biodiversidade, a ciência de dados aparece como uma estruturação científica na qual os fenômenos são descritos e modelados a partir dos dados.

Em uma visão geral, pode-se compreender a ciência de dados como um conjunto de ações aplicadas a uma coleção de dados que conduz à descoberta de conhecimento (isto é, tendências, relações e padrões subjacentes a esses dados). As ações indicadas na figura abaixo vão desde a seleção dos dados até a extração de conhecimento, e se organizam em quatro macro-atividades: seleção e integração de dados, pré-processamento de dados, produção do modelo para extração do conhecimento e avaliação. O processo pode ser compreendido como um caso particular de experimentação científica in silico, no qual os dados são volumosos, as estruturas de dados precisam ser bem definidas e os métodos de seleção, pré-processamento e de produção do modelo são computacionalmente intensivos.

http://www.labjor.unicamp.br/imagens/artigos/ar_ziviani.png

Processo de ciência de dados. Adaptado de (Han et al., 2011).

Considere, por exemplo, o problema de identificação de padrões na área sísmica. Trata-se de um problema na área da ciência, onde, a partir de um conjunto de sensores geograficamente distribuídos e de levantamentos batimétricos, obtém-se um conjunto de dados sísmicos. A partir deles, deseja-se explorar as propriedades dos solos, identificando-se falhas e potenciais zonas para exploração de recursos minerais.

Na área empresarial, considere, por exemplo, o problema de detecção de invasão de sistemas. A quantidade e diversidade dos acessos realizados aos serviços não possibilita mais a análise individualizada de cada pacote de dados transmitido. Em particular, problemas como negação de serviço exigem que os acessos sejam resumidos e, a partir deles, deseja-se analisar o comportamento dos acessos.

Finalmente, na área de governo, tem-se como exemplo a análise da malha de transporte de ônibus municipal, onde se coleta, a cada minuto a posição dos ônibus no município. Trata-se de um problema de mobilidade urbana, onde se busca identificar gargalos e melhorar fluxos de ônibus pelos principais pontos da cidade ao longo do tempo.

Apresentamos rapidamente três tipos de aplicações no eixo ciência-indústria-governo no contexto de ciência de dados. Cabe ressaltar a heterogeneidade na estrutura, no volume, na frequência e na forma de obtenção dessas observações. Tratam-se de desafios típicos abordados em ciência de dados.

Essas aplicações também se diferem nos métodos empregados para extração de conhecimento. No exemplo da sísmica, o problema consiste em agrupar os dados de modo a identificar propriedades gerais do solo, zonas de falhas etc. No exemplo de segurança da informação, trata-se de um problema de classificação em relação ao qual se quer saber se um sistema está ou não sob ataque e se um acesso é ou não válido. Finalmente, o último exemplo pode recair em um problema de predição de atrasos nos modais de transportes. A heterogeneidade e grandes volumes de dados dos problemas mencionados apresentam desafios tanto em termos de armazenamento e processamento paralelo quanto nos métodos necessários para apoiar a extração de conhecimento a partir desses dados.

Essa nova forma de fazer ciência traz desafios tanto na formação de recursos humanos altamente qualificados quanto no desenvolvimento de pesquisa básica e aplicada na fronteira do conhecimento. Esses desafios podem ser organizados em três grandes eixos: 1- gerência de dados; 2- análise de dados; 3- ciência de redes. Esses eixos podem ser resumidamente interpretados pelos desafios na gestão e no processamento de grandes volumes de dados heterogêneos – Big Data (Jagadish et al. 2014), na utilização de diferentes métodos de aprendizado de máquina para extrair o conhecimento a partir dos dados e na modelagem de problemas onde os dados são organizados em estruturas cada vez mais dinâmicas, complexas e interligadas. Esses eixos são mais bem descritos a seguir.

Gerência de grandes volumes de dados

Sistemas de gerência de bancos de dados oferecem mecanismos eficientes para o gerenciamento de dados para uma vasta paleta de aplicações. Os desafios impostos pelas inúmeras novas aplicações, que surgem na interpretação de dados produzidos em redes sociais, por sensores de monitoramento e instrumentos científicos, impõem uma verdadeira necessidade de revisão das técnicas mais tradicionais. A ciência de dados, nesse contexto, prevê uma integração fundamental nos mecanismos de armazenamento e acesso aos dados que favoreçam a flexibilidade em sua representação e simplicidade de integração e análise. Modelos de representação do tipo em grafos, séries temporais e, ainda, índices multidimensionais são candidatos a adoção, dependendo do alvo em dados e da análise pretendida. Adicionalmente, técnicas que permitam análises, considerando-se volumes de centenas de terabytes, devem ser integradas aos mecanismos de armazenamento, proporcionando um ambiente eficiente e escalável. Finalmente, o modelo de processamento analítico em grandes volumes de dados se diferencia da estratégia tradicional de consultas a banco de dados. Se estas ainda aparecem como fundamentais na especificação de consultas em alto nível, as análises requerem um processo multi-atividades com dependências entre si, do tipo dataflow. Nesse contexto, é preciso que os modelos desse tipo de processamento estejam em sintonia com as estratégias de armazenamento e distribuição de dados, garantindo a escalabilidade do processamento em relação ao volume de dados, e simplificando o desenvolvimento de aplicações. Nesse sentido, o avanço da área de ciência de dados tem como um de seus alicerces principais o conjunto de técnicas, estratégias, modelos e algoritmos que apóiem os processos analíticos através da gerência de grandes volumes de dados.

Análise de dados em larga escala

A análise de dados envolve o processamento de coleções de objetos na produção de um modelo que identifique padrões consistentes na forma de relacionamentos sistemáticos entre variáveis componentes desses objetos, com o propósito de detectar e gerar conhecimento não facilmente observável. A extração do conhecimento propriamente dita é apoiada por um conjunto de métodos que incluem tanto aqueles usados nas etapas tradicionais de mineração de dados – pré-processamento, identificação de padrões e visualização – quanto os métodos estatísticos e de modelagem computacional (Dhar, 2013). Dentre alguns desses métodos, podemos citar: agrupamento (clustering), regressão, predição, classificação, descoberta de associações, imputação e identificação de outliers. Para cada método há diversas técnicas e algoritmos cujas implementações, adaptações e variações estão presentes em linguagens e ferramentas consolidadas de análise de dados, como Java, Python, R e MatLab.

O desafio consiste tanto na correta aplicação e combinação desses algoritmos quanto na concepção de novos algoritmos e implementações adequados para se atingir boa acurácia e escalabilidade no processamento de grandes volumes de dados. Nesse contexto, um aspecto muito importante consiste na preparação dos dados para a aplicação dessas técnicas. A correta aplicação das técnicas de normalização, transformação, remoção de outliers, seleção de atributos e definição de amostras, pode significar a diferença entre obter ou não conhecimento e produzir valor agregado.

Ciência de redes

Ciência de redes envolve o estudo das representações por rede de fenômenos físicos, biológicos e sociais, levando a modelos preditivos desses fenômenos. De fato, modelos baseados em grafos constituem um aspecto fundamental de representação de dados em ciência de dados, exercendo um papel essencial na modelagem de sistemas complexos em rede. Há um crescente conjunto de atividades de pesquisa nos últimos 10, 15 anos em ciência de redes (Kocarev, 2010), tipicamente motivado pela disponibilidade crescente de dados empíricos e o aumento correspondente na capacidade computacional para analisar tais dados. Isso permitiu a percepção de similaridades nas estruturas de redes oriundas de áreas bastante distintas, o desenvolvimento de uma série de ferramentas e métodos para caracterizar e modelar tais redes, bem como o entendimento do impacto da estrutura dessas redes nos processos dinâmicos que ocorrem nessas redes. Esse desenvolvimento acelerado da disponibilidade de dados e aplicações imediatas com base nesses dados colabora para a atual demanda por pesquisa básica nos aspectos fundamentais de análise de redes complexas.

Um desafio atual em ciência de redes reside no estabelecimento de fundações sólidas para a caracterização, análise e modelagem de redes complexas dinâmicas de larga escala. Redes complexas dinâmicas podem apresentar um dinamismo espaço-temporal. Esse dinamismo pode ser variante no tempo (isto é, arestas e nós variam ao longo do tempo, podendo ser representados por grafos variantes no tempo); variante no espaço, onde múltiplas redes interdependentes podem ser associadas em camadas (podendo ser representadas por redes multicamadas); ou mesmo ambos. Dado esse dinamismo das redes complexas que emergem em diferentes cenários de aplicação, a ciência de redes é um desafio chave para o avanço de aspectos fundamentais na área de ciência de dados, ao lidar com sistemas naturais ou artificiais modelados por redes complexas de larga escala, sobretudo dinâmicas. Esse desafio se projeta tanto na caracterização, análise e modelagem da dinâmica da estrutura dessas redes complexas, quanto também na caracterização, análise e modelagem dos processos dinâmicos que ocorram sobre essas redes complexas. A análise se torna ainda mais desafiadora em cenários combinados, onde se requer a análise de processos dinâmicos em execução sobre estruturas de redes dinâmicas.

Um desafio correlato se torna a formação de recursos humanos altamente qualificados no desenvolvimento de pesquisa básica e aplicada na fronteira do conhecimento em ciência de dados. Esse cientista de dados possui demanda crescente no eixo ciência-indústria-governo. O profissional tem uma expectativa de formação tipicamente sólida em ciência da computação e aplicações, modelagem, estatística, analítica e matemática, além do conhecimento mínimo do domínio de aplicação. A ciência de dados, como desafio para a ciência, indústria e governo, já encontra-se na pauta no cenário internacional de investimentos. Por exemplo, há iniciativas recentes estabelecidas em instituições de ponta no exterior que focam no enfrentamento desse desafio, tais como o Institute for Data Sciences & Engineering (IDSE) na Columbia University, o Berkeley Institute for Data Science (BIDS) na University of California Berkeley, o Center for Data Science (CDS) da New York University e o Data Science Institute (IDS) no Imperial College.

Em suma, enfrentar de forma fundamental o grande desafio da ciência de dados permite contribuir de modo a melhor posicionar o Brasil na direção da nova ciência baseada em dados, preparando recursos humanos altamente qualificados e desenvolvendo o alicerce para sua projeção de forma relevante na sociedade do conhecimento.


Artur Ziviani é tecnologista sênior do Laboratório Nacional de Computação Científica (LNCC) e doutor em systèmes informatiques pela Université Paris VI.

Fábio Porto é tecnologista do Laboratório Nacional de Computação Científica (LNCC), coordenador do Laboratório DEXL, onde desenvolve pesquisa e inovação na área de gerência e análise de grandes volumes de dados, e doutor em informática pela PUC-RJ.

Eduardo Ogasawara é professor da Escola de Informática do Centro Federal de Educação Tecnológica Celso Sockow da Fonseca (Cefet/RJ), onde lidera o Grupo de Pesquisa em Ciência de Dados, e doutor em engenharia de sistemas e computação pela COPPE/UFRJ.


Referências bibliográficas

Dhar, V. (2013). "Data science and prediction", Communications of the ACM, v. 56, n. 12, pp. 64-73.

Han, J., Kamber, M., Pei, J. (2011). Data mining: concepts and techniques. 3 edition ed. Waltham, Mass., Morgan Kaufmann.

Jagadish, H., Gehrke, J., Labrinidis, A., Papakonstantinou, Y., Patel, J. M., Ramakrishnan, R., Shahabi, C. (2014). "Big data and its technical challenges", Communications of the ACM, v. 57, n. 7, pp. 86–94.

Kocarev, L. (2010). "Network science: a new paradigm shift". IEEE Network, 24(6), pp. 6–9.

Porto, F., Ziviani, A. (2014). "Ciência de dados", III Seminário de Grandes Desafios da Computação no Brasil, Rio de Janeiro, RJ.