| 
                            
 O  tratamento do dilúvio de dados sendo produzido pelas ciências e por  bilhões de usuários de serviços globais de internet se apresenta  como um dos grandes desafios para a atual sociedade do conhecimento.  Apresentado de forma geral como um vetor de múltiplas facetas, o  fenômeno ainda está sendo interpretado pelos cientistas e tem  impulsionado iniciativas em diversas áreas. Nas ciências, o dilúvio  aparece como a expressão de uma nova maneira de investigação,  incitando biólogos, astrônomos, bioquímicos e demais pesquisadores  em diversas áreas científicas a enfrentar problemas computacionais  na chamada e-ciência, que se tornam barreiras para as suas  descobertas. Na indústria, o dilúvio de dados aparece em sintonia  com o ambiente de computação em nuvem, provendo escalabilidade e  tolerância a falhas, em ambientes computacionais cada vez mais  complexos e de tamanho proporcional ao desafio abordado. No setor  governamental, há oportunidades de se debruçar sobre imensas bases  de dados do setor público com vistas a tornar o planejamento mais  eficiente, bem como novos serviços que possam melhorar o atendimento  ao cidadão. Novas profissões especializadas no trato e,  principalmente, na análise e interpretação de grandes volumes de  dados, surgiram, trazendo o método científico para o setor  empresarial. 
A  partir dessas condições, surge uma nova ciência baseada em dados,  cujo objetivo é identificar os princípios, métodos e técnicas  fundamentais para o gerenciamento e análise de grandes volumes de  dados heterogêneos (Porto & Ziviani, 2014). Motivada pelos  desafios anteriormente enfrentados por gestores, empresários e  pesquisadores de áreas como saúde, óleo e gás, esporte,  astronomia, mobilidade urbana, telecomunicações, internet,  educação, defesa cibernética e biodiversidade, a ciência de dados  aparece como uma estruturação científica na qual os fenômenos são  descritos e modelados a partir dos dados. 
Em  uma visão geral, pode-se compreender a ciência de dados como um  conjunto de ações aplicadas a uma coleção de dados que conduz à  descoberta de conhecimento (isto é, tendências, relações e  padrões subjacentes a esses dados). As ações indicadas na figura  abaixo vão desde a seleção dos dados até a extração de  conhecimento, e se organizam em quatro macro-atividades: seleção e  integração de dados, pré-processamento de dados, produção do  modelo para extração do conhecimento e avaliação. O processo pode  ser compreendido como um caso particular de experimentação  científica in  silico, no qual os dados são  volumosos, as estruturas de dados precisam ser bem definidas e os  métodos de seleção, pré-processamento e de produção do modelo  são computacionalmente intensivos.
 
  
  
Processo  de ciência de dados. Adaptado de (Han et  al.,  2011).
Considere,  por exemplo, o problema de identificação de padrões na área  sísmica. Trata-se de um problema na área da ciência, onde, a  partir de um conjunto de sensores geograficamente distribuídos e de  levantamentos batimétricos, obtém-se um conjunto de dados sísmicos.  A partir deles, deseja-se explorar as propriedades dos solos,  identificando-se falhas e potenciais zonas para exploração de  recursos minerais. 
Na  área empresarial, considere, por exemplo, o problema de detecção  de invasão de sistemas. A quantidade e diversidade dos acessos  realizados aos serviços não possibilita mais a análise  individualizada de cada pacote de dados transmitido. Em particular,  problemas como negação de serviço exigem que os acessos sejam  resumidos e, a partir deles, deseja-se analisar o comportamento dos  acessos. 
Finalmente,  na área de governo, tem-se como exemplo a análise da malha de  transporte de ônibus municipal, onde se coleta, a cada minuto a  posição dos ônibus no município. Trata-se de um problema de  mobilidade urbana, onde se busca identificar gargalos e melhorar  fluxos de ônibus pelos principais pontos da cidade ao longo do  tempo. Apresentamos  rapidamente três tipos de aplicações no eixo  ciência-indústria-governo no contexto de ciência de dados. Cabe  ressaltar a heterogeneidade na estrutura, no volume, na frequência e  na forma de obtenção dessas observações. Tratam-se de desafios  típicos abordados em ciência de dados. 
Essas  aplicações também se diferem nos métodos empregados para extração  de conhecimento. No exemplo da sísmica, o problema consiste em  agrupar os dados de modo a identificar propriedades gerais do solo,  zonas de falhas etc. No exemplo de segurança da informação,  trata-se de um problema de classificação em relação ao qual se  quer saber se um sistema está ou não sob ataque e se um acesso é  ou não válido. Finalmente, o último exemplo pode recair em um  problema de predição de atrasos nos modais de transportes. A  heterogeneidade e grandes volumes de dados dos problemas mencionados  apresentam desafios tanto em termos de armazenamento e processamento  paralelo quanto nos métodos necessários para apoiar a extração de  conhecimento a partir desses dados. 
Essa  nova forma de fazer ciência traz desafios tanto na formação de  recursos humanos altamente qualificados quanto no desenvolvimento de  pesquisa básica e aplicada na fronteira do conhecimento. Esses  desafios podem ser organizados em três grandes eixos: 1- gerência  de dados; 2- análise de dados; 3- ciência de redes. Esses eixos  podem ser resumidamente interpretados pelos desafios na gestão e no  processamento de grandes volumes de dados heterogêneos – Big  Data (Jagadish et  al. 2014), na utilização de  diferentes métodos de aprendizado de máquina para extrair o  conhecimento a partir dos dados e na modelagem de problemas onde os  dados são organizados em estruturas cada vez mais dinâmicas,  complexas e interligadas. Esses eixos são mais bem descritos a  seguir. 
Gerência  de grandes volumes de dados
Sistemas  de gerência de bancos de dados oferecem mecanismos eficientes para o  gerenciamento de dados para uma vasta paleta de aplicações. Os  desafios impostos pelas inúmeras novas aplicações, que surgem na  interpretação de dados produzidos em redes sociais, por sensores de  monitoramento e instrumentos científicos, impõem uma verdadeira  necessidade de revisão das técnicas mais tradicionais. A ciência  de dados, nesse contexto, prevê uma integração fundamental nos  mecanismos de armazenamento e acesso aos dados que favoreçam a  flexibilidade em sua representação e simplicidade de integração e  análise. Modelos de representação do tipo em grafos, séries  temporais e, ainda, índices multidimensionais são candidatos a  adoção, dependendo do alvo em dados e da análise pretendida.  Adicionalmente, técnicas que permitam análises, considerando-se  volumes de centenas de terabytes, devem ser integradas aos mecanismos  de armazenamento, proporcionando um ambiente eficiente e escalável.  Finalmente, o modelo de processamento analítico em grandes volumes  de dados se diferencia da estratégia tradicional de consultas a  banco de dados. Se estas ainda aparecem como fundamentais na  especificação de consultas em alto nível, as análises requerem um  processo multi-atividades com dependências entre si, do tipo dataflow.  Nesse contexto, é preciso que os modelos desse tipo de processamento  estejam em sintonia com as estratégias de armazenamento e  distribuição de dados, garantindo a escalabilidade do processamento  em relação ao volume de dados, e simplificando o desenvolvimento de  aplicações. Nesse sentido, o avanço da área de ciência de dados  tem como um de seus alicerces principais o conjunto de técnicas,  estratégias, modelos e algoritmos que apóiem os processos  analíticos através da gerência de grandes volumes de dados. 
 Análise  de dados em larga escala
A  análise de dados envolve o processamento de coleções de objetos na  produção de um modelo que identifique padrões consistentes na  forma de relacionamentos sistemáticos entre variáveis componentes  desses objetos, com o propósito de detectar e gerar conhecimento não  facilmente observável. A extração do conhecimento propriamente  dita é apoiada por um conjunto de métodos que incluem tanto aqueles  usados nas etapas tradicionais de mineração de dados –  pré-processamento, identificação de padrões e visualização –  quanto os métodos estatísticos e de modelagem computacional (Dhar,  2013). Dentre alguns desses métodos, podemos citar: agrupamento  (clustering),  regressão, predição, classificação, descoberta de associações,  imputação e identificação de outliers.  Para cada método há diversas técnicas e algoritmos cujas  implementações, adaptações e variações estão presentes em  linguagens e ferramentas consolidadas de análise de dados, como  Java, Python, R e MatLab. 
O  desafio consiste tanto na correta aplicação e combinação desses  algoritmos quanto na concepção de novos algoritmos e implementações  adequados para se atingir boa acurácia e escalabilidade no  processamento de grandes volumes de dados. Nesse contexto, um aspecto  muito importante consiste na preparação dos dados para a aplicação  dessas técnicas. A correta aplicação das técnicas de  normalização, transformação, remoção de outliers,  seleção de atributos e definição de amostras, pode significar a  diferença entre obter ou não conhecimento e produzir valor  agregado. 
 Ciência  de redes
Ciência  de redes envolve o estudo das representações por rede de fenômenos  físicos, biológicos e sociais, levando a modelos preditivos desses  fenômenos. De fato, modelos baseados em grafos constituem um aspecto  fundamental de representação de dados em ciência de dados,  exercendo um papel essencial na modelagem de sistemas complexos em  rede. Há um crescente conjunto de atividades de pesquisa nos últimos  10, 15 anos em ciência de redes (Kocarev, 2010), tipicamente  motivado pela disponibilidade crescente de dados empíricos e o  aumento correspondente na capacidade computacional para analisar tais  dados. Isso permitiu a percepção de similaridades nas estruturas de  redes oriundas de áreas bastante distintas, o desenvolvimento de uma  série de ferramentas e métodos para caracterizar e modelar tais  redes, bem como o entendimento do impacto da estrutura dessas redes  nos processos dinâmicos que ocorrem nessas redes. Esse  desenvolvimento acelerado da disponibilidade de dados e aplicações  imediatas com base nesses dados colabora para a atual demanda por  pesquisa básica nos aspectos fundamentais de análise de redes  complexas. 
Um  desafio atual em ciência de redes reside no estabelecimento de  fundações sólidas para a caracterização, análise e modelagem de  redes complexas dinâmicas de larga escala. Redes complexas dinâmicas  podem apresentar um dinamismo espaço-temporal. Esse dinamismo pode  ser variante no tempo (isto é, arestas e nós variam ao longo do  tempo, podendo ser representados por grafos variantes no tempo);  variante no espaço, onde múltiplas redes interdependentes podem ser  associadas em camadas (podendo ser representadas por redes  multicamadas); ou mesmo ambos. Dado esse dinamismo das redes  complexas que emergem em diferentes cenários de aplicação, a  ciência de redes é um desafio chave para o avanço de aspectos  fundamentais na área de ciência de dados, ao lidar com sistemas  naturais ou artificiais modelados por redes complexas de larga  escala, sobretudo dinâmicas. Esse desafio se projeta tanto na  caracterização, análise e modelagem da dinâmica da estrutura  dessas redes complexas, quanto também na caracterização, análise  e modelagem dos processos dinâmicos que ocorram sobre essas redes  complexas. A análise se torna ainda mais desafiadora em cenários  combinados, onde se requer a análise de processos dinâmicos em  execução sobre estruturas de redes dinâmicas. 
 Um desafio correlato se torna a formação de  recursos humanos altamente qualificados no desenvolvimento de  pesquisa básica e aplicada na fronteira do conhecimento em ciência  de dados. Esse cientista de dados possui demanda crescente no eixo  ciência-indústria-governo. O profissional tem uma expectativa de  formação tipicamente sólida em ciência da computação e  aplicações, modelagem, estatística, analítica e matemática, além  do conhecimento mínimo do domínio de aplicação. A ciência de  dados, como desafio para a ciência, indústria e governo, já  encontra-se na pauta no cenário internacional de investimentos. Por  exemplo, há iniciativas recentes estabelecidas em instituições de  ponta no exterior que focam no enfrentamento desse desafio, tais como  o Institute for Data Sciences & Engineering (IDSE) na Columbia University, o Berkeley  Institute for Data Science (BIDS)  na University of California Berkeley, o Center for Data Science (CDS)  da New York University e o Data Science Institute (IDS)  no Imperial College.
 
Em  suma, enfrentar de forma fundamental o grande desafio da ciência de  dados permite contribuir de modo a melhor posicionar o Brasil na  direção da nova ciência baseada em dados, preparando recursos  humanos altamente qualificados e desenvolvendo o alicerce para sua  projeção de forma relevante na sociedade do conhecimento.  
 
 Artur  Ziviani é tecnologista sênior do Laboratório Nacional de  Computação Científica (LNCC) e doutor em systèmes informatiques  pela Université Paris VI. 
Fábio  Porto é tecnologista do Laboratório Nacional de Computação  Científica (LNCC), coordenador do Laboratório DEXL, onde desenvolve  pesquisa e inovação na área de gerência e análise de grandes  volumes de dados, e doutor em informática pela PUC-RJ. Eduardo  Ogasawara é professor da Escola de Informática do Centro Federal de  Educação Tecnológica Celso Sockow da Fonseca (Cefet/RJ), onde  lidera o Grupo de Pesquisa em Ciência de Dados, e doutor em  engenharia de sistemas e computação pela COPPE/UFRJ.
 
Referências  bibliográficas
Dhar,  V. (2013). "Data science and prediction", Communications  of the ACM, v. 56, n. 12, pp. 64-73. 
Han,  J., Kamber, M., Pei, J. (2011). Data  mining: concepts and techniques. 3  edition ed. Waltham, Mass., Morgan Kaufmann. 
Jagadish,  H., Gehrke, J., Labrinidis, A., Papakonstantinou, Y., Patel, J. M.,  Ramakrishnan, R., Shahabi, C. (2014). "Big data and its technical  challenges", Communications of the  ACM, v. 57, n. 7, pp. 86–94. 
Kocarev,  L. (2010). "Network science: a new paradigm shift". IEEE  Network, 24(6), pp. 6–9. 
Porto,  F., Ziviani, A. (2014). "Ciência de dados", III Seminário de  Grandes Desafios da Computação no Brasil, Rio de Janeiro, RJ. 
 
 
                         |