| 
                             
O  crescimento do uso de dados digitais, nos processos de produção de  jornalismo, coincide com o barateamento das tecnologias digitais  conectadas, com o aumento da capacidade de processamento de dados por  máquinas computacionais (servidores, PC´s, notebooks, celulares, tablets,  e-books etc) e com a criação de sistemas tecnologicamente amigáveis  para acesso, manipulação, visualização e distribuição de  dados.
  
Em  tempos de conexões infinitas entre tecnologias digitais emergentes e  práticas jornalísticas, o número de experimentos na área tem  aumentado de forma exponencial, estruturando um novo ecossistema  informacional. Nesse ambiente, misturam-se apostas oriundas de  grandes empresas tradicionais de mídia e incontáveis criações  produzidas por start-ups,  formando campos de batalha para conquistar a atenção e consumo  informativo da audiência. O  big data representa nova oportunidade para os profissionais da  informação de relevância social e para empresas de mídia. Novos  modelos de negócio são e serão originados, abrindo novas  oportunidades para o trabalho de jornalistas que lidam com dados.
  
  Nesse  sentido, é preciso redesenhar o escopo profissional do produtor de  informação de relevância social, o jornalista. Pois não se trata  de somente de colocar novas formas de se produzir e manipular dados  em velhos processos e práticas jornalísticas, mesmo que sejam  vencedoras ao longo do tempo. A prática repetida de se encaixar  “fórmulas de sucesso” (analógico -> digital) acontece desde  o surgimento das redes computacionais, como a web, e é escamoteada,  na atualidade, em virtude da grande profusão de inovações  tecnológicas digitais conectadas, que trazem um ar de novidade, mas  na estrutura carregam as mesmas características do “velho e bom  jornalismo” tradicional. Depois  de anos metaforizando práticas jornalísticas consolidadas nos  veículos impressos e eletrônicos em ambientes digitais, como a web,  empresas e profissionais de jornalismo começam a experimentar a  força do uso de dados digitais. Bancos de dados são utilizados para  formatar sistemas comunicacionais embarcados em interfaces adaptadas,  visualizadas e acessadas por intermédio de inúmeros tipos de  dispositivos de conexão. Novas plataformas são criadas e  interessantes narrativas jornalísticas surgem, tendo como base o uso  e interligações com sistemas de dados.
  
  Entretanto,  a cultura do uso de dados no jornalismo ainda está bastante alinhada  ao que conhecemos como Computer-Asssited  Reporting (CAR), técnica  surgida no final dos anos 1960, nos EUA, quando o jornalista Philip  Meyer, do Detroit Free Press,  acessou um computador mainframe para descobrir relações entre dados  nele contidos e produzir a matéria sobre distúrbios em Detroit.  Desde então, os jornalistas pensam na utilização de dados digitais  para elaboração de material jornalístico, sejam matérias,  infográficos ou serviços. Esse  tipo de abordagem foi e é, realmente, grande salto em relação aos  procedimentos clássicos de obtenção e análise de informações  para produção de conteúdo informativo de relevância social. No  início era o CAR, hoje em dia, o jornalismo de dados (data  journalism). Não importa a  nomenclatura, o “ataque” aos dados é uma ótima maneira de  encontrar relações não-aparentes e embasar com dados os conteúdos  jornalísticos, fortalecendo a credibilidade da matéria. No Brasil,  por exemplo, quem usa esse tipo de técnica muitas vezes é  relacionado ao trabalho realizado pelo denominado jornalismo  investigativo, no qual Phillp Meyer é um dos precursores no uso de  dados digitais na composição das suas matérias.
  
  A  utilização de dados digitais, de ferramentas, de serviços  conectados para a captação, análise e visualização de dados com  o objetivo da elaboração de matérias para publicação em mídias  ditas tradicionais, portais e/ou blogs, é uma postura profissional  que coaduna com as exigências informativas da sociedade  contemporânea, que também é emissora de informações e é  composta por indivíduos capazes de se apropriarem das tecnologias  digitais conectadas em níveis mais profundos e sofisticados. Prática  tardia no Brasil, pois, como visto, desde o final dos anos 1960  profissionais do jornalismo, principalmente nos EUA, já começavam a  utilizar a técnica do CAR para enriquecer suas matérias. O  jornalismo de dados possui ligações com o mundo dos dados digitais,  mas tem como objetivo, na maioria dos casos, produzir narrativas  tradicionais do jornalismo.
 Temos  aqui, então, a conexão entre o universo dos dados digitais e as  práticas tradicionais, mencionadas por Jack Fuller, no livro What  is happening to news: the information explosion and the crisis in  journalism, enquadradas no que  ele denomina de “modelo padrão de jornalismo tradicional”. Para  o pesquisador, o modelo foi consolidado em práticas que tiveram base  tecnológica anterior às tecnologias digitais.  
Dessa  forma, as narrativas obtidas estão intrinsicamente ligadas às bases  tecnológicas em que elas são formatadas. Durante anos, e até hoje,  se observam críticas sobre a “metaforização” de modelos de  negócios e conteúdos contidos em plataformas impressas e  eletrônicas para as mídias digitais. Entretanto,  o universo tecnológico apresentado pelo surgimento da era denominada  de big data é mais do que essas apropriações do jornalismo  tradicional em função da disponibilidade de bases digitais.
  
  Big  data refere-se ao conjunto de dados (dataset) cujo o tamanho está  além da habilidade de ferramentas típicas de banco de dados  capturar, gerenciar e analisar. A definição é intencionalmente  subjetiva e incorpora uma definição que se move de como um grande  conjunto de dados necessita ser para ser considerado big data. A  definição mais stricto sensu descreve big data como grande volume, alta velocidade, e/ou alta  variedade de ativos de informação que requerem novas maneira de  processamento para possibilitar uma melhor tomada de decisão,  descoberta de insights e processos de otimização. Adicionalmente, veracidade e valor são  adicionados por algumas organizações para descrevê-la.
  
  Mais  que um conjunto de dados, big data é um conjunto de técnicas e  tecnologias para "atacar" grande quantidade de dados sem  precisar processar bases de dados completamente. Portanto,  quando se menciona o conceito de big data, se aponta para o conjunto  de técnicas e tecnologias de ataque à grande quantidade de dados,  objetivando encontrar padrões não-triviais informativos, criar  transparência, habilitar descobertas experimentais, originar  segmentações informativas, substituir e auxiliar processos de  decisão e inovar por meio de novos modelos de negócios.
  
  Ou  seja, análise de redes sociais pode ser considerada como uso de big  data ou não. Isso dependerá de como é feita a captação, o  processamento, a análise dos dados e como eles serão utilizados em  relação a outros sistemas. Ou seja, se usarmos software que se  conecta à Application  Programming Interface (API)  disponibilizada pelo Twitter, com objetivo, por exemplo, de saber  quais hastags e/ou palavras foram mais utilizadas ou quantos tweets foram mais  “retuítados”, essa ação não pode ser considerada como big  data, apesar de utilizar milhares de dados digitais. Entretanto, por  exemplo, se pegarmos esses mesmos dados e cruzarmos com outros  datasets oriundos do Instagram e Facebook, para conhecer um  determinado padrão de consumo, que será utilizado para tomada de  decisão de uma determinada empresa, essa operação é muito mais  complexa, pois serão utilizadas algumas técnicas e tecnologias para  tentar obter um resultado não-trivial. Para  que isso aconteça, deverão ser utilizadas algumas técnicas e  tecnologias de forma combinada, que constituirão um toolkit, em  função dos objetivos a serem alcançados. Assim, quando se confunde  os processos de big data como somente o uso de grande quantidade de  dados digitais, perde-se a noção das enormes possibilidades abertas  para o jornalismo nessa nova era no campo da informação.
  
  Nesse  sentido, os profissionais do jornalismo deveriam compreender que não  basta utilizar dados digitais em grande quantidade e manter as mesmas  práticas contidas no padrão tradicional de jornalismo para  “saborear” as possibilidades impetradas pela era do big data.  Para perceber as oportunidades e permitir a construção de sistemas  que possam ser inovadores na área, é premente, primeiro, que os  profissionais que desejam lidar com informação de relevância  social e técnicas e tecnologias utilizadas no big data tenham  entendimento que a Ciência da Computação é considerada,  atualmente, um domínio científico humano. Ou seja, além das  Ciências Exatas, Ciências Biológicas, Ciências Humanas e outras  categorizações científicas, a Ciência da Computação atingiu o  status de campo devido a sua importância para os avanços em outros  campos científicos. Pode-se citar o Projeto Genoma, nas Ciências  Biológicas, e análise de comportamento coletivo nas redes sociais,  nas Ciências Humanas. Nas Exatas, a Ciência da Computação  tornou-se uma parceira inseparável, pois se originou ali. Na  área do jornalismo, a Ciência da Computação não pode ser  entendida “apenas” como produtora de “programas” que  facilitam a vida do jornalista para a obtenção de dados para  produção de matérias investigativas ou/e visualização das  mesmas. A força das Ciências da Computação, com certa razão, é  sentida na eficiência dos seus dispositivos, mas a força mesmo está  nas lógicas computacionais embarcadas nos sistemas produzidos.
  
  Assim,  entender como funcionam, quais os seus propósitos iniciais, de onde  surgiram e quais as tecnologias que estão estruturando a era do big  data, deve ser um caminho para que o profissional de jornalismo possa  “extrair” valor dela. Dotar  o profissional de jornalismo de competências para que possua  pensamento computacional, ou seja, entendimento das lógicas contidas  nas tecnologias digitais, ajudará na construção de conteúdos e  sistemas jornalísticos de forma diferenciada do proposto pelo  “modelo padrão de jornalismo tradicional”.
  
  Nesse  propósito, o profissional necessita formalizar computacionalmente as  abstrações, ajudando o pessoal das Ciências da Computação a  formalizar os objetivos a partir do entendimento das tecnologias que  formam o big data.  Para  Jannete Wing, pensamento computacional é usar a abstração e  decomposição quando se ataca uma grande tarefa complexa ou se  desenha um grande sistema complexo. Para a pesquisadora, é a  separação de preocupações (interesses), escolhendo uma apropriada  representação do problema, ou seja, modelar os aspectos relevantes  de um problema e fazê-los tratáveis. Assim, entender as lógicas  computacionais das tecnologias digitais conectadas para elaborar design thinking (moldagem) passa a ser um atributo essencial para a prática  jornalística relacionada ao trabalho com dados digitais.
  
  Entretanto,  se o profissional de jornalismo desejar obter conhecimento  aprofundado sobre programação, seu nível de interação lógica  com os profissionais da Ciência da Computação aumentará e  proporcionará otimização de tempo e de projetos. Além  das lógicas de programação, é aconselhável entender o  funcionamento e acesso de datasets. Dataset é denominado como uma  coleção de dados que contém unidades de dados individuais,  organizada (formatada) numa forma específica e acessados por um  método especifico, baseado na organização do conjunto de dados. 
 É  importante conhecer como acessar APIs públicas e negociar com os  proprietários de datasets que disponibilizam suas API´s privadas.  As APIs fornecem a possibilidade de máquinas se comunicarem com  máquinas (interoperabilidade tecnológica), criar formas de obtenção  de consumidores de conteúdo jornalístico, criar valor (monetário),  interligar seus datasets com outros dataset (parceiros ou open) e,  principalmente, fornecer conteúdo modelado individualmente  (tailored),  permitindo ao usuário uma experiência única em relação ao  conteúdo recebido. O uso de APIs permitem a conexão informativa  entre vários serviços digitais, funcionando por meio de pontes  interconectadas de metadados. Ou seja, possibilita que datasets  "conversem" entre si. Já  para compreender como utilizar algoritmos em datasets para a  descoberta de padrões não-triviais informativos ou extrapolar para  outros eventos relacionados à compreensão de certos fenômenos  encontrados, é necessário que o profissional de jornalismo entenda  que o algoritmo, como tecnologia, possui como propósito o uso de uma  sequência de bem definidos passos e instruções para gerar  categorias para filtrar informação baseada em combinações de  motivos sobre um resultado desejável.
  
  Contudo,  além de armazenar dados e analisá-los, o profissional de jornalismo  possui a chance de extrair dados por meio de sensores, possibilitando  que se criem datasets com dados fornecidos eles. Por exemplo,  conectados a questões que envolvem o meio-ambiente, como para a  medição de níveis de poluição do ar ou da água. Nesse mesmo campo, de extração de  dados do ambiente, podem-se usar as tecnologias criadas a partir de  tecnologias derivadas do Geolocation Information System (GIS) para  obtenção de dados geolocalizados ou dados oriundos de drones.
  
  Portanto,  a era do big data é mais do que o senso comum de que é somente uma  grande quantidade de dados. A era do big data é uma estrutura de  obtenção de informações com muitas possibilidades de  armazenamento, conexão, análise, distribuição e visualização, e  para retirar “valor” deve-se se aprofundar sobre as técnicas e  tecnologias que emergem em torno dessa nova era informativa. 
Walter  Teixeira Lima Junior é  docente  do Programa de Pós-graduação Universidade Metodista de São Paulo.  Pós-doutorando do Departamento de Engenharia Mecatrônica da USP.  Pesquisador-colaborador do Centro de Matemática, Computação e  Cognição da UFABC. www.walterlima.net 
                         |