REVISTA ELETRÔNICA DE JORNALISMO CIENTÍFICO
Dossiê Anteriores Notícias Reportagens Especiais HumorComCiência Quem Somos
Dossiê
Editorial
Parábola do cão digital - Carlos Vogt
Reportagens
Computação cognitiva: capturando corações, mentes e paladares
Roberto Takata
Memória artificial: sobre dados, vigilantes e vigiados
Kátia Kishi
Big Data traz demandas grandes à saúde
Patrícia Santos
A arte que trafega em dados
Janaína Quitério
As novas tecnologias em uso na agricultura: integrar dados para produzir com eficiência
Carolina Medeiros
Artigos
Ciência de dados: desafio para a ciência, indústria e governo
Artur Ziviani, Fábio Porto e Eduardo Ogasawara
Big data e jornalismo: datasets, APIs, algoritmos e sensores
Walter Teixeira Lima Junior
Big data e as capacidades de gestão da informação
Antônio Carlos Gastaud Maçada, Rafael Alfonso Brinkhues, José Carlos Freitas Júnior
Representação e análise de dados espaço-temporais
Karine Reis Ferreira
O céu é dos robôs
Ana Paula Zaguetto
Resenha
Decifrando códigos
Fabiana Micaele Silva
Entrevista
Danilo Doneda
Entrevistado por Sarah Schmidt
Poema
Campeão
Carlos Vogt
    Versão para impressão       Enviar por email       Compartilhar no Twitter       Compartilhar no Facebook
Artigo
Big data e jornalismo: datasets, APIs, algoritmos e sensores
Por Walter Teixeira Lima Junior
10/07/2015
O crescimento do uso de dados digitais, nos processos de produção de jornalismo, coincide com o barateamento das tecnologias digitais conectadas, com o aumento da capacidade de processamento de dados por máquinas computacionais (servidores, PC´s, notebooks, celulares, tablets, e-books etc) e com a criação de sistemas tecnologicamente amigáveis para acesso, manipulação, visualização e distribuição de dados.

Em tempos de conexões infinitas entre tecnologias digitais emergentes e práticas jornalísticas, o número de experimentos na área tem aumentado de forma exponencial, estruturando um novo ecossistema informacional. Nesse ambiente, misturam-se apostas oriundas de grandes empresas tradicionais de mídia e incontáveis criações produzidas por start-ups, formando campos de batalha para conquistar a atenção e consumo informativo da audiência.

O big data representa nova oportunidade para os profissionais da informação de relevância social e para empresas de mídia. Novos modelos de negócio são e serão originados, abrindo novas oportunidades para o trabalho de jornalistas que lidam com dados.

Nesse sentido, é preciso redesenhar o escopo profissional do produtor de informação de relevância social, o jornalista. Pois não se trata de somente de colocar novas formas de se produzir e manipular dados em velhos processos e práticas jornalísticas, mesmo que sejam vencedoras ao longo do tempo. A prática repetida de se encaixar “fórmulas de sucesso” (analógico -> digital) acontece desde o surgimento das redes computacionais, como a web, e é escamoteada, na atualidade, em virtude da grande profusão de inovações tecnológicas digitais conectadas, que trazem um ar de novidade, mas na estrutura carregam as mesmas características do “velho e bom jornalismo” tradicional.

Depois de anos metaforizando práticas jornalísticas consolidadas nos veículos impressos e eletrônicos em ambientes digitais, como a web, empresas e profissionais de jornalismo começam a experimentar a força do uso de dados digitais. Bancos de dados são utilizados para formatar sistemas comunicacionais embarcados em interfaces adaptadas, visualizadas e acessadas por intermédio de inúmeros tipos de dispositivos de conexão. Novas plataformas são criadas e interessantes narrativas jornalísticas surgem, tendo como base o uso e interligações com sistemas de dados.

Entretanto, a cultura do uso de dados no jornalismo ainda está bastante alinhada ao que conhecemos como Computer-Asssited Reporting (CAR), técnica surgida no final dos anos 1960, nos EUA, quando o jornalista Philip Meyer, do Detroit Free Press, acessou um computador mainframe para descobrir relações entre dados nele contidos e produzir a matéria sobre distúrbios em Detroit. Desde então, os jornalistas pensam na utilização de dados digitais para elaboração de material jornalístico, sejam matérias, infográficos ou serviços.

Esse tipo de abordagem foi e é, realmente, grande salto em relação aos procedimentos clássicos de obtenção e análise de informações para produção de conteúdo informativo de relevância social. No início era o CAR, hoje em dia, o jornalismo de dados (data journalism). Não importa a nomenclatura, o “ataque” aos dados é uma ótima maneira de encontrar relações não-aparentes e embasar com dados os conteúdos jornalísticos, fortalecendo a credibilidade da matéria. No Brasil, por exemplo, quem usa esse tipo de técnica muitas vezes é relacionado ao trabalho realizado pelo denominado jornalismo investigativo, no qual Phillp Meyer é um dos precursores no uso de dados digitais na composição das suas matérias.

A utilização de dados digitais, de ferramentas, de serviços conectados para a captação, análise e visualização de dados com o objetivo da elaboração de matérias para publicação em mídias ditas tradicionais, portais e/ou blogs, é uma postura profissional que coaduna com as exigências informativas da sociedade contemporânea, que também é emissora de informações e é composta por indivíduos capazes de se apropriarem das tecnologias digitais conectadas em níveis mais profundos e sofisticados.

Prática tardia no Brasil, pois, como visto, desde o final dos anos 1960 profissionais do jornalismo, principalmente nos EUA, já começavam a utilizar a técnica do CAR para enriquecer suas matérias. O jornalismo de dados possui ligações com o mundo dos dados digitais, mas tem como objetivo, na maioria dos casos, produzir narrativas tradicionais do jornalismo.

Temos aqui, então, a conexão entre o universo dos dados digitais e as práticas tradicionais, mencionadas por Jack Fuller, no livro What is happening to news: the information explosion and the crisis in journalism, enquadradas no que ele denomina de “modelo padrão de jornalismo tradicional”. Para o pesquisador, o modelo foi consolidado em práticas que tiveram base tecnológica anterior às tecnologias digitais.

Dessa forma, as narrativas obtidas estão intrinsicamente ligadas às bases tecnológicas em que elas são formatadas. Durante anos, e até hoje, se observam críticas sobre a “metaforização” de modelos de negócios e conteúdos contidos em plataformas impressas e eletrônicas para as mídias digitais.

Entretanto, o universo tecnológico apresentado pelo surgimento da era denominada de big data é mais do que essas apropriações do jornalismo tradicional em função da disponibilidade de bases digitais.

Big data refere-se ao conjunto de dados (dataset) cujo o tamanho está além da habilidade de ferramentas típicas de banco de dados capturar, gerenciar e analisar. A definição é intencionalmente subjetiva e incorpora uma definição que se move de como um grande conjunto de dados necessita ser para ser considerado big data.

A definição mais stricto sensu descreve big data como grande volume, alta velocidade, e/ou alta variedade de ativos de informação que requerem novas maneira de processamento para possibilitar uma melhor tomada de decisão, descoberta de insights e processos de otimização. Adicionalmente, veracidade e valor são adicionados por algumas organizações para descrevê-la.

Mais que um conjunto de dados, big data é um conjunto de técnicas e tecnologias para "atacar" grande quantidade de dados sem precisar processar bases de dados completamente.

Portanto, quando se menciona o conceito de big data, se aponta para o conjunto de técnicas e tecnologias de ataque à grande quantidade de dados, objetivando encontrar padrões não-triviais informativos, criar transparência, habilitar descobertas experimentais, originar segmentações informativas, substituir e auxiliar processos de decisão e inovar por meio de novos modelos de negócios.

Ou seja, análise de redes sociais pode ser considerada como uso de big data ou não. Isso dependerá de como é feita a captação, o processamento, a análise dos dados e como eles serão utilizados em relação a outros sistemas. Ou seja, se usarmos software que se conecta à Application Programming Interface (API) disponibilizada pelo Twitter, com objetivo, por exemplo, de saber quais hastags e/ou palavras foram mais utilizadas ou quantos tweets foram mais “retuítados”, essa ação não pode ser considerada como big data, apesar de utilizar milhares de dados digitais. Entretanto, por exemplo, se pegarmos esses mesmos dados e cruzarmos com outros datasets oriundos do Instagram e Facebook, para conhecer um determinado padrão de consumo, que será utilizado para tomada de decisão de uma determinada empresa, essa operação é muito mais complexa, pois serão utilizadas algumas técnicas e tecnologias para tentar obter um resultado não-trivial.

Para que isso aconteça, deverão ser utilizadas algumas técnicas e tecnologias de forma combinada, que constituirão um toolkit, em função dos objetivos a serem alcançados. Assim, quando se confunde os processos de big data como somente o uso de grande quantidade de dados digitais, perde-se a noção das enormes possibilidades abertas para o jornalismo nessa nova era no campo da informação.

Nesse sentido, os profissionais do jornalismo deveriam compreender que não basta utilizar dados digitais em grande quantidade e manter as mesmas práticas contidas no padrão tradicional de jornalismo para “saborear” as possibilidades impetradas pela era do big data. Para perceber as oportunidades e permitir a construção de sistemas que possam ser inovadores na área, é premente, primeiro, que os profissionais que desejam lidar com informação de relevância social e técnicas e tecnologias utilizadas no big data tenham entendimento que a Ciência da Computação é considerada, atualmente, um domínio científico humano. Ou seja, além das Ciências Exatas, Ciências Biológicas, Ciências Humanas e outras categorizações científicas, a Ciência da Computação atingiu o status de campo devido a sua importância para os avanços em outros campos científicos. Pode-se citar o Projeto Genoma, nas Ciências Biológicas, e análise de comportamento coletivo nas redes sociais, nas Ciências Humanas. Nas Exatas, a Ciência da Computação tornou-se uma parceira inseparável, pois se originou ali.

Na área do jornalismo, a Ciência da Computação não pode ser entendida “apenas” como produtora de “programas” que facilitam a vida do jornalista para a obtenção de dados para produção de matérias investigativas ou/e visualização das mesmas. A força das Ciências da Computação, com certa razão, é sentida na eficiência dos seus dispositivos, mas a força mesmo está nas lógicas computacionais embarcadas nos sistemas produzidos.

Assim, entender como funcionam, quais os seus propósitos iniciais, de onde surgiram e quais as tecnologias que estão estruturando a era do big data, deve ser um caminho para que o profissional de jornalismo possa “extrair” valor dela.

Dotar o profissional de jornalismo de competências para que possua pensamento computacional, ou seja, entendimento das lógicas contidas nas tecnologias digitais, ajudará na construção de conteúdos e sistemas jornalísticos de forma diferenciada do proposto pelo “modelo padrão de jornalismo tradicional”.

Nesse propósito, o profissional necessita formalizar computacionalmente as abstrações, ajudando o pessoal das Ciências da Computação a formalizar os objetivos a partir do entendimento das tecnologias que formam o big data.

Para Jannete Wing, pensamento computacional é usar a abstração e decomposição quando se ataca uma grande tarefa complexa ou se desenha um grande sistema complexo. Para a pesquisadora, é a separação de preocupações (interesses), escolhendo uma apropriada representação do problema, ou seja, modelar os aspectos relevantes de um problema e fazê-los tratáveis. Assim, entender as lógicas computacionais das tecnologias digitais conectadas para elaborar design thinking (moldagem) passa a ser um atributo essencial para a prática jornalística relacionada ao trabalho com dados digitais.

Entretanto, se o profissional de jornalismo desejar obter conhecimento aprofundado sobre programação, seu nível de interação lógica com os profissionais da Ciência da Computação aumentará e proporcionará otimização de tempo e de projetos.

Além das lógicas de programação, é aconselhável entender o funcionamento e acesso de datasets. Dataset é denominado como uma coleção de dados que contém unidades de dados individuais, organizada (formatada) numa forma específica e acessados por um método especifico, baseado na organização do conjunto de dados.

É importante conhecer como acessar APIs públicas e negociar com os proprietários de datasets que disponibilizam suas API´s privadas. As APIs fornecem a possibilidade de máquinas se comunicarem com máquinas (interoperabilidade tecnológica), criar formas de obtenção de consumidores de conteúdo jornalístico, criar valor (monetário), interligar seus datasets com outros dataset (parceiros ou open) e, principalmente, fornecer conteúdo modelado individualmente (tailored), permitindo ao usuário uma experiência única em relação ao conteúdo recebido. O uso de APIs permitem a conexão informativa entre vários serviços digitais, funcionando por meio de pontes interconectadas de metadados. Ou seja, possibilita que datasets "conversem" entre si.

Já para compreender como utilizar algoritmos em datasets para a descoberta de padrões não-triviais informativos ou extrapolar para outros eventos relacionados à compreensão de certos fenômenos encontrados, é necessário que o profissional de jornalismo entenda que o algoritmo, como tecnologia, possui como propósito o uso de uma sequência de bem definidos passos e instruções para gerar categorias para filtrar informação baseada em combinações de motivos sobre um resultado desejável.

Contudo, além de armazenar dados e analisá-los, o profissional de jornalismo possui a chance de extrair dados por meio de sensores, possibilitando que se criem datasets com dados fornecidos eles. Por exemplo, conectados a questões que envolvem o meio-ambiente, como para a medição de níveis de poluição do ar ou da água.

Nesse mesmo campo, de extração de dados do ambiente, podem-se usar as tecnologias criadas a partir de tecnologias derivadas do Geolocation Information System (GIS) para obtenção de dados geolocalizados ou dados oriundos de drones.

Portanto, a era do big data é mais do que o senso comum de que é somente uma grande quantidade de dados. A era do big data é uma estrutura de obtenção de informações com muitas possibilidades de armazenamento, conexão, análise, distribuição e visualização, e para retirar “valor” deve-se se aprofundar sobre as técnicas e tecnologias que emergem em torno dessa nova era informativa.

Walter Teixeira Lima Junior é docente do Programa de Pós-graduação Universidade Metodista de São Paulo. Pós-doutorando do Departamento de Engenharia Mecatrônica da USP. Pesquisador-colaborador do Centro de Matemática, Computação e Cognição da UFABC. www.walterlima.net