Curadorias digitais preservam integridade de dados científicos

Júlia Ramos de Lima e Laura Segovia Tercic

Imagem: Fotos Públicas

Uma etapa essencial do processo científico é a análise e processamento de dados, sejam eles obtidos por um projeto em andamento ou em pesquisas anteriores. Assim, os repositórios virtuais preservam e ajudam a compartilhar a ciência do passado e do presente, contribuindo também para as futuras descobertas.

Além da importância da integridade dos dados, é preciso também que sejam acessíveis. A democratização dessas informações “faz parte das boas práticas de pesquisa preconizadas no mundo inteiro pelo movimento open science”, explica Claudia Bauzer Medeiros, professora titular do Instituto de Computação da Unicamp.

No entanto, parte dos dados pode ser perdida por obsolescência tecnológica, fragilidade das mídias digitais ou pelo modo como foram armazenados. 

“Dados são tudo que capturamos ou percebemos do mundo real com nossos sentidos”, define a professora. Ela ainda complementa dizendo que dados digitais são aqueles capturados diretamente do mundo real com algum dispositivo, ou transformados de objetos físicos e analógicos para digitais por quem os coletou.

A dimensão da quantidade de dados digitais já produzida desde os primeiros computadores no mundo impressiona e, à medida que a tecnologia digital e a internet se tornam cada vez mais presentes, a dependência desses dados e a busca por formas de organização e acesso a essas informações estocadas também. Um dos problemas centrais é a criação e viabilidade prática de melhores formas de armazenamento e de compartilhamento.

O registro de pesquisas em sistemas formais é uma prática já estabelecida na comunidade científica, mas apenas a criação de plataformas como bibliotecas, repositórios e bases de dados não são suficientes a longo prazo sem manutenção. Segundo Medeiros, “há projetos na Europa cujos dados são mantidos há 50 anos, mas sua preservação exige também mudar o armazenamento e disponibilização com a evolução de tecnologias de hardware e software”.

Medeiros, que também é uma das coordenadoras do programa eScience and Data Science da Fapesp, diz que a disponibilização e acesso de dados em repositórios públicos permite economizar recursos, além de produzir mais conhecimento, com consequentes benefícios para a pesquisa e inovação. “A médio ou longo prazo podem ajudar a criar produtos, novas políticas sociais, contribuir para a economia, a cultura, o bem-estar e o progresso”, explica.

Manter repositórios de dados exige uma série de recursos e deve levar em consideração as características da instituição científica envolvida, mas, de forma geral, são necessários equipamentos como redes de computadores, softwares para gerenciamento e proteção dos dados, mão de obra especializada para curadoria, treinamento de quem vai adaptar e inserir os dados no sistema, entre outros. 

“A digitalização envolve a participação de diversos curadores, normalização dos dados e análise das coleções, que são grandes e muitas. Esse passo a passo requer gente especializada”, resume Cristiana Serejo, vice-diretora do Museu Nacional.

A instituição, abalada por um incêndio que há dois anos destruiu grande parte da estrutura física, documentos, espécimes biológicos e objetos históricos únicos, passa por um processo de digitalização do acervo. O Museu Nacional disponibiliza seus dados e pesquisas em plataformas de acesso aberto, como Jabot, Sistema de Informação sobre a Biodiversidade Brasileira (Sib-Br) e Global Biodiversity Information Facility (GBIF), além do site oficial. 

Alexander Kellner, diretor do museu, aponta, no entanto, que uma dificuldade no processo de digitalização é que “há certas particularidades sobre o acervo, como coleções de diferentes províncias do conhecimento científico, e não necessariamente os dados/informações sobre essas coleções são relevantes para as outras”. Kellner conta que a ideia é adotar um sistema para o maior número de processos possíveis, embora não seja fácil.

Outro problema destacado pela vice-diretora refere-se ao uso de diferentes softwares e iniciativas, que dificulta a uniformização. “Nos últimos 20 anos cada departamento adotou uma postura, isolada na integração dos dados”.

Assim, a curadoria digital é extremamente necessária. E dependente da tecnologia disponível, uma vez que esta determina a capacidade para reunir, armazenar, gerenciar e recuperar informação – e, claro, de investimentos.

Para Medeiros os custos e desafios são de natureza tecnológica, científica, política, educacional, cultural e social, “além das questões legais de privacidade e ética no uso dos dados”.

Júlia Ramos de Lima é bióloga e aluna do curso de especialização em jornalismo científico (Labjor/Unicamp.

Laura Segovia Tercic é bióloga formada pela USP e cursa a especialização em jornalismo científico pelo Labjor/Unicamp.