Métricas alternativas: uma introdução para autores e avaliadores

Por Atila Iamarino

Em pouco tempo, descobrimos que as métricas alternativas não só permitem descobrir novos tipos de impacto que um artigo pode ter, como popularidade, recomendação por especialistas, material de consulta e outros, como estão relacionadas e podem predizer a métrica mais tradicional e valorizada, as citações. 

Em fevereiro de 2016, foi publicada a primeira detecção das ondas gravitacionais em setembro do ano anterior pelos grupos Ligo e Virgo [1]. O artigo recebeu tanta atenção da mídia, entre menções em jornais, blogs, redes sociais, Wikipédia e demais, que fez a maior pontuação para o primeiro mês de um artigo na ferramenta Altmetric, que registra o impacto de artigos para além das citações [2]. Tanta atenção indicava ainda em março do mesmo ano que seria “um artigo digno de Nobel” [2]. A publicação ficou entre os três artigos mais discutidos do ano, segundo as métricas da Altmetric [3] e o achado realmente recebeu o prêmio Nobel de Física de 2017. Enquanto isso, pela métrica mais tradicional para artigos, as citações, essa atenção só começará a ser registrada pelo Fator de Impacto de 2017, a ser publicado no ano de 2018.

O desafio de medir o impacto de achados e de linhas de pesquisa, para guiar políticas, a submissão de artigos, a assinatura de periódicos e até premiações, é antigo. Em uma época onde não podíamos acompanhar o que cada um lia, Eugene Garfield propôs acompanhar quais os periódicos mais citados, ideia que acabou gerando o Journal Citation Reports [4]. Os dados passaram a ser computados para calcular uma métrica, o fator de impacto – FI (journal impact factor ou impact factor), calculado anualmente, que considera a média de citações feitas aos artigos de um periódico durante os dois anos anteriores. Dessa forma, o FI de 2017 é calculado com base nos artigos científicos publicados entre 2015 e 2016. O índice foi tão bem-sucedido que é estampado na página inicial de diversos periódicos e usado para mais do que nortear assinaturas. Frequentemente o FI é usado como um atalho na avaliação de pesquisadores, projetos de pesquisa, departamentos e a ciência em geral [5]. Não necessariamente da melhor forma [6,7].

Os problemas com o fator de impacto

O uso do FI, embora difundido, não é isento de crítica. A começar pelo fato de que o índice é calculado de forma opaca. Algo necessário, segundo os donos da tecnologia, para garantir que o índice não seja trapaceado por periódicos mal intencionados que se aproveitam de brechas para crescer seus índices sem necessariamente melhorar a qualidade do que é publicado [8]. Mas isso torna o índice irreplicável [9]. Enquanto citações aos artigos não são fortemente correlacionadas ao FI de periódicos [10], o número de artigos retratados é [11]. O que os autores do estudo atribuem à competição por publicação de alto impacto, criando conflitos éticos, e os editores dos periódicos atribuem à publicação de pesquisa inovadora e mais sujeita a enganos [12].

Controvérsias à parte, mesmo dentro do uso padrão do índice há críticas pertinentes. Por levar em conta citações feitas apenas nos últimos dois anos, o índice prejudica ou exclui áreas de pesquisa onde o ciclo entre a publicação de um artigo e suas citações acontece em intervalos mais longos [13], nas palavras do próprio idealizador [4]. Enquanto o total de citações que um artigo recebe, independente do periódico onde foi publicado, é um indicador muito mais sólido de qualidade de pesquisa [14]. Além disso, áreas de interesse menores podem ter publicações muito relevantes que mesmo assim não atingem altos fatores de impacto pelo volume menor de publicações [15]. Sem contar o uso indevido do FI para avaliar pesquisadores em áreas em que artigos em língua inglesa não são o principal meio de publicação ou produtividade.

Por fornecer uma escala numérica de fácil comparação, frequentemente o FI é extrapolado para a avaliação de artigos e de pesquisadores [16]. E mesmo nas áreas de pesquisa às quais o FI mais se aplica, quando ele é mal aplicado dessa forma, distorções podem acontecer. Isso se dá porque a distribuição de citações por artigos está longe da distribuição normal que instintivamente assumimos em muitos casos. A distribuição de citações se aproxima mais da distribuição de riqueza humana, onde muitos recebem pouco ou quase nada, enquanto poucos recebem muito [17,18]. Esse tipo de distribuição torna irrelevante a comparação entre periódicos de mesma área com índices altos. A diferença no índice de periódicos próximos pode acontecer graças a poucos artigos muito citados [19]. E também torna a interpretar um artigo publicado em um periódico de alto impacto como relevante, sem conferir suas citações, o equivalente a considerar alguém rico porque mora na mesma cidade que Bill Gates. Lariviere et al. [18] mostram como 75% dos artigos recebem menos citações do que o índice da revista onde foram publicados (ver Figura). E como mesmo revistas com FIs díspares possuem o mesmo tipo de distribuição de citações [18]. A avaliação de artigos e dos autores demanda métricas mais precisas, individualizadas e variadas. Que felizmente já estão disponíveis.

Que venham as métricas alternativas

Novos métodos de busca de artigos, leitura e indexação, bem como novos tipos de periódicos, criaram novas possibilidades de métricas {Galligan2013}. Como forma de refinar a avaliação do impacto da pesquisa, em 2009, a publisher PLoS (Public Library of Science) passou a medir e disponibilizar métricas individuais dos seus artigos [20]. Como número de acessos, número de downloads dos artigos, citações em diferentes bases e um tipo até então inédito de métricas: citações em blogs e compartilhamentos em redes sociais, que se tornaram mensuráveis com a popularização de redes sociais. Inicialmente chamadas de article-level metrics ou métricas por artigo [20], acabaram recebendo a denominação de altmetrics [21].

Ferramentas de organização e leitura
Programas como Mendeley, Papers, EndNote e Zotero são cada vez mais usados para indexação e organização de artigos. Além da geração de citações que popularizou muitos, eles ainda provém formas de catalogar artigos como lidos ou não lidos, marcação de texto e criação de notas, compartilhamento e sincronização de biblioteca entre computadores e membros de grupo de pesquisa. Além de gerarem métricas de quantos usuários adicionaram um artigo para leitura e quais são os artigos mais lidos e compartilhados.
F1000
A rede Faculty of 1000 ou F1000 se propõe a organizar milhares de pesquisadores de diversas áreas que indicam e classificam os artigos mais relevantes em sua área de expertise, como uma espécie de revisão pelos pares pós-publicação. Esse tipo de avaliação permite diferenciar, por exemplo, artigos que são muito citados por apresentarem resultados ruins, controversos ou mesmo errados. 

Esta nova indexação aberta e individual permitiu a publicação de um dos trabalhos seminais no uso de métricas alternativas, analisando as publicações no periódicos da PLoS entre 2003 e 2010 [22]. Onde Priem e colaboradores mostraram que apenas 50% dos artigos publicados nos periódicos da PLoS receberam pelo menos uma citação dentro da plataforma PubMed, enquanto o número de artigos adicionados em ferramentas de organização e leitura de artigos chegou a mais de 80% – o que reflete artigos sendo de fato visitados e salvos por pesquisadores para leitura posterior. Os autores ainda puderam classificar os artigos em cinco grupos com diferentes tipos de impacto:

(i) artigos lidos e citados: esta categoria, tradicionalmente medida e acompanhada através das citações, correspondeu a apenas 21% dos artigos publicados pela revista no período;
(ii) artigos bastante lidos mas pouco citados (20%);
(iii) artigos que receberam atenção popular ou da mídia, mas poucas citações (3%);
(iv) artigos recomendados por especialistas (conforme a indexação do site F1000) e;
(v) artigos sem métricas rastreadas (50%), publicações para as quais os autores não encontraram métricas que permitissem classificação.

Artigos muito lidos e pouco citados
A publicação How to choose a good scientific problem [23] ilustra bem como a categoria de publicações muito lidas mas pouco citadas pode incluir artigos importantes que seriam ignorados com a métrica tradicional de citações. O artigo discute como escolher um problema científico compatível com os diferentes estágios da carreira científica. Um assunto pertinente, mas pouco citável dentro da estrutura formal de publicações. E desde sua publicação em 2009 até pelo menos o ano de 2014, foi o artigo mais lido dentro da plataforma Mendeley, principalmente por alunos de doutorado [24].

Tipos de impacto que artigos podem receber e as métricas alternativas correspondentes. Adaptada de [25].

Público geral Público acadêmico
Recomendações Mídia em geral, comunidades de pacientes Review no Faculty of 1000, favoritos no GitHub
Citações ou aplicações Citações na Wikipédia Citações acadêmicas
Discussão Twitter, Facebook, menções em blogs Blogs acadêmicos, comentários de artigos, tuítes de pesquisadores
Material salvo Favoritos em redes sociais (Delicious) Organizadores de referências (Mendeley, CiteULike)
Visualizações Visualizações da página Downloads de PDFs, downloads de datasets

Junto da inclusão de novos tipos de impacto medidos, um dos achados de maior consequência foi a constatação de que diversas métricas também estão correlacionadas com citações. Entre as publicações da PLoS, artigos mais salvos em ferramentas de leitura também foram os mais citados [22]. Trabalhos posteriores com outras revistas e outras métricas também encontraram relações interessantes. Artigos citados como fonte dentro da Wikipédia são mais citados do que outros das suas áreas amostrados aleatoriamente [26], o que indica que a curadoria humana na produção da Wikipédia seleciona publicações mais relevantes.

Já na rede social Twitter, por ser tão dinâmica, se viu que os artigos mais compartilhados têm mais de 10 vezes mais chances de estarem entre os mais citados [27]. Vale ressaltar aqui o poder dessa relação. O tempo usual entre a publicação e citações é de meses a anos, dada a velocidade com que artigos são lidos e escritos. Enquanto a maior parte dos tuítes relevantes aconteceram ainda nos primeiros três dias depois de os artigos serem postados. Ou seja, uma métrica que acontece em um intervalo menor do que uma semana tem poder de predição de citações que acontecerão meses no futuro.

Em pouco tempo, descobrimos que as métricas alternativas não só permitem descobrir novos tipos de impacto que um artigo pode ter, como popularidade, recomendação por especialistas, material de consulta etc., como estão relacionadas e podem predizer a métrica mais tradicional e valorizada, as citações [28].

Essa associação entre métricas rápidas e citações futuras não passou despercebida pelas casas editoras. A Thomson Reuters, dona da plataforma EndNote, logo se viu acompanhada. Em pouco tempo o indexador de artigos Mendeley e a Plum Analytics, a companhia com o maior banco de artigos indexados, foram adquiridos pela Elsevier. Altmetric, a companhia que criou um dos símbolos mais icônicos associados a novas métricas, recebeu investimento da Springer-Nature e sua ferramenta foi adotada pela maioria dos periódicos.

Além disso, a Springer-Nature lançou seu próprio leitor de pdfs, o ReadCube – para não desperdiçar os dados de leitura, que afinal foram os melhores preditores de citações. As casas editoras e os periódicos caminham rapidamente para um futuro de otimização de publicações e citações orientado por dados e métricas.

O currículo de pesquisa 2.0

Além da possibilidade de avaliação do impacto da pesquisa ao nível de artigo, se abre o universo de avaliação de pesquisadores. Uma variedade de tipos de impacto que antes dependiam de uma avaliação subjetiva agora podem ser quantificados por métricas alternativas [29]. Publicações e pesquisadores de impacto público podem ser acompanhados por menções e compartilhamento de links em redes sociais, por citações na Wikipédia e menções em notícias de jornais. Áreas de pesquisa que produzem mais na forma de livros podem ser acompanhadas por ferramentas específicas para esse tipo de conteúdo, como a Altmetric oferece [30]. Publicações que geram políticas públicas agora são acompanhadas e metrificadas [31] – de maneira que publicações como muito do que foi publicado em língua portuguesa sobre microcefalia e ajudou a nortear o país na ação contra o zika vírus agora podem ser acompanhadas. Outra vantagem das métricas alternativas é que muitos dos dados são referenciados geograficamente, o que permite avaliar não só o impacto geral, mas como ele se divide entre impacto internacional ou de importância para o país.

Ferramentas de altmetrics

ImpactStory (profiles.impactstory.org) – Plataforma criada por uma fundação sem fins lucrativos para a construção de currículos virtuais com indexação de métricas alternativas.

Altmetric (altmetric.com) – Fundada em 2011, foi a plataforma que desenvolveu a ferramenta Altmetric Explorer, que gera um score e um ícone circular para cada artigo que é colorido com base no tipo e número de menções em diferentes plataformas. Possui ferramentas para bibliotecas, instituições de pesquisa e fomento à pesquisa.

Plum Analytics (plumanalytics.com) – Fundada em 2012, foi uma das pioneiras a acompanhar métricas por artigos. Possui ferramentas para instituições de pesquisa e fomento à pesquisa, além do maior banco de artigos, com 27 milhões de artigos indexados em março de 2017.

Caminhamos para um currículo vivo de pesquisadores, atualizado em tempo real e capaz de acompanhar diferentes formas de atuação de cientistas que se somam às publicações.

Além das métricas já citadas, ferramentas como a rede social acadêmica ResearchGate já avaliam a comparação das publicações e o “impacto” de pesquisadores de uma mesma instituição, embora de maneira opaca e bastante sujeita a críticas [32,33]. A integração futura de uma plataforma de compartilhamento de slides de aula, como o Slideshare, permitiria saber quais artigos são mais usados em aulas. Para pesquisadores, o ImpactStory oferece uma noção de como a plataforma Lattes poderia ser modernizada, com indexação não só dos artigos, mas do uso que eles recebem, com citações, compartilhamentos e outras métricas alternativas [34]. Incorporar o uso de redes sociais para encontrar e discutir pesquisa e se comunicar pode ser bastante produtivo [35]. Para universidades e agências de fomento, tanto a Plum Analytics quando a Altmetric oferecem ferramentas que permitem o cadastro e acompanhamento das mais diversas métricas de pesquisadores, áreas de pesquisa, de projetos temáticos com identificadores únicos, que podem embasar a tomada de decisões mais informadas [36]. No Brasil, com a plataforma Lattes, a integração de métricas alternativas de autores, publicações e instituições abriria possibilidades inéditas.

Toda métrica tem seus pontos fortes e fracos. Uma crítica frequente feita desde a proposta do fator de impacto é que as medidas podem ser trapaceadas [8] – não é à toa que a plataforma Lattes passou a exigir o identificador único DOI para acrescentar artigos. Por outro lado, quanto mais métricas são usadas em conjunto, mais difícil fica de trapacear de forma uniforme e coerente. Com métricas alternativas, não só podemos avaliar pesquisadores e publicações de forma mais completa e abrangente, como poderemos ir além da pesquisa e quantificar também o ensino e a extensão, levando em consideração o que propomos como o papel completo do docente.

Atila Iamarino é doutor em microbiologia e pós-doutor pela USP e por Yale. Hoje comunica ciência para milhões de pessoas pelo YouTube.

Referências

  1. Abbott B.P.; Abbott, R.; Abbott, T.D.; Abernathy, M.R.; Acernese, F.; Ackley, K., et al. “Observation of gravitational waves from a binary black hole merger”. Phys Rev Lett. American Physical Society; 2016;116: 688. doi:10.1103/PhysRevLett.116.061102
  2. Iamarino, A. “Métricas alternativas não são mais alternativas”. In: abecbrasil.org.br [Internet]. 11 Mar 2016 [cited 11 Mar 2016]. Available: https://www.abecbrasil.org.br/novo/2016/03/metricas-alternativas-nao-sao-mais-alternativas-2/
  3. Engineering A. Altmetric Top 100 2016. figshare. 2016. doi:10.6084/m9.figshare.c.3590951.v2
  4. Garfield, E. “The history and meaning of the journal impact factor”. JAMA. 2006;295: 90–93. doi:10.1001/jama.295.1.90
  5. Adam, D. “Citation analysis: The counting house”. Nature News. Nature Publishing Group; 2002;415: 726–729. doi:10.1038/415726a
  6. Brembs, B.; Button. K.; Munafò, M. “Deep impact: unintended consequences of journal rank”. Front Hum Neurosci. Frontiers; 2013;7. doi:10.3389/fnhum.2013.00291
  7. van Raan, A.F.J. “Fatal attraction: conceptual and methodological problems in the ranking of universities by bibliometric methods”. Scientometrics. Springer (Kluwer Academic Publishers); 2005;62: 133–143. doi:10.1007/s11192-005-0008-6
  8. Falagas, M.E.; Alexiou, V.G. “The top-ten in journal impact factor manipulation”. Arch Immunol Ther Exp. 2008;56: 223–226. doi:10.1007/s00005-008-0024-5
  9. Rossner, M.; Van Epps, H.; Hill, E. “Show me the data”. J Cell Biol. 2007;179: 1091–1092. doi:10.1083/jcb.200711140
  10. Lozano, G.A.; Larivière, V.; Gingras, Y. “The weakening relationship between the Impact Factor and papers’ citations in the digital age”. arXiv.org. 2012.
  11. Fang, F.C. Casadevall, A. “Retracted science and the retraction index”. Infection and Immunity. 2011;79: 3855–3859. doi:10.1128/IAI.05661-11
  12. “Why high-profile journals have more retractions”. Nature. 2014. doi:10.1038/nature.2014.15951
  13. Van Nierop, E. “Why do statistics journals have low impact factors?” Statistica Neerlandica. Blackwell Publishing Ltd; 2009;63: 52–62. doi:10.1111/j.1467-9574.2008.00408.x
  14. Wang, D.; Song, C.; Barabási, A-L. “Quantifying long-term scientific impact”. Science. 2013;342: 127–132. doi:10.1126/science.1237825
  15. Vanclay, J.K.; “Impact factor: outdated artefact or stepping-stone to journal certification?” Scientometrics. 2011;92: 211–238. doi:10.1007/s11192-011-0561-0
  16. Shanahan, D.R. “Auto-correlation of journal impact factor for consensus research reporting statements: a cohort study”. PeerJ. PeerJ, Inc; 2016;4: e1887. doi:10.7717/peerj.1887
  17. Seglen, P.O. “Why the impact factor of journals should not be used for evaluating research”. BMJ. 1997;314: 498–502. Available: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=2126010&tool=pmcentrez&rendertype=abstract
  18. Larivière, V.; Kiermer, V.; MacCallum, C.J.; McNutt, M.; Patterson, M.; Pulverer, B. et al. “A simple proposal for the publication of journal citation distributions”. bioRxiv. 2016. doi:10.1101/062109
  19. “Not-so-deep impact”. Nature News. Nature Publishing Group; 2005;435: 1003–1004. doi:10.1038/4351003b
  20. Neylon, C.; Wu, S. “Article-level metrics and the evolution of scientific impact”. Plos Biol. 2009;7: e1000242. doi:10.1371/journal.pbio.1000242
  21. Priem, J.; Taraborelli, D.; Groth, P.; Neylon, C. “Altmetrics: a manifesto”. In: altmetrics.org [Internet]. 26 Oct 2010 [cited 22 Oct 2017]. Available: http://altmetrics.org/manifesto/
  22. Priem, J.; Piwowar, H.A.; Hemminger, B.M. “Altmetrics in the wild: Using social media to explore scholarly impact [Internet]”. arXiv.org. 2012. Available: http://arxiv.org/abs/1203.4745
  23. Alon U. “How to choose a good scientific problem”. Molecular Cell. Elsevier Inc; 2009;35: 726–728. doi:10.1016/j.molcel.2009.09.013
  24. Habib, M. “Mendeley readership statistics available in Scopus”. In: blog.scopus.com [Internet]. 7 Mar 2014 [cited 22 Oct 2017]. Available: http://linkinghub.elsevier.com/retrieve/pii/S1097276509006418
  25. Konkiel, S., Piwowar, H., Priem, J. “The imperative for open altmetrics”. The Journal of Electronic Publishing. Michigan Publishing, University of Michigan Library; 2014;17. doi:10.3998/3336451.0017.301
  26. Evans, P.; Krauthammer, M. “Exploring the use of social media to measure journal article impact”. AMIA Annu Symp Proc. 2011;2011: 374–381. Available: http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3243242&tool=pmcentrez&rendertype=abstract
  27. Eysenbach, G. “Can tweets predict citations? Metrics of social impact based on Twitter and correlation with traditional metrics of scientific impact”. J Med Internet Res. 2011;13: e123. doi:10.2196/jmir.2012
  28. Costas, R.; Zahedi, Z.; Wouters, P. “Do “altmetrics” correlate with citations? Extensive comparison of altmetric indicators with citations from a multidisciplinary perspective”. J Assn Inf Sci Tec. 2015;66: 2003–2019. doi:10.1002/asi.23309
  29. Priem, J.; Groth, P.; Taraborelli, D. “The altmetrics collection”. Ouzounis CA, editor. PLoS ONE. Public Library of Science; 2012;7: e48753. doi:10.1371/journal.pone.0048753
  30. Liu, J. “The story behind altmetric for books”. Altmetriccom. 2016.
  31. Liu, J. “New source alert: policy documents”. Altmetriccom. 2014.
  32. Kraker, P.; Jordan, K.; Lex, E. “The ResearchGate score: a good example of a bad metric”. Impact of Social Sciences Blog. 2015. Available: http://blogs.lse.ac.uk/impactofsocialsciences/2015/12/09/the-researchgate-score-a-good-example-of-a-bad-metric/
  33. Orduna-Malea, E.; Martín-Martín, A.; Thelwall, M.; Delgado López-Cózar, E. “Do ResearchGate scores create ghost academic reputations?” Scientometrics. Springer Netherlands; 2017;112: 443–460. doi:10.1007/s11192-017-2396-9
  34. Lapinski, S.; Piwowar, H.; Priem, J. “Riding the crest of the altmetrics wave: how librarians can help prepare faculty for the next generation of research impact metrics”. crln. 2013;74: 292–300. doi:10.5860/crln.74.6.8960
  35. Bik, H.M.; Goldstein, M.C. “An introduction to social media for scientists”. Plos Biol. Public Library of Science; 2013;11: e1001535. doi:10.1371/journal.pbio.1001535
  36. Piwowar, H. “Altmetrics: value all research products”. Nature. 2013;493: 159. doi:10.1038/493159a