A detecção automática de textos produzidos pela IA generativa é atualmente muito difícil. Os softwares de detecção estão se tornando cada vez mais eficientes, mas os modelos de IA generativa também se desenvolvem na aplicação de estratégias de paráfrase e “humanização” dos textos, o que dificulta a detecção automática. Portanto, está em jogo uma relação de forças extrema e desigual, que corre o risco de se repetir constantemente, dificultando o fornecimento de ferramentas eficazes de detecção automática aos professores.
Por Mônica Macedo-Rouet
People primarily depend on others for ideas as well as for information outside the range of direct experience. Much of what they think of the world is what they have gained second-hand. (Wilson, 1983)
A geração de conhecimentos científicos é um processo complexo, no qual novas ideias surgem de trabalhos anteriores aos quais cada pesquisador faz referência. Todo artigo científico comporta citações a fontes que confirmam, contradizem ou colocam em perspectiva os resultados de um novo estudo. No entanto, esse processo não é óbvio para muitas pessoas. Ele é mesmo objeto de uma aprendizagem explícita pelos estudantes universitários durante sua formação acadêmica. O advento da inteligência artificial (IA) generativa teve um impacto importante nesse processo, borrando as fronteiras entre os discursos, tornando difícil muitas vezes a identificação das fontes de informação.
Há mais de vinte anos leio os trabalhos acadêmicos de alunos de graduação e de pós-graduação. Este ano, como muitos professores, constatei um aumento maciço do número de trabalhos que continham passagens inteiras estilisticamente próximas dos textos produzidos pela inteligência artificial (IA) generativa. Passei muitas horas examinando os relatórios do programa Compilatio (uma ferramenta inicialmente concebida para combater o plágio, gradualmente adaptada à IA), verificando a autenticidade das referências bibliográficas, pesquisando online e, às vezes, até mesmo em livros impressos, para saber se meus alunos haviam redigido seus próprios textos.
Entre os casos suspeitos, detectei citações a autores e referências bibliográficas impossíveis de encontrar na Internet ou na biblioteca universitária. Tais ocorrências, conhecidas como “alucinações”, justificavam plenamente um pedido de explicações a meus alunos. Suas respostas me deixaram perplexa. Embora a maioria tenha reconhecido o uso da IA, eles não viam qual era o problema em questão. Todos me enviaram cópias dos artigos que haviam “lido” e “tratado” no âmbito de seus trabalhos. Eles justificaram o uso da IA generativa como uma forma de “reformular [suas] ideias”, “estruturar [seus] textos”, “melhorar a sintaxe”, “ilustrar as ideias de cada autor”, “ganhar tempo ao invés de voltar a consultar cada artigo” ou ainda “constituir sua lista de referências bibliográficas”. Tudo isso lhes parecia perfeitamente normal e aceitável. Mais sério ainda, quando perguntei por que o nome de um autor ou o título de uma revista citados em seu texto eram diferentes daqueles que constavam na primeira página do artigo enviado, todos deram de ombros.
O papel das fontes nos escritos científicos e nos textos gerados pela IA
A atitude dos alunos, uma mistura de surpresa (possivelmente fingida) e frustração, vem, na minha opinião, da revolução trazida pela IA generativa ao estatuto das fontes de informação nos textos.
Em um texto científico, a fonte corresponde ao conjunto de parâmetros que informam o leitor sobre a origem da informação, tais como o autor, a data de publicação ou o meio de comunicação. Ela fornece indicações sobre a afiliação institucional e disciplinar de um autor, o processo editorial prévio à publicação de uma informação e outros indícios que permitem interpretar as declarações e avaliar a sua fiabilidade. No entanto, se os pesquisadores se baseiam constantemente nesses critérios para avaliar a credibilidade de um texto, isso é objeto de um processo de aprendizagem para os estudantes. Em um artigo pioneiro sobre o assunto, Samuel Wineburg comparou o raciocínio de historiadores e alunos do último ano do ensino médio sobre um conjunto de documentos relativos a um evento histórico controverso. A credibilidade das fontes de informação foi o primeiro critério utilizado pelos historiadores para avaliar a relevância de um documento, enquanto para os alunos do ensino médio o mais importante era o conteúdo e a legibilidade dos textos. Esses resultados foram replicados em vários estudos posteriormente.
Nos textos gerados pela IA, o papel das fontes é significativamente diferente. Na base dessa tecnologia, existe um corpus gigantesco de fontes que permite que modelos estatísticos de linguagem aprendam e gerem textos coerentes e provavelmente semelhantes aos textos produzidos por humanos. Mas as fontes servem apenas como “input” durante o treinamento e não são utilizadas como critério explícito de confiabilidade na geração de uma resposta. O modelo prevê a sequência mais provável de um texto, palavra por palavra, de acordo com as regularidades aprendidas, sem avaliar a veracidade da informação em relação a documentos autenticados.
Assim, podemos nos deparar com um texto gerado pela IA perfeitamente coerente, mas mesmo assim incorreto. Mesmo quando se pede ao ChatGPT para resumir um artigo científico, é necessário verificar se as informações correspondem às do artigo original. Sem uma verificação meticulosa dos textos produzidos pela IA, há o risco de reprodução de informações imprecisas ou incorretas e de atribuição de certas ideias a autores falsos, o que constitui uma fraude passível de sanções.
Não citar as fontes (corretamente) é passível de sanções
Os estudantes não necessariamente têm a impressão de estar trapaceando quando usam a IA como auxílio na redação, pois os textos gerados pela IA não constituem plágio no sentido estrito da palavra. Na França, o Ministério do Ensino Superior e da Pesquisa se pronunciou sobre esse assunto em uma resposta à pergunta de um senador em 2023:
“A indicação das fontes é uma obrigação jurídica, acadêmica e ética. Do ponto de vista acadêmico, em particular, ela deve permitir avaliar o valor pedagógico do trabalho original realizado pelo seu autor. Não mencionar as fontes para se apropriar de um trabalho realizado por outra pessoa ou por uma IA constitui, consequentemente, uma fraude passível de ser processada e sancionada, para os usuários do ensino superior, em aplicação das disposições dos artigos R. 811-1 e seguintes do Código da Educação.”
Em suma, não citar as fontes de acordo com as normas da escrita científica é um ato que pode ter consequências graves para a formação de um estudante, sem mencionar o fato de que a simples cópia de um texto produzido pela IA não garante o aprendizado. Pois este requer um tratamento cognitivo profundo da informação por parte do aluno e não simplesmente a cópia de um texto.
Infelizmente, essas normas são ensinadas de forma muito breve ou superficial — quando são ensinadas — nos cursos de metodologia de pesquisa na universidade.
Melhorar a detecção de textos produzidos pela IA : uma possível contribuição dos divulgadores científicos
A detecção automática de textos produzidos pela IA generativa é atualmente muito difícil. Os softwares de detecção estão se tornando cada vez mais eficientes, mas os modelos de IA generativa também se desenvolvem na aplicação de estratégias de paráfrase e “humanização” dos textos, o que dificulta a detecção automática. Portanto, está em jogo uma relação de forças extrema e desigual, que corre o risco de se repetir constantemente, dificultando o fornecimento de ferramentas eficazes de detecção automática aos professores.
Para melhorar a detecção de textos gerados por IA, um estudo ainda não publicado, depositado na plataforma ArXiv, propõe recorrer a profissionais da comunicação conhecedores do “estilo da IA”. Os pesquisadores observaram que tais especialistas são capazes de usar vários critérios de avaliação de maneira flexível: vocabulário típico da IA, presença de estruturas sintáticas e documentais estereotipadas, ausência de erros ortográficos e gramaticais, entre outros. Esses resultados precisam, obviamente, ser confirmados por uma publicação e replicados. No entanto, eles sugerem que pode ser útil associar divulgadores científicos que conheçam profundamente as normas de redação científica e o estilo dos textos produzidos por IA à reflexão sobre usos da IA em trabalhos acadêmicos.
Formar os estudantes à avaliação das fontes de informação
Além do aspecto puramente de “detecção”, é necessário explicitar os conhecimentos sobre a estrutura e a retórica dos textos gerados pela IA, com o objetivo de integrá-los no ensino.
A IA pode ajudar professores e alunos em muitas tarefas, mas não pode substituir completamente o julgamento humano. O uso ético da IA não se resume a proibir certos processos ou a promover as competências técnicas dos alunos e professores (por exemplo, “Como fazer um bom prompt?”). Vai além dos aspectos normativos e técnicos e inclui questões de epistemologia, conhecimentos documentais e metacognição indispensáveis a qualquer pesquisa.
Tenho a convicção de que é importante termos discussões mais abertas com os alunos sobre os usos da IA nos trabalhos acadêmicos. Temos que discutir com eles a melhor maneira de tirar proveito dessa tecnologia poderosa sem renunciar aos princípios éticos da ciência e às nossas ambições de formação intelectual dos alunos. Seria um debate em nome do conhecimento, da aprendizagem e da verdade, um debate de que a universidade e a democracia tanto precisam.
Mônica Macedo-Rouet é professora de psicologia da educação, CY Cergy Paris Université, France. Editora da revista ComCiência (1996-2002).
- Parte deste artigo foi publicada no site The Conversation – France.