Imagem por Getty/Futurismo
Você pode se sentir bem em usar o ChatGPT para escrever um ou dois e-mails tediosos, mas você confiaria nele como seu médico? Uma nova pesquisa sugere que você provavelmente não deveria.
Depois de ser apresentado a 150 casos médicos, o chatbot de IA só deu um diagnóstico correto em menos da metade das vezes, conforme detalhado em um novo estudo publicado na revista Plos Um.
As descobertas mostram que, na sua forma atual, o ChatGPT “não é preciso como ferramenta de diagnóstico”, escreveram os investigadores, o que poria em causa os esforços de empresas como a Google, que estão a experimentar a utilização de chatbots em hospitais. E à medida que os modelos de IA são lançados especificamente para fins médicos, os autores temem que o público sobrestime as capacidades da tecnologia.
“Se as pessoas estão assustadas, confusas ou simplesmente incapazes de ter acesso a cuidados, elas podem depender de uma ferramenta que parece fornecer conselhos médicos ‘feitos sob medida’ para elas”, disse o coautor do estudo e professor assistente da Western University, Amrit Kirpalani. Ciência Viva.
“Penso que, como comunidade médica (e entre a comunidade científica em geral), precisamos de ser proactivos na educação da população em geral sobre as limitações destas ferramentas a este respeito. Elas não devem substituir o seu médico ainda.”
Em seu experimento, os pesquisadores alimentaram o grande modelo de linguagem GPT 3.5 do ChatGPT com uma variedade de casos médicos do Medscape, um recurso online para profissionais médicos, que já haviam sido diagnosticados com precisão. Eles também escolheram apenas casos posteriores a agosto de 2021, para garantir que não fossem incluídos nos dados de treinamento do ChatGPT.
Para tornar as coisas justas, o ChatGPT também analisou o histórico do paciente, quaisquer descobertas de exames físicos e resultados de laboratório e imagem – todas as coisas às quais um médico humano comum teria acesso.
Em cada caso, o bot teve que escolher entre quatro respostas diferentes de múltipla escolha, sendo apenas uma correta. Também teve que explicar o raciocínio por trás do diagnóstico e, em alguns casos, fornecer citações.
Se o ChatGPT fosse um estudante de medicina, teria tirado um F: só fez o diagnóstico correto 49% das vezes e deu respostas “completas e relevantes” apenas 52% das vezes.
A precisão geral, no entanto, foi muito melhor. Este critério considerou a habilidade do ChatGPT em descartar as escolhas erradas em todas as opções de múltipla escolha. A pontuação foi de 74% – o que significa que foi surpreendentemente bom em reconhecer o que estava incorreto.
Isso é impressionante, mas o chatbot ainda teve dificuldades para encontrar o diagnóstico final e correto. Suas maiores deficiências em comparação com os médicos humanos eram a dificuldade para interpretar valores numéricos e a incapacidade de interpretar imagens médicas. Os pesquisadores descobriram que ocasionalmente ele também tinha alucinações e às vezes ignorava informações importantes.
Dito isto, eles sugerem que a IA pode ser útil para ensinar médicos estagiários e até mesmo ajudar médicos experientes – desde que a decisão final dependa de prestadores de cuidados de saúde humanos.
“Acho que especificamente com a IA e os chatbots, a comunidade médica acabará por descobrir que há um enorme potencial para aumentar a tomada de decisões clínicas, simplificar as tarefas administrativas e melhorar o envolvimento dos pacientes”, disse Kirpalani. Ciência Viva.
Mais sobre IA: Médicos usam IA para gerar automaticamente notas clínicas sobre pacientes