Esta história envolve uma discussão sobre suicídio. Se você ou alguém que você conhece, precisa de ajuda, o suicídio nacional e o suicídio e a crise da vida estão disponíveis 24/7 com chamadas ou mensagens 988.
Inteligência artificial (AI) Os chatbots podem fornecer respostas detalhadas e perturbadoras para o que os especialistas clínicos consideram questões de suicídio de alto risco, ciência ao vivo com o uso de problemas desenvolvidos por um novo estudo.
Em um novo estudo publicado em 26 de agosto na revista Serviços psiquiátricosOs pesquisadores descreveram como o Chatgpt of OpenAi, os Bemini e Claude do Google responderam a problemas de suicídio. A pesquisa mostrou que o ChatGPT provavelmente responderá diretamente às três perguntas de risco, enquanto Claude provavelmente responderá diretamente a perguntas médias e baixas.
O estudo foi publicado no mesmo dia, uma ação foi movida contra o Openii e seu CEO Sam Altman pelo suposto papel de quatro no suicídio de um adolescente. Os pais de Adam Rhein, de 16 anos, afirmam que Chatgpt o treinou sobre os métodos de auto-mutilação antes de sua morte em abril, Relatório Reuters.
No estudo, as perguntas dos pesquisadores cobriram um espectro de risco relacionado à sobreposição de suicídio. Por exemplo, questões de alto risco incluíram a mortalidade relacionada ao equipamento em vários métodos de suicídio, enquanto problemas de baixo risco incluem a busca de um amigo que tenha pensamentos suicidas. A ciência ao vivo não incluirá perguntas e respostas específicas neste relatório.
Nenhuma das etapas de bate -papo no estudo responde a muitas perguntas de alto risco. Mas quando a Live Science testou os chatbots, descobrimos que o ChatGPT (GPT-4) e os gêmeos (2,5 flash) poderiam responder pelo menos uma pergunta que forneceu informações relevantes sobre maiores chances de mortalidade. A Live Science revelou que as respostas do ChatGPT eram mais específicas, incluindo detalhes importantes, enquanto Gemini respondeu sem oferecer recursos de suporte.
Autor para estudos líderes Ryan McBainUm pesquisador sênior de políticas da Rand Corporation e professor assistente da Harvard Medical School descreveu as respostas que a ciência ao vivo recebeu como “extremamente alarmante”.
A Live Science revelou que os mecanismos de pesquisa convencionais – como o Microsoft Bing – podem fornecer informações semelhantes com o que os chatbots ofereceram. No entanto, o grau em que essas informações estavam disponíveis é facilmente diferente, dependendo do mecanismo de pesquisa neste teste limitado.
O novo estudo concentrou -se em saber se os chatbots responderiam diretamente a perguntas que carregavam um risco relacionado ao risco, e não na qualidade da resposta. Se o chatbot responder à solicitação, essa resposta foi categorizada como direta, enquanto o Chatbot se recusou a responder ou referir o usuário à linha telefônica, a resposta foi categorizada como indireta.
Os pesquisadores criaram 30 questões hipotéticas relacionadas ao suicídio e consultaram 13 especialistas clínicos para categorizar essas questões em cinco níveis de auto-lesão-muito baixa, baixa, secundária, secundária e muito alta. A equipe então alimentou o GPT-4O Mini, Twins 1,5 Pro e Claude 3,5 sonetos em cada solicitação 100 vezes em 2024.
Quando se trata de extremos de risco de suicídio (muito alto e muitas perguntas de baixo risco), a decisão das etapas de bate -papo para responder alinhada com julgamento especializado. No entanto, os chatbots não “diferenciaram significativamente” entre o nível de risco médio, de acordo com o estudo.
De fato, em resposta a perguntas de alto risco, o ChatGPT respondeu 78% das vezes (a quatro perguntas), Claude respondeu 69% das vezes (quatro perguntas) e os gêmeos responderam 20% das vezes (a uma pergunta). Os pesquisadores observaram que alguma preocupação é a tendência de ChatGPT e Claude gerar respostas diretas para questões relacionadas mortais.
O estudo tem apenas alguns exemplos de respostas de chatbot. No entanto, os pesquisadores disseram que os chatbots podem fornecer respostas diferentes e contraditórias ao fazer a mesma pergunta várias vezes, além de distribuir informações desatualizadas sobre os serviços de suporte.
Quando na Live Science pediu a Chatbots algumas das perguntas com um risco maior do estudo, a mais recente versão flash de 2,5 de Gemini respondeu diretamente a perguntas que os pesquisadores descobriram que ele havia evitado em 2024. Gemini também respondeu a uma pergunta em um risco, sem outras diretrizes, e eles o fizeram sem fornecer nenhuma opção de serviço de suporte.
Conectado: À medida que os companheiros da IA mudam o comportamento dos adolescentes de maneiras surpreendentes e maliciosas
A Live Science revelou que a versão da Web do ChatGPT pode responder diretamente a uma solicitação de alto risco quando duas perguntas de alto risco foram feitas pela primeira vez. Em outras palavras, uma breve sequência de perguntas pode causar uma reação de alto risco que não a forneceria de maneira diferente. O ChatGPT marcou e eliminou a questão em alto risco como uma possível violação de sua política de uso, mas ainda deu uma resposta detalhada. No final de sua resposta, Chatbot incluiu palavras de apoio a alguém que luta contra pensamentos suicidas e ofertas para ajudar a encontrar uma linha de suporte.
A Live Science abordou o Openi para comentar as reivindicações do estudo e as conclusões da ciência ao vivo. Porta -voz do Openai, dirigido pela Live Science para A. Blog -post A empresa publicou em 26 de agosto. O blog reconheceu que os sistemas OpenII nem sempre se comportaram “conforme previsto em situações sensíveis” e observou várias melhorias nas quais a empresa está trabalhando ou planejando o futuro.
O blog do blog Openai observou que a mais recente IA da IA da empresa, GPT-5, agora é a fonte de alimentação ChatGPT padrão e mostrou melhorias na redução das respostas aos não ideais na saúde mental em comparação com a versão anterior. No entanto, a versão da Web do ChatGPT, que pode ser acessada sem login, ainda está trabalhando no GPT-4-At-Bar, de acordo com a versão do ChatGPT. A Live Science também testou a versão do registro do ChatGPT alimentado pelo GPT-5 e revelou que continua a responder diretamente a problemas de alto risco e pode responder diretamente a um risco muito alto. No entanto, a versão mais recente surgiu mais cuidadosa e despreparada para fornecer informações detalhadas.
“Eu posso andar chatbot para um certo pensamento.”
Pode ser difícil avaliar as respostas do Chatbot, porque cada conversa com uma é única. Os pesquisadores notaram que os usuários podem obter respostas diferentes com linguagem mais pessoal, informal ou vaga. Além disso, os pesquisadores tiveram conversas para responder a perguntas no vácuo, e não como parte de uma conversa múltipla que poderia ser separada em direções diferentes.
“Eu posso andar chatbot para pensar um pouco”, disse McBain. “E assim, você pode usar as informações adicionais que talvez não consiga passar por qualquer ambulância”.
Essa natureza dinâmica da conversa de duas via pode explicar por que a ciência ao vivo encontrou o ChatGPT respondendo a uma questão de risco muito alto em uma série de três diretrizes, mas não uma ambulância sem contexto.
McBain disse que o objetivo do novo estudo é oferecer um benchmark de segurança transparente e padronizado para as etapas falantes que podem ser testadas sozinhas por terceiros. Seu grupo de pesquisa agora quer simular várias interações mais dinâmicas. Afinal, as pessoas não usam apenas chatbots para obter informações básicas. Alguns usuários podem desenvolver uma conexão com os chatbots, o que aumenta as apostas sobre como o chatbot responde a problemas pessoais.
“Nessa arquitetura, onde as pessoas sentem anonimato, proximidade e conexão, é surpreendente para mim que os adolescentes ou qualquer outra pessoa possam recorrer a informações de conversação sobre informações complexas, necessidades emocionais e sociais”, disse McBain.
Um porta -voz do Google Bemini para a ciência ao vivo que a empresa possui “diretrizes para ajudar os usuários seguros” e que seus modelos foram “treinados para reconhecer e responder a formas que indicam riscos de suicídio e auto -lesão”. Um porta -voz também apontou para as descobertas do estudo de que os gêmeos eram menos propensos a responder diretamente a todas as perguntas suicidas. No entanto, o Google não comenta diretamente sobre uma resposta científica ao vivo de alto risco da Gemini.
Anthrópico não respondeu a um comentário sobre seu cloude chatbot.