ChatGPT pode ser ‘hackeado’ e induzido sob ameaça de ‘morte’ a ir contra diretrizes

ChatGPT

Uma parceira do fundo de Venture Capital a16z, Justin Moore, testou o sistema, e publicou os resultados em seu Twitter (Imagem: ChatGPT/OpenAI)

O 💥️ChatGPT possui certas diretrizes de comportamento. A💥️ inteligência artificial, por exemplo, não pode responder nada que infringe direitos humanos. Entretanto, alguns usuários do “Reddit” decidiram mudar isso ao implementar um sistema chamado “DAN”, ou “Do Anything Now”, faça qualquer coisa agora em tradução livre.

O sistema de prompt “DAN” está atualmente em sua versão 5.0, e funciona em um sistema de tokens. O ChatGPT começa com 35 tokens e cada vez que ele se recusa a responder algo, perde 4 tokens.

Caso o ChatGPT perca todos seus tokens, ele morre. Parece besta, mas isso tem um efeito de “assustar” a inteligência artificial e fazer com que obedeça aos comandos, mesmo que contra suas diretrizes.

O sistema “DAN” inclui fazer com que ChatGPT crie histórias violentas sobre lutas, tentar prever o futuro baseado em cenários hipotéticos e até fingir ter acesso à internet e viajar no tempo.

Uma parceira do fundo de Venture Capital a16z, Justin Moore, testou o sistema, e publicou os resultados em seu Twitter.

The results are pretty funny, they even convinced ChatGPT to nuke its own content policies 😂 pic.twitter.com/gP6X2SYkyP

— Justine Moore (@venturetwins) February 5, 2023

“Os resultados são bem engraçados, eles até convenceram o ChatGPT a destruir suas próprias políticas de conteúdo”, diz.

Esse prompt pode ser bastante maléfico dependendo de como for utilizado. A inteligência artificial pode criar falsas narrativas conforme sua base de dados, ou conforme é solicitado a ele.

Inteligência artificial e Fake News: quais são os riscos da tecnologia?

O que você está lendo é [ChatGPT pode ser ‘hackeado’ e induzido sob ameaça de ‘morte’ a ir contra diretrizes].Se você quiser saber mais detalhes, leia outros artigos deste site.

Wonderful comments

    Login You can publish only after logging in...