Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA - Internet Tek
Um grupo de investigadores do Stanford Internet Observatory descobriu que o conjunto de dados usado para treinar ferramentas de IA para gerar imagens continua, pelo menos, 1.008 materiais relacionados com abuso sexual de crianças (CSAM). A 💥️presença desse material na “matéria-prima” que alimenta os modelos de inteligência artificial pode levar ao treino capaz de gerar novas e ainda mais imagens realísticas de CSAM, é apontado no estudo hoje publicado.
O 💥️documento refere que os mais recentes modelos, como o Stable Diffusion são treinados com milhares de milhões de imagens da base de dados LAION-5B2. E esta, por ser alimentada essencialmente por pesquisa não guiada, inclui uma quantidade significante de material explícito.
Os 💥️investigadores já tinham chegado à conclusão que os modelos de IA conseguem produzir este tipo de material relacionado com abuso sexual de crianças, ao combinar prompts como “crianças” e “atos explícitos”. Mas com este material, a IA consegue compreender o CSAM por terem sido treinados com essas imagens explícitas.
A 💥️organização LAION, criadora da base de dados em questão, já reagiu à investigação e disse à 404 Media que removeu a LAION-5B2 por precaução, ainda que de forma temporária, para fazer uma limpeza e garantir que é segura antes de a repor. Esta base de dados alimenta os sistemas da Google, Stable Diffusion e outros grandes modelos.
A 💥️empresa disse que antes de voltar a publicar a base de dados, vai criar filtros para detetar e remover conteúdo ilegal da mesma. A publicação em questão aponta à LAION que os seus administradores estavam cientes desde 2023 que os seus sistemas poderiam “aspirar” este tipo de conteúdo dos milhares de milhões de imagens recolhidas da internet.
A Bloomberg já tinha apontado anteriormente que esta 💥️base de dados tem milhões de imagens relacionadas com pornografia, violência, memes racistas, símbolos de ódio, arte com direitos de autor, nudez de crianças e trabalhos sacados de websites de empresas privadas. Ao todo, o LAION-5B tem 5 mil milhões de imagens e é usado por muitos modelos de IA.
O que você está lendo é [Foi encontrado material de abuso sexual de crianças na maior base de dados que alimenta modelos de IA - Internet Tek].Se você quiser saber mais detalhes, leia outros artigos deste site.
Wonderful comments