Internet

YouTube: legendas erradas têm linguagem adulta em vídeos infantis

Por falha no reconhecimento de voz no YouTube, palavras como 'estupro' e 'pornografia' aparecem em clipes para crianças

Avatar do(a) autor(a): Nilton Cesar Monastier Kleina

25/02/2022, às 08:30

YouTube: legendas erradas têm linguagem adulta em vídeos infantis

Fonte:  GitHub 

Imagem de YouTube: legendas erradas têm linguagem adulta em vídeos infantis no tecmundo

O algoritmo do YouTube que faz o reconhecimento de voz do que é falado no vídeo e transforma o conteúdo automaticamente em legendas possui falhas graves e perigosas em clipes voltados para crianças.

Uma pesquisa realizada por três cientistas de origem indiana e que será apresentada na conferência de Inteligência Artificial AAAI 2022, mostrou como o sistema de "closed captions" da plataforma de vídeos comete alguns erros e exibe palavras adultas em vídeos que têm como foco o público infantil.

Um exemplo de transcrição errada e automática.Um exemplo de transcrição errada e automática.

A pesquisa envolveu mais de 7 mil vídeos de 24 canais de alta repercussão entre o público infantil, incluindo os fenômenos "Rob the Robot - Learning Videos For Children" e "Ryan’s World". Segundo o estudo, 1,3 mil palavras "tabu" foram identificadas, incluindo xingamentos, enquanto 1% dos vídeos tinha termos "altamente inapropriados".

Entre os exemplos, há momentos em que o sistema troca "corn" (milho, em inglês) por "porn" (que significa pornografia), ou até "brave" (a palavra valente) por "rape" (estuprar). Os termos "bitch", "penis" e "crap" também foram encontrados em alguns momentos.

Tem solução?

Os pesquisadores desenvolveram sistemas que corrigem as transcrições, mas essa automatização só conseguiu inserir a palavra certa em um terço dos casos.

Mais alguns exemplos de falha do algoritmo.Mais alguns exemplos de falha do algoritmo.

Segundo a revista Wired, que consultou uma linguista para comentar o caso, uma lista de termos bloqueados pode resolver facilmente o problema, mas o algoritmo também precisa ser retrabalhado para evitar identificar essas palavras em primeiro lugar.

O artigo completo (em inglês) pode ser conferido neste link.



Jornalista especializado em tecnologia, doutor em Comunicação (UFPR), pesquisador, roteirista e apresentador.