Um grupo de pesquisadores da Universidade da Califórnia, nos EUA, desenvolveu um sistema de inteligência artificial que é capaz de enganar sistemas de reconhecimento de voz. O objetivo da ferramenta é fazer softwares como o Google Assistente, Siri ou Alexa entenderem uma coisa quando, na verdade, o áudio sendo percebido por humanos é outro.

No momento, entretanto, os pesquisadores só conseguem fazer esse “ataque” funcionar em um sistema de reconhecimento de voz desenvolvido pela Mozilla, o DeepSpeech. Esta é uma plataforma experimental aberta, mas não é utilizada por nenhum dos assistentes digitais citados acima. Dessa forma, o ataque da equipe de desenvolvedores não consegue afetá-los. Ainda.

Nicholas Carlini e David Wagner, autores da pesquisa, acreditam que esta é apenas uma questão de tempo. Segundo eles, alguém poderia elaborar seu projeto de forma a atacar especificamente os assistentes dessas grandes empresas. Dessa forma, um hacker conseguiria forçar um assistente de um celular, de uma TV, de um alto-falante inteligente ou mesmo de um carro a realizar ações sem que os humanos em volta perceberem.

Nosso ataque funciona com 100% de sucesso, independente da transcrição desejada ou da frase original a sendo falada

“Dada qualquer onda sonora, nós podemos produzir outra que é 99,9% similar, mas que gera a transcrição de qualquer frase que nós desejamos… Nosso ataque funciona com 100% de sucesso, independente da transcrição desejada ou da frase original a sendo falada. Ao começar com uma onda arbitrária em vez de fala (como música), nós conseguimos embutir discurso em áudios que não deveriam ser reconhecidos como tal, e ao escolher silêncio como o alvo, conseguimos esconder áudio de um sistema de reconhecimento de voz”, dizem os pesquisadores em seu artigo científico completo sobre o tema.

Em outras palavras, os pesquisadores basicamente explicam que é possível esconder comandos de voz em outras formas de áudio, como uma música tocando no rádio, capaz de ativar assistentes inteligentes e requisitar comandos específicos sem humanos percebam o que está acontecendo.

Em um trabalho anterior, os mesmos pesquisadores usaram distorção de voz para conversar com o Google Now em um smartphone sem que o aparelho cometesse erros ao interpretar o discurso. Esses áudios, entretanto, são relativamente difíceis para um ser humano entender, caso não esteja prestando muita atenção. Confira a demonstração acima.

Cupons de desconto TecMundo: