Como os celulares e computadores fazem para reconhecer a sua voz?

4 min de leitura
Imagem de: Como os celulares e computadores fazem para reconhecer a sua voz?

Como funciona o reconhecimento de voz (Fonte da imagem: iStock)

Atualmente, estamos cercados por programas que reconhecem comandos de voz para executar tarefas. Sejam atendimentos automáticos utilizados para direcioná-lo corretamente em uma chamada de suporte ou mesmo aplicativos de gerenciamento (em smartphones) ou softwares para transformar sons em texto no computador.

Essa tecnologia está cada vez mais comum e presente em vários itens no nosso dia a dia. Mas você sabe como as máquinas fazem para interpretar a voz humana e transformá-la em um comando? Embora possa parecer fácil, o procedimento é muito complexo e precisa de uma série de etapas para que venha a acontecer.

Para entender como ocorre a transformação da voz em um comando para uma máquina, vamos começar verificando quais são as categorias das aplicações que fazem tal reconhecimento.

Tipos de programas para reconhecer voz

Embora os sistemas modernos de reconhecimento de voz sejam capazes de interpretar um discurso contínuo, aqueles produzidos há mais de 10 anos possuíam a limitação entre reconhecer palavras e frases. Por isso, era necessário falar pausadamente, termo a termo para haver o reconhecimento correto do que foi pronunciado.

Basicamente, hoje, todas as aplicações que fazem o reconhecimento de voz são separadas em duas categorias. Uma delas engloba os programas do tipo “vocabulário limitado/muitos usuários”. Esses aplicativos são largamente utilizados nos atendimentos automáticos, compreendendo palavras-chave com diversas variações de padrão (como sotaques e regionalismos).

Esses sistemas são muito efetivos na compreensão do que foi dito pelas pessoas, mas possuem uso limitado a poucos comandos e alternativas, como opções básicas de um menu ou números. O outro tipo de aplicação é o de “vocabulário amplo/usuários limitados”. Nesse caso, o programa conta com um vocabulário de milhares de palavras e um grau de precisão de 85% ou superior no reconhecimento delas.

Embora ele possua um grau de precisão maior, ele é voltado para um número limitado de pessoas ou até mesmo apenas um indivíduo. Isso ocorre pelo fato de ser necessário “treinar” o aplicativo para trabalhar com determinado tom ou tipo de voz.

Transformando o texto em dados

Agora que você já sabe quais são as categorias de programas para transformar texto em comandos, vamos analisar como os mecanismos realizam essa conversão. Quando você fala, cria vibrações no ar, que podem ser medidas em ondas sonoras contínuas. O primeiro passo realizado pela máquina se trata do processo de gravar essas ondas.

Transformando ondas sonoras em dados (Fonte da imagem: iStock)

O computador, então, realiza essa gravação em etapas (gerando vários “pedaços”). O intervalo de frequência aplicado a uma medição varia, mas comumente são adotados dois tipos: com aproximadamente 8 mil medidas por segundo (digitalização a 8 kHz) ou 44.100 vezes por segundo (44 kHz). Quanto menor o intervalo, maior é a precisão do som captado.

Então, o Conversor Analógico para Digital (em uma tradução livre de Analog-to-Digital Converter) transforma essas ondas de som analógicas em digitais, de forma que possam ser compreendidas pelo computador.

Separando som e ruído

Em seguida, a máquina inicia o processo de “filtrar” o som, de forma a separar ruídos de fonemas. Aqui, são realizados vários procedimentos, como separar o áudio captado em frequências diferentes e fazer uma normalização (ou seja, deixar no mesmo nível de volume). Da mesma forma, as pessoas costumam falar em velocidades diferentes, e o computador precisa ajustar o som recebido para que esteja no mesmo tempo de pronúncia dos exemplos presentes no seu banco de dados.

Filtrando sons (Fonte da imagem: iStock)

Além disso, é realizada mais uma série de cálculos necessários para separar todos os ruídos presentes no ambiente da fala propriamente dita.

Descobrindo quais são as palavras

Filtrados os fonemas contidos em um áudio, agora o próximo passo para o computador é dividir o som em pedaços menores (alguns contendo centésimos ou até mesmo milésimos de segundo). Então, o programa pesquisa no seu banco de dados fonemas que sejam compatíveis com o idioma local e com a fala que foi gravada.

Porém, essa tarefa é um pouco mais complexa do que parece, pois, além de existirem aproximadamente 34 fonemas na língua portuguesa (ou 40 para a inglesa), eles podem variar conforme regionalismos e também pela conjunção de uma palavra. Da mesma forma, letras iguais possuem pronúncias diferentes, conforme o termo no qual elas se encontram.

Assim, o programa faz uma análise dos fonemas e seu contexto com os outros fonemas à sua volta, seguindo um modelo complexo para compará-los com as palavras presentes na sua biblioteca.

Montando as frases

Após reconhecer cada palavra no processo explicado acima, o próximo passo é montá-las em sequência, de maneira a produzir frases. O principal problema é que pode haver uma série de sequências que coincidam com o que foi dito pela pessoa. Assim, o trabalho da máquina é analisar essas cadeias e verificar aquelas que possuam um sentido.

Criar frases com sentido (Fonte da imagem: iStock)

Para isso, o sistema faz uma espécie de análise levando em conta o quão prováveis são as chances de cada uma das palavras compreendidas estarem posicionadas da maneira na qual foram compreendidas. Alguns modelos também verificam a dependência de cada termo da frase para confirmar se a sequência possui um sentido concreto.

Apresentando o resultado

No momento em que a máquina encontra a sequência que julga apropriada, está na hora de apresentar os resultados. Aqui, eles variam conforme o que você está utilizando; se for um smartphone, é realizada a tarefa solicitada, como efetuar uma ligação, mandar uma mensagem ou abrir o mecanismo de busca, por exemplo.

Caso seja um aplicativo de atendimento, você é direcionado para um setor responsável pela resolução do seu problema. Se você estiver utilizando um programa para transformar a voz em texto na tela, a sua frase aparece digitada no serviço em questão.

Agora você já sabe por quantas etapas um sistema de reconhecimento de voz precisa passar para realizar tarefas ditadas. Ainda assim, esses programas não estão livres de erros e eventualmente precisam ser ajustados ou aperfeiçoados. Certamente, ainda há muito para aprimorar na tecnologia, mesmo que ela já esteja em um bom nível de avanço.

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.