Sabe aquelas letrinhas aleatórias e irritantes que você precisa digitar ao enviar formulários ou fazer compras na internet? A elas damos o nome de CAPTCHAS. Teoricamente, elas existem para que o site em questão se certifique de que você é um humano. Mas a utilidade dessas letrinhas pode ir muito além.

Luis Von Ahn, professor do Departamento de Ciências da Computação da Universidade de Carnegie Mellon, nos Estados Unidos e um dos criadores do sistema CAPTCHA, resolveu expandir a utilidade do sistema e usá-la para uma causa nobre: a digitalização do conhecimento.

Em uma palestra do TED, Von Ahn explica que aproximadamente 200 mil CAPTCHAS são decodificados todos os dias. Levando em consideração que o tempo gasto para ler e digitar as letras é de 10 segundos, em média, os internautas gastam 500 mil horas todos os dias com essas letrinhas.

Para evitar o desperdício de tanto tempo, Von Ahn teve uma brilhante ideia: por que não essa força de trabalho gratuita para realizar atividades que o computador não é capaz de fazer com qualidade?

Cuidado com as traças

A Amazon, o Google e tantas outras empresas têm uma empreitada em comum: digitalizar livros antigos e salvar das traças e da ação do tempo o conhecimento neles contido.

O processo é bastante simples: o livro é escaneado e, a partir disso, é obtida uma imagem, como a de uma câmera digital. Em seguida, essa imagem passa por um processo chamado OCR, capaz de transformar a imagem de uma letra em um caracter reconhecido pelo sistema.

Aí é que surge o problema: o computador nem sempre é capaz de reconhecer todas as palavras – muitas delas manchadas ou com a leitura prejudicada devido ao estado do livro. O professor afirma que cerca de 30% de todas as palavras em um livro digitalizado não são reconhecidas de forma apropriada. E você foi selecionado para ajudar!AmpliarDocumento escaneado (1), após o processo OCR (2) e depois dos ajustes do reCAPTCHA (3) (Fonte da imagem: Google/Reprodução)

A partir disso, começou o projeto reCAPTCHA, que consiste em utilizar o método dos CAPTCHAS para auxiliar no reconhecimento dessas palavras que não foram compreendidas com exatidão pelo software. Ou seja, enquanto você apenas tenta provar que é humano, está, na verdade, ajudando a digitalizar milhares de livros antigos.

Como funciona

No reCAPTCHA, o usuário precisa digitar sempre duas palavras. Uma delas já é uma velha conhecida do sistema e é ela que vai provar se você é ou não humano. Já a outra é uma das milhões de palavras que não foram reconhecidas durante a digitalização de um livro – e tanto faz se você escrevê-la corretamente ou não. Vale lembrar que as duas palavras são sempre misturadas, portanto, não há como saber bem ao certo qual delas tem a função de validar e qual é a palavra para ajudar a digitalização.

 (Fonte da imagem: reCAPTCHA/Reprodução)

No fim das contas, não importa se você errar a palavra a ser decifrada para a digitalização dos livros. No entanto, a grafia que vários usuários deram para uma mesma palavra é armazenada em um banco de dados e, caso dez usuários tenham escrito da mesma forma aquilo que o computador foi incapaz de decifrar, ponto para a salvação do conhecimento! A palavra é então adicionada ao livro em sua grafia “correta”.

O projeto reCAPTCHA envolve hoje mais de 300 mil websites, como o Facebook e o Twitter, e já contou com a colaboração – mesmo que inconsciente – de aproximadamente 750 milhões de pessoas.

.....

Dá até um certo alívio pensar que, ao digitar um CAPTCHA, você não está apenas perdendo tempo, mas ajudando a manter vivo o conhecimento contido nos livros.  

Cupons de desconto TecMundo: