Como converter imagens digitalizadas em texto com programas OCR

Aprenda a transformar o conteúdo de uma imagem digital em um texto editável.
  • Visualizações133.625 visualizações
Por Ana Paula Pereira em 25 de Fevereiro de 2011

Normalmente, quando um documento é digitalizado (como por um scanner), ele é armazenado no computador em formato de imagem. Muitas vezes, quando você digitaliza um texto, certamente o faz para poder utilizá-lo posteriormente, inclusive fazendo anotações, copiando trechos ou efetuando quaisquer outras alterações necessárias.

O grande problema nisso é que uma imagem não é editável. O mesmo ocorre com arquivos no formato PDF, que também não permitem a cópia de texto. Para auxiliar os usuários na resolução destes problemas, existe uma tecnologia adotada por alguns programas chamada de OCR.

OCR, do inglês Optical Character Recognition (Reconhecimento Ótico de Caracteres), é um método aplicado de maneira a permitir que o conteúdo escrito em um documento no formato de imagem seja reconhecido e transformado em um arquivo de texto editável.

Grande parte dos programas que fazem isso funcionam como serviços online e seu funcionamento envolve apenas três processos simples: localizar o arquivo em seu computador, efetuar o upload da imagem e escolher o idioma do texto presente no documento. O restante costuma ficar por conta do aplicativo.

Conforme o aplicativo utilizado, os resultados podem tanto ser disponibilizados na própria página do serviço quanto haver a possibilidade de se efetuar o download para o computador. Abaixo, o Baixaki listou alguns programas OCR, cujo modo de funcionamento envolve o processo simples citado.

NewOCR

O NewOCR é um serviço online que aplica a técnica de conversão de imagens em texto. Ele suporta os formatos JPEG, PNG, GIF, BMP, TIFF e PDF. O processo é simples, envolvendo a localização do documento em seu computador, seguida do upload do arquivo para o site do aplicativo. Para obter melhores resultados, não se esqueça de definir o idioma do conteúdo.

carregando arquivo

O serviço permite converter arquivos com até 5MB de tamanho para imagens e 20 MB para PDFs. Adicionalmente, ele suporta o idioma português. A conversão é feita em poucos instantes e os resultados são bons, com poucos erros de reconhecimento. Os principais problemas de encontrados estão relacionados aos acentos e caracteres especiais.

Online OCR

Logo do serviçoO Online OCR também funciona inteiramente a partir do navegador e conta com dois modos de operação. Você pode se registrar no serviço e obter créditos para converter arquivos (no ato do registro de uma nova conta, você ganha cinco créditos) ou utilizá-lo como convidado (“Guest mode”), sem criar um usuário.

Na segunda modalidade, você pode efetuar a conversão de 15 arquivos por hora. Um dos diferenciais do serviço é a quantidade de formatos disponíveis para o novo arquivo (PDF, XLS, HTML, DOC, RTF e TXT) em detrimento da grande maioria, que só permite a conversão para documento de texto (TXT).

O processo requer que você aperte alguns botões a mais, pois há um para encontrar a imagem no computador, um segundo para o upload e outro para o reconhecimento do texto. O programa permite que você carregue arquivos com até 4 MB de tamanho e oferece suporte para o idioma português.

Página de reconhecimento

Os resultados da conversão são satisfatórios e, este parece ser o serviço que faz o melhor reconhecimento, pois apresentou um número menor de erros. Por vezes, ele oculta termos com hífen, substituindo-os apenas pelo sinal de -.

Free Online OCR

O Free Online OCR também é uma opção gratuita para a conversão de seus arquivos, embora talvez ele seja o serviço com o maior número de limitações. O tamanho do arquivo não pode ser maior do que 2 MB e a largura e a altura máximas são de 5000 pixels. Adicionalmente, você pode fazer o upload de dez imagens por hora.

Imagem da página inicial do serviço

Os formatos suportados são PDF, JPG, GIF e TIFF, porém em arquivos PDF, ele só interpreta o conteúdo da primeira página. O processo de conversão é rápido e há a possibilidade de escolha do idioma português. O principal problema de reconhecimento observado é a troca de RM por MW (em todas as palavras) pelo programa.

OCR Convert

O OCR Convert talvez seja a alternativa mais “simples” de todas as apresentadas. Ele suporta, como formatos de entrada, apenas PDF, JPG e JPEG. Não há uma especificação precisa quanto ao tamanho máximo do arquivo a ser carregado ou quantas imagens podem ser convertidas por dia (ou hora).

OCR Convert

A conversão também ocorre em um período curto de tempo. O serviço conta com o idioma português em sua lista de reconhecimento e faz a conversão de imagens com texto em nossa língua. A precisão pode ser afetada conforme o tamanho do texto e o maior problema identificado foi a troca de 0 (zero) pela letra O.

Agora você já conhece alguns programas que podem ajudá-lo a transformar uma imagem em texto. Esperamos que isso facilite na próxima vez em que escanear um documento que precisa de alteração, ou quiser editar um arquivo PDF. O tamanho máximo dos arquivos para a conversão é de 5 MB.

Leitor colaborador: J. s. fernandes(joelson)



Viu algum erro ou gostaria de adicionar uma sugestão para atualizarmos esta matéria?
Colabore com o autor clicando aqui!