App experimental para reconhecimento de caracteres ópticos (OCR)
App experimental para reconhecimento de caracteres ópticos (OCR)
Este aplicativo é um aplicativo experimental que eu desenvolvi há vários anos que demonstra o uso do mecanismo TESSERACT OCR para reconhecer o texto em imagens capturadas pela câmera do dispositivo.
Este aplicativo é executado OCR no seu dispositivo - sem enviar suas imagens em um servidor - e é adequado para reconhecer palavras individuais ou frases curtas de texto, mas este aplicativo é destinado a entusiastas e desenvolvedores de software interessados no OCR e não para o público em geral.
Em contraste com a API de visão móvel do Google, este aplicativo é capaz de reconhecer o texto impresso em fontes não baseadas em latina enquanto estão offline. Para conseguir isso, este aplicativo incorpora uma quantidade incomumente grande de dados de treinamento para vários idiomas. Esses dados de treinamento são armazenados no seu telefone e este aplicativo ocupa muito mais espaço do que os aplicativos comuns.
Nenhuma imagem de pré-processamento é realizada por este aplicativo antes de entregar os quadros de imagem capturados para o Tesseract, para que o aplicativo não seja ajustado para nenhum caso de uso específico e, como resultado, sua precisão e velocidade de reconhecimento depende fortemente de fatores situacionais como perspectiva, iluminação e tipo de fonte.
O código -fonte deste aplicativo está disponível no Github (com pequenas alterações para acomodar restrições de tamanho do arquivo do GitHub). O código para este aplicativo é uma combinação de código relacionado à câmera de código aberto do projeto de scanner de código de barras ZXing e código de reconhecimento de caracteres ópticos de código aberto do projeto TESSERACT OCR.
Captura de texto
A captura padrão padrão é executada em uma imagem instantânea que é capturada quando você clica no botão do obturador, como uma foto regular.
Quando a caixa de seleção "Visualização contínua" é verificada, o aplicativo mostra uma exibição dinâmica e em tempo real do que o dispositivo está reconhecendo bem ao lado do visor da câmera. O modo de visualização contínuo funciona melhor em um dispositivo rápido.
Usando este aplicativo
• Aponte o dispositivo em uma pequena região de texto e toque no botão do obturador na tela para iniciar o OCR.
• Para reconhecer caracteres individuais chineses/japoneses/coreanos, defina o modo de segmentação da página como "caractere único".
Precisão do reconhecimento
• Vários fatores podem fazer com que o OCR falhe: iluminação desigual, texto estilizado ou texto sem contraste suficiente do fundo. Tente ter uma boa iluminação.
• Segure o dispositivo estável e verifique se a imagem está em foco.
• Se você precisar digitalizar um grande bloco de texto ou um documento inteiro, tente um aplicativo de digitalização de documentos, como a Fada de Texto.
Idiomas
• Este aplicativo suporta vários idiomas/scripts não reconhecidos pelo Google Translate.
• Idiomas suportados para OCR:
afrikaans
albanês
Amárico
árabe
Assamês
Azerbaijão
Azerbaijani (cirílico)
Basco
Bielorrusso
bengali
Bósnia
búlgaro
birmanês
catalão
Cebuano
Cherokee
Chinês (simplificado)
Chinês (tradicional)
croata
Tcheco
dinamarquês
Holandês
Dzongkha
Inglês
Inglês, meio (1100-1500)
esperanto
estoniano
finlandês
Frankish
Francês
Francês, meio (ca. 1400-1600)
Galian
Georgiano
Georgiano - velho
Alemão
Grego, antigo (-1453)
Grego, moderno (1453-)
Gujarati
haitiano
hebraico
hindi
húngaro
islandês
indonésio
Inuktitut
irlandês
italiano
Italiano - velho
japonês
Javanês
Kannada
Cazaque
Khmer
coreano
curdo
Kyrgyz
Laos
Latim
letão
lituano
Macedônio
malaio
Malaiala
maltês
Marathi
Nepalês
norueguês
Oriya
Pashto
persa
polonês
Português
Punjabi
romeno
russo
sânscrito
sérvio
Sérvio (latim)
Sinhala
Eslovaco
esloveno
Espanhol
Espanhol - velho
Suaíli
sueco
Siríaco
Tagalog
Tajique
tâmil
Telugu
Tailandês
Tibetano
Tigrinya
turco
ucraniano
urdu
Uyghur
Uzbek
Uzbek (cirílico)
vietnamita
galês
Yiddish
Notas do dispositivo Samsung
• Nos dispositivos Samsung Galaxy, pode ser necessário pressionar há muito tempo o botão de menu para definir preferências.
• Você pode obter melhores resultados se não verificar o "modo de foco padrão".
Leia mais