ホーム応用営業所

光学キャラクター認識のための実験アプリ(OCR)

光学キャラクター認識のための実験アプリ(OCR)

このアプリは、数年前に開発した実験アプリで、テッセラクトOCRエンジンの使用を実証して、デバイスカメラでキャプチャされた画像のテキストを認識しています。

このアプリは、画像をサーバーにアップロードせずにデバイスでOCRを実行し、個々の単語やテキストの短いフレーズを認識するのに適していますが、このアプリは一般的な聴衆ではなくOCRに関心のある愛好家やソフトウェア開発者を対象としています。

GoogleのモバイルビジョンAPIとは対照的に、このアプリは、オフライン中に非ラチンベースのフォントで印刷されたテキストを認識できます。これを達成するために、このアプリには、いくつかの言語の異常に大量のトレーニングデータが組み込まれています。このトレーニングデータは携帯電話に保存されており、このアプリは通常のアプリよりもはるかに多くのスペースを占めています。

キャプチャされた画像フレームをTesseractに配ってからこのアプリによって実行される画像の前処理はありません。そのため、アプリは特定のユースケースに合わせて調整されず、その結果、その認識の精度と速度は、視点のような状況要因に大きく依存しています。照明、フォントタイプ。

このアプリのソースコードは、GitHubで利用できます(GitHubファイルサイズの制限に対応するためにマイナーな変更があります)。このアプリのコードは、Zxingバーコードスキャナープロジェクトのオープンソースカメラ関連のコードと、Tesseract OCRプロジェクトのオープンソース光学文字認識コードの組み合わせです。

テキストキャプチャ

デフォルトのシングルショットキャプチャは、通常の写真のようにシャッターボタンをクリックするとキャプチャされたスナップショット画像でOCRを実行します。

「連続プレビュー」チェックボックスがチェックされると、アプリには、カメラビューファインダーのすぐ横にあるデバイスが認識しているものの動的でリアルタイムの表示が表示されます。連続プレビューモードは、高速デバイスで最適に機能します。

このアプリを使用します

•デバイスをテキストの小さな領域に向け、画面上のシャッターボタンにタッチしてOCRを開始します。

•個々の中国語/日本/韓国語のキャラクターを認識するには、ページセグメンテーションモードを「シングルキャラクター」に設定します。

認識精度

•さまざまな要因により、OCRが失敗する可能性があります:背景から十分なコントラストなしに、不均一な照明、様式化されたテキスト、またはテキスト。良い照明をしてみてください。

•デバイスを安定させ、写真が焦点を合わせていることを確認してください。

•テキストの大きなブロックまたはドキュメント全体をスキャンする必要がある場合は、代わりにテキストフェアリーなどのドキュメントスキャンアプリを試してください。

言語

•このアプリは、Google Translateで認識されていないいくつかの言語/スクリプトをサポートしています。

•OCRのサポート言語:

アフリカーンス

アルバニア語

アムハラ語

アラビア語

アッサム

アゼルバイジャン

アゼルバイジャン(キリル語)

バスク

ベラルーシ人

ベンガル語

ボスニア人

ブルガリア

ビルマ

カタロニア

セブアノ

チェロキー

中国語(簡素化)

中国語(伝統)

クロアチア語

チェコ

デンマーク語

オランダ語

dzongkha

英語

英語、ミドル(1100-1500)

エスペラント

エストニアン

フィンランド語

フランク

フランス語

フランス語、ミドル(約1400-1600)

ガリシア語

ジョージアン

ジョージアン - 古い

ドイツ語

ギリシャ語、古代(-1453)

ギリシャ語、モダン(1453-)

グジャラート語

ハイチ人

ヘブライ語

ヒンディー語

ハンガリー

アイスランド語

インドネシア語

inuktitut

アイルランド

イタリア語

イタリア語 - 古い

日本語

Javanese

カンナダ

カザフ

クメール

韓国語

クルド

キルギス

ラオス

ラテン

ラトビアン

リトアニアン

マケドニア語

マレー

マラヤーラム語

マルタ

マラーティー

ネパール

ノルウェー語

オリヤ

パシュ

ペルシャ語

研磨

ポルトガル語

パンジャブ

ルーマニア人

ロシア

サンスクリット

セルビア人

セルビア人(ラテン語)

シンハラ

スロバキア

スロベニア人

スペイン語

スペイン語 - 古い

スワヒリ

スウェーデン語

シリア

タガログ

タジク

タミル語

テルグ語

タイ

チベット

ティグリニャ

トルコ語

ウクライナ人

ウルドゥー語

uyghur

ウズベック

ウズベック(キリル語)

ベトナム人

ウェールズ

イディッシュ語

Samsungデバイスノート

•Samsung Galaxy Devicesでは、メニューボタンを長時間押して設定を設定する必要がある場合があります。

•「標準フォーカスモード」のチェックを外すと、より良い結果が得られる場合があります。

最新バージョン0.6.0の新しいもの

2017年8月24日に新しいバージョン0.6.0(2017年8月13日)に更新されました。
•実行時に個別にダウンロードする代わりに、すべてのトレーニングデータを拡張ファイルにパッケージ化しました。
•47の新しいスクリプトのOCRサポートを追加しました。
•Tesseract v3.05を使用するようにアップグレードされました。
•アプリ内翻訳をGoogle翻訳にリンクするボタンに置​​き換えました。
•認識されたテキストを長時間押し出すことに代わるものとしてコピーボタンを追加しました。
•Google Playサービスが必要になりました。
•Android 2.3+が必要になりました。

続きを読む

プレビュー

ユーザーが見たもの

すべて見る

おすすめ

すべて見る

類似のゲームをもっと見る

すべて見る

その他のレベル ゲーム

すべて見る