目次

OCR(光学式文字認識 )とは?

OCR(光学式文字認識)は、機械に画像から文字データを読み取らせるテクノロジーのことを示します。書類にOCR処理を施せば、含まれるテキストデータが完全に編集可能となります。OCRは私たちの日常生活で様々な場面で使われております。例えば、ビジネス書類のデータ入力や車のナンバープレートを自動的に認識する監視カメラなどはOCRを活用しています。

機械学習による文字認識OCRについて

機械学習による文字認識システムの機器では筆順、角速度、線の方向などが入力時にわかるので文字を認識することがが容易です。また、ユーザー側も徐々に認識されやすい文字を書くようになる傾向があります。(しかしもちろん、紙に書かれた手書き文字認識の場合はこの利点はありません。)

メールを打ってて読めない漢字を見つけたとき、辞書をひき、部首や画数から調べる手間を掛けず、手書き入力できるOCRアプリを活用できます。

文字認識・OCRデータセット

  • 米国国立標準技術研究所: 米国国立標準技術研究所が3600人の手書き文字を収集。800,000字以上の画像が含まれる。

  • デーヴァナーガリー文字: デーヴァナーガリーの手書き文字のデータセット。デーヴァナーガリーを母国語とする25人から、36種類の文字のサンプルを合計1800個収集。
  • 数式: 101個以上の数学的記号を含む10,000個以上の数式。
  • 中国語の文字: 約10件のニュース記事に相当する909,818枚の画像を含む中国語の手書き文字のデータセット。

  • アラビア語の活字: 113,284語の語彙を含む。10種類のアラビア文字フォントを使用。

  • 資料データベース: 189人による手書きのオンライン文書を941点収集。リスト、表、数式、略図、図面を含む。

  • Iam On-line Handwriting: ホワイトボードに手書きされた英語のテキストを1700点以上含む。

  • ストリートビューテキスト: Googleのストリートビューから主に街中の標識やボードを収集。

  • ストリートビュー・ハウスナンバー: Googleのストリートビューから住居番号を収集。0から9までの数字を73257個含む。

  • 自然環境OCR: 実世界にあるものの画像659枚と5238個のテキストアノテーションを含む。

  • シーン・テキスト: 異なる照明条件 (晴れた日、夜、強い人工の光など) で室外、室内など様々な環境で撮影された3000枚の画像を含む。

  • テキスト検出: ポケットカメラで撮影された500枚の自然画像。室内画像は主に、掲示、ドアプレート、注意プレートであり、屋外画像は主にガイドボードやビルボードである。

  • スタンフォードOCR: 話し言葉のシステムを研究するMITのグループが収集した手書き文字のデータセットをスタンフォード大学が公表したもの。

  • Chars74Kデータ: 英語とカンナダ語の数字の画像を74,000枚含む。

  • 日本古典籍くずし字データセット: 2019年11月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字です。

MNISTデータセット

MNISTデータセット(米国標準技術研究所による手書き数字データベース)は機械学習用の定番データセットの一つとされています。サイズが小さく、使いやすいこともあって、しばしば、データサイエンティストが最初に取り組むデータセットになっています。また、多くの人が、異なる機械学習アルゴリズムの比較や性能テストに利用しています。

このデータセットには、トレーニング用手書き数字の画像60,000個とテスト用画像10,000個が含まれています。また、この機械学習用ベンチマークに触発され、同様の形式で作成されたデータセットもあります。以下のリストのデータセットは、元のMNISTデータセットと同じ形式を使用しており、多くがMNISTデータセットと完全互換できるように作成されています。

MNISTデータセットの再フォーマット、拡張、改良

  • EMNIST: 拡張MNIST(EMNIST)は元の手書き文字データセットNISTから作成された六つのデータセットから構成される。MNISTは手書き数字だけを含むデータセットだが、EMNISTはNISTデータベースの手書き文字の部分に同じ変換プロセスを用いている。

  • JPG形式のMNIST: タイトルが示すとおり、元のデータセットを再フォーマットしたデータセット。文字列形式の代わりにJPEG形式を用いた画像ファイル。

  • CSV形式のMNIST: MNISTをよりアクセスしやすいCSV形式のファイルに再フォーマットしたデータセット。

MNISTデータセットに触発された機械学習用データセット

  • 3D MNIST: 3次元コンピュータビジョンの問題に取り組む人にリソースを提供することを目的として作成されたデータセット。MNISTの画像から3次元点群を生成して作成され、5000個のトレーニング用点群と1000個のテスト用点群が含まれる。
  • ファッションMNIST: ザランド(Zalando)の商品カタログから収集した衣類やアクセサリーの画像が含まれるザランド研究所のデータセット。MNISTの形式に従っているので、トレーニング用画像60,000個とテスト用画像10,000個から構成され、画像は全て28×28ピクセルのグレースケール。各画像には次のアノテーションのうち、どれか一つが付けられている: アンクルブーツ、バッグ、コート、ドレス、プルオーバー、サンダル、シャツ、スニーカー、Tシャツ/トップス、ズボン

  • 手話MNIST: 手話認識モデルの学習用に、MNISTの完全互換として作成されたデータセット。元のMNISTの形式と厳密に一致しており、上記のファッションMNISTに触発されて作成されている。

  • 大腸組織学MNIST: Zenodo.orgから収集した医用画像データセット。大腸癌の組織画像5,000個以上が含まれる。

  • 皮膚癌MNIST: 皮膚病変のダーモスコピー画像10,015個が含まれる医用画像データセット。「ISIC 2018チャレンジ: メラノーマ検出に向けた皮膚病変の分析」用に作成された。

元のMNISTデータベースの詳細およびデータセットへのアクセスについては、作成者ウェブサイトをご覧ください。光学文字認識と手書き文字の詳細やデータセットについては、以下の関連記事をご覧ください。

以前の記事を読み逃している方は是非、 機械学習に使えるオープンデータセットや自然言語処理に使えるデータセットもご覧ください。

OCR向けデータセットをお探しですか?

お探しのデータセットが見つからない場合は、当社が作成いたします。お客様のニーズに合わせたデータの収集やアノテーションサービスを提供しています。無料見積もり・お問い合わせはこちらから。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中