目次

皆さん、こんにちは。第3次AIブームを伴い、AI民主化に貢献するためにプログラミングやコンーディングの知識があまりなくても使える、機械学習ツールは最近増えていますね。今回は、機械学習や自然言語処理に便利なツールを紹介していきます。ぜひ、研究開発にご活用ください。

機械学習ツール

  • Azure Machine Learning: 豊富に用意されているアルゴリズムのライブラリを利用して、予測ソリューションを迅速にデプロイできるサービスで、コーディングを行わない利用者でも扱える点が特徴です。
  • DataRobot: データの収集、保存、変換と予測モデリングのための学習データの準備などに使える機械学習ツールです。エンタープライズAIプラットフォームは、データサイエンスを民主化し、大規模な環境で AI を構築、デプロイ、メンテナンスするためのプロセス全体を自動化できます。
  • Jubatus: 「分散したデータ」を「常に素早く」「深く分析」することを狙った分散基盤技術です。オンライン機械学習ライブラリで、多値分類、線形回帰、推薦(近傍探索)、グラフマイニング、異常検知、クラスタリングなどに対応可能。データの前処理や特徴抽出もできます。

自然言語処理ツール

自然言語処理とは、人間の言葉を理解し、適切なアクションや返事を、ユーザーが理解できる言語で反応する技術の総称です。やはり英語から始まり、最近では、日本語に対応可能な自然言語処理ツールも出てきてます。

  • MatrixFlow: プログラミング不要でAIを構築できる、クラウド型プラットフォームです。他のツールと違い、ディープラーニングのアルゴリズムと数値のアルゴリズムの両方が揃っています。日本語テキストや画像にも対応可能。
  • GiNZA: 自然言語処理ツールの一つで、ワンステップでの導入、高速・高精度な解析処理、単語依存構造解析レベルの国際化対応などの特長を備えた日本語自然言語処理オープンソースライブラリです。最先端の機械学習技術を取り入れた自然言語処理ライブラリ「spaCy」をフレームワークとして利用している。
  • Stanford CoreNLP: Stanford大学で作られた、自然言語処理ツールを含めたライブラリ。 英語、中国語など主要な言語をサポートしていますが、残念ながら日本語は対応していません。

テキスト抽出ツール

テキスト抽出ツールは、裏でAI-OCRが活躍しているものが多くみられます。テキストを書き写す手間を削減してくれるため、業務効率化にも繋がり、今後のデジタル社会で導入されることを期待したいところですね。

  • Adobe Scan: アドビシステムズ株式会社(Adobe)が開発した、OCR機能に特化したアプリケーションです。スマートフォンやタブレットに搭載されているカメラ機能を使い、撮影した画像データから文字を認識します。
  • Online OCR: 46ヶ国の言語に対応して画像からテキストを抽出することができる無料のオンラインOCRツールです。現在、登録なしの状態で、15MBまでなら以下の形式の単一ファイルを読み込むことができます。PDF、GIF、PNG、JPEG、TIFなど、様々なファイルタイプに対応可能。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中