Published On: 2022/09/21Categories:

ユーザーの感情に適した対話システムを開発しているシステム開発企業に、チャットボット向けのコーパスを提供いたしました。1対話を1質問とそれに対する回答のセットと数え、5000対話を含むコーパスを作成しました。この教師データを利用し、お客様は日常会話に対応できるパーソナルAIを構築しました。

機械学習向けのテキストコーパスとは?

高精度の機械学習や自然言語処理のアルゴリズム構築するためには、高品質な教師データが必要となります。教師データセットとして使える、テキストや音声の言語データを「コーパス」と呼びます。海外で開発された技術を国内で導入する際には、入力データとそれに対する、期待される出力データの両方を日本語化しなければなりません。

AIアルゴリズムは教師データに基づいて、精度の高い結果を生成する方法を学びます。このような学習の結果、後に新しい日本語のインプットが提示されたときに、アルゴリズムが正確な判断を下すことができるのです。基本的に、教師データの質を高め、量を増やすと、アルゴリズムのパフォーマンスの精度と速さが向上します。教師データは、感情分析、自然言語処理、チャットボットなど、様々な機械学習アルゴリズムに利用することができます。