機械学習における「過学習」の原因と回避法を解説

過学習とは
過学習の原因と回避法

過学習とは

機械学習における過学習とは、訓練誤差は小さいにもかかわらず、汎化誤差（未知のデータを判定したときの誤差）が小さくならない状態をいいます。「オーバーフィッティング」や「過剰適合」とも呼びます。モデルが教師データセットにおけるパターンだけでなく、教師データそのものを学習しすぎてしまった状態です。過学習は、未知のデータを判定できない原因を作ってしまいます。

過学習の原因と回避法

AI（機械学習）を実装しようとする際に、過学習は誰もが直面する問題ですが、なぜ起きるのでしょうか。また、過学習を回避するためには、そのような分析手法があるのでしょうか。

過学習の原因はいくつか挙げられます。

1つ目は、重みの値が大きすぎることです。機械学習では、重みを小さい値に保つので、この場合は、汎化誤差を下げるために正則化（誤差パラメータのノルムによる正則化項を付け加えること）を使い、過学習を回避します。

正則化には、一部のパラメータの値を0にすることで、特徴選択を行う「L1正則化」と、パラメータの大きさに応じて0に近づけることで、汎化された滑らかなモデルを構築することができる「L2正則化」があります。L1やL2は、ノルム（移動距離）の種類のことをいいます。詳しくは、こちらの記事もご参照ください。

教師データの量が不十分でも過学習は起きます。画像を扱っている場合、データ拡張で比較的簡単にデータの不足を補うこともできます。大規模な機械学習プロジェクトの教師データでお困りの方は、当社の教師データ作成/アノテーションサービスについてお気軽にお問い合わせください。

他には、正則化（データの大きさを適切にスケーリングすること）やドロップアウト（ディープニューラルネットワークにおける、重みの更新の際に一定の割合でランダムに枝を無効化する手法）が過学習の回避法として挙げられます。サポートベクターマシン（SVM）の場合、特徴量の次元数が多いなら、カーネル法を使用することによって回避することも可能です。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構（NICT）では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

・・・全文を読む

無料

機械学習用
音声コーパス

・・・リストを見る

YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中

ホーム

データセット

プロジェクト事例

文章分類の活用事例

機械翻訳の品質評価

アラビア語音声データ

テキストコーパス作成

ピックアッププロジェクト

アラビア語音声データセット

データセット

多言語、多地域

テキスト、画像、音声、動画

過学習とは

過学習の原因と回避法

アラビア語音声コーパス

料金・価格、データサンプル等のお問合わせ

03-6697-4400

03-6697-4400

エッセンシャルクッキー