目次

主成分分析(PCA)とは

データセットの次元が多いと、機械学習において計算コストが高くなってしまい、データを可視化することが難しくなってしまいます。主成分分析(principal correlation analysis; PCA)とは、機械学習アルゴリズムの1つで、このような課題を解決してくれます。特徴量を抽出することによって、データセット内の次元削減を行う方法です。

3次元以下に次元削減を行えば、データセットの様子を可視化することができます。いろいろな主成分同士のプロットを見て、それぞれの主成分の角度を見ることで、データセットがどのような方向に分布しているのかが分かります。また、主成分を調べれば、隠し文の意味を推測することもできます。

さらに、主成分分析によって、データセットの中で外れ値を探すこともできます。主成分分析をした後に主成分のプロットを見たときに、離れているサンプルは、主成分分析前のサンプル同士も離れています。

主成分分析は、正準相関分析 (canonical correlation analysis; CCA) という、二つのデータセット間の相互共分散に基いて座標系を定める手法とも関連されいます。

主成分分析を実行するデータセット

主成分分析を実行するデータセットの例をいくつか上げていきます。主成分分析を行う前には、必ずデータの前処理を行いましょう。

アメダス: アメダス(AMeDAS)とは「Automated Meteorological Data Acquisition System」の略で、「地域気象観測システム」といいます。地域技との降水量、風向、風速、気温、日照時間などのデータが公開されています。アメダスの観測データを用いた主成分分析の具体例は、こちらを御覧ください。

The Complete Pokemon DatasetPokemonGO: 800種類のポケモンの身長、体重、CP、HP、などを含むデータセット。主成分分析を用いてポケモンの属性分布を可視化された具体例は、こちらを御覧ください。

CAESER: 4,600人の欧米人の身長と体重を含むデータセット。例えば、身長と体重をBMIと表し、2次元から1次元の次元削減するなどの分析ができます。

XLSTAT: 主成分分析のチュートリアルです。データセットは、米国国勢調査局からのもので、2000年と2001年の間の51州の人口の変化を記述しています。元のデータ集合は、分析の焦点である2001年のデータとの1000人の住民ごとの比率に変形されています。

トランシンクのAI学習データサービス

当社はAI学習データセット販売、収集、アノテーション、検証などのサービスを提供しております。どのようなAI開発プロジェクトでもしっかりと支援いたします。無料サンプルやご相談は、ご遠慮なくお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中