[機械学習] 教師あり・教師なし学習の違いを説明

こんにちは。

最近、機械学習を勉強し始めました。完全に独学なのでアウトプットとして、記事をちょこちょこ書いていきます。

そもそも機械学習とは

人工知能分野で著名なアーサー・サミュエルは、「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」

と定義しています。

機械学習と一概に言っても、下の図のように分類されています。

この記事では、赤ワクで示されている言葉の定義を説明します。

教師あり学習

もともと正解とラベリングされたデータセットから機械が学習し、アウトプットを出す。

  • 過去50年間の作物収穫量データを使って、来年の作物収穫量を予測する。(回帰問題)

この例をとると、過去50年間の正解データが存在しています。それらのデータを使って機械が50年間の収穫量を学習し、来年の収穫量を予想します。

教師あり学習は、回帰・分類という2つのグループに分けることができます。

回帰

連続するデータ予測を行い、具体的な数値を出力値としてだす。

  • ある企業の過去の株価データから、明日の株価を予測する

主なアルゴリズム

線形回帰

分類

与えられたクラスに分類する。

  • ある花が、パンジー or バラ かを 0, 1のカテゴリに分類する
  • 午後5時に雨が降るかどうかをカテゴリに分類する

教師なし学習

与えられたデータセット(正解データは無い)から、クラスタリングする。

これは、与えられたデータ間の関係に元ずいてクラスタリングされる。

以下のような手法があります。

クラスタリング

データセットをいくつかの塊にグループ分けする。

絶対的な正解はない。

  • 顧客データ(性別・年齢)を使って、顧客をグルーピングする。

これは、与えられたデータの類似度や規則性を元にグルーピングします。

まとめ

事前に正解データを付与されていれば、教師あり学習。

正解データがなくて、与えられたデータだけで学習して何らかの規則性などを見つけるのが教師なし学習。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA