Inside of data science
データサイエンスに纏わる様々な視点を発信しています

トピック

機械学習が分かるノート① 機械学習とは?

画像参照元:http://vas3k.com/blog/machine_learning/

 

本記事をご覧になっている方は統計学やデータサイエンスに何らかしら興味をお持ちであるか、既に多かれ少なかれ知識を持っている方がほとんどかと思います。

「機械学習」という言葉も聞いたことはあると思いますが、機械学習とは一体何なのかとなると説明出来ない人もいるのではないでしょうか。

本記事では3回にわけて「機械学習」と一言でまとめられている言葉が指しているものは何なのか、具体的にどういったものが機械学習と呼ばれているかについて、AIやディープラーニングといった混同されがちな言葉との違いなどにも触れつつ、解説していきたいと思います。

機械学習に必要な3つの要素

機械学習には欠かせない構成要素が3つあります。

 

1.データ

機械学習は既にあるデータを機械が学習し、それを元に未知のデータの分類や予測を行うため、まずは充分な量のデータ(学習データ)がなくては始まりません。

もしそのためのデータが手元になければ、まずはデータを収集する必要があります。大量のデータさえ手元に集まれば良いという訳ではなく、機械が学習しやすいように・より精度が高くでるように、データを整える=前処理することも重要です。

 

2.特徴量(特徴量変数)

特徴量という言葉はあまり耳慣れないかもしれませんが、これは機械学習で分類や予測を行う際に、データのどの部分が結果に影響を及ぼしているかを表す言葉です。準備したデータの中に機械学習の精度を上げるために重要な特徴量が含まれている必要があるのは当然ですが、特徴量が多すぎるとそれがノイズとなり精度を下げる結果となるため「特徴量選択」といって分類や予測に必要のない特徴量を取り除くことも重要になってきます。

 

3.アルゴリズム

機械学習と呼ばれるアルゴリズムは多数あり、目的や求める精度、パフォーマンスなどによって最適なアルゴリズムは異なるため、状況や目的に合わせたアルゴリズムを選択する事が望まれます。

ですが、ガベージイン – ガベージアウトという言葉があるように、利用するデータ自体が目的に合ったもでのなかったり、利用するデータが学習データとして不十分な場合には最良のアルゴリズムであっても満足のいくような結果が得られない事もあります。

つまりこの3つの要素は独立した3要素ではなく、それぞれが互いに影響しあっています。
また、この3つの繋がり・関連性は機械学習以外でも非常に密接な関連があり、その関わり合いを図で示すと下記のようになります。

参照元:http://vas3k.com/blog/machine_learning/

機械学習で理解しておくべき4つのキーワード

1.AI:AI(Artificial Intelligence 人工知能)という言葉はここ数年のバズワードとなっており至るところで耳にします。実際のところ厳密な定義はなく専門家の間でもAI(人工知能)とは何かという問いに対する答えは様々ですが、人間の脳(知能)の働きやふるまいをコンピュータ上に再現すること、もしくはその技術の事を指しているという言い方で一般的に使用されているAI(人工知能)という言葉の意味は概ね包括出来るかと思います。

 

2.機械学習:機械学習とは、データを入力値として、機械に学習をさせ予測や分類・識別などをするアルゴリズム全般のことを指します。機械学習では、学習データを使用し機械がパターンや分類を学習し、未知のデータに対しても予測や分類・識別を行うため、AIを代表する技術となっています。
機械学習はAIを代表する技術ではあるのですが、あくまでもAIの一構成要素でありAI=機械学習ではありません。

 

3.ニューラルネットワーク:ニューラルネットワークは機械学習のうちの一種(数理モデル)です。機械学習には数多くの手法が多く存在しており、ニューラルネットワークはそのうちの一つに過ぎません。
ですが、脳が情報処理するネットワークの仕組みの一部を単純化しコンピュータ上に再現したモデルであり、人工知能・機械学習の中で現在最も注目を集めている領域です。

 

4.ディープラーニング:ディープラーニングはニューラルネットワークの処理のうちの中間層(隠れ層)を多層にすることによって、より複雑な処理や判断が出来る手法です。人工知能という言葉がこの数年で非常に流行しているのは、2012年に行なわれた画像認識コンテストで優勝したカナダのチームが、ディープラーニングを用いてこれまでよりも圧倒的に少ない学習データで高精度の結果を出した事に端を発しています。
これにより、ディープラーニングという技術に注目が集まり、世界中で積極的に研究・開発が進み、ディープラーニングを用いたサービスが一気に普及したことで、人工知能という領域が非常に注目を集めるようになりました。

参照元:http://vas3k.com/blog/machine_learning/

AIという言葉が流行し1人歩きしている昨今、これら4つの言葉の意味を混同していたり、あたかもディープラーニングという技術だけが人工知能の事を指しているかのように扱う記事を見かける事も少なくありません。

実際に、人工知能・機械学習というとディープラーニングばかりが注目される傾向はありますが、ディープラーニングは全ての問題解決に万能な訳ではありませんので、機械学習を使って何かをやろうと思うのであれば、機械学習の全体像を把握しどのようなモデルや手法がどのような時に有効であるかを知ることが非常に重要です。

機械学習の手法の選択については、Microsoft Azureで公開されている、どんな時にどの手法を使うべきかが記載された機械学習チートシートがとても分かりやすくまとまっています。

とはいえ、これも機械学習全体でいえばごく一部の手法で、ここに乗っていない手法も数多く存在します。

全ての手法を一つ一つ全て理解することは現実的ではありませんが、機械学習では思ったような結果や精度が出ない時に、手法を変えてみることで結果や精度が改善することがあります。一言に機械学習といっても、用途や目的により主要なものでもこれだけの選択肢がある、ということだけでも頭に入れておくと良いでしょう。

では、実際に機械学習と呼ばれるものにはどういった種類があるのか、次回以降でもう少し具体的に見ていきたいと思います。

参考記事:Machine Learning for Everyone

«
»

ブログ一覧