KNN(K-Nearest Neighbors、K近傍法)とは?

概要

KNN(K近傍法)は、データの分類や回帰(予測)を行うためのシンプルなアルゴリズムです。
あるデータが与えられたとき、そのデータがどのカテゴリに属するかを近くのデータを見て判断します。

どうやって動作するの?

  1. Kの値を選ぶ: 「K」とは、近くのデータを何個見るかという数値です。例えば、K=3なら、3つの近いデータを参考にします。
  2. 距離を計算する: 未知のデータと各既知のデータとの距離を計算します。
  3. K個の近傍データを見つける: 距離が最も近いK個のデータを選びます。
  4. 多数決(または平均): K個の近傍データが最も多く所属しているカテゴリに、未知のデータも所属すると判断します。回帰の場合は、K個のデータの平均値を取ります。

簡単な例で説明

  • あなたが新しく入ったクラスで、友達を作りたいと思っています。
  • K(友達候補とする人数)を3とします。

最初に、あなたが好きな活動や興味を持っている科目などで、最も似ている3人(K=3)を見つけます。その3人がよく遊んでいる場所や参加しているクラブなどを参考に、あなたも何をすればいいかを決めます。

このように、周りのデータ(この場合はクラスメート)を参考にして、何かを決める方法がKNNです。