概要
KNN(K近傍法)は、データの分類や回帰(予測)を行うためのシンプルなアルゴリズムです。
あるデータが与えられたとき、そのデータがどのカテゴリに属するかを近くのデータを見て判断します。
どうやって動作するの?
- Kの値を選ぶ: 「K」とは、近くのデータを何個見るかという数値です。例えば、K=3なら、3つの近いデータを参考にします。
- 距離を計算する: 未知のデータと各既知のデータとの距離を計算します。
- K個の近傍データを見つける: 距離が最も近いK個のデータを選びます。
- 多数決(または平均): K個の近傍データが最も多く所属しているカテゴリに、未知のデータも所属すると判断します。回帰の場合は、K個のデータの平均値を取ります。
簡単な例で説明
- あなたが新しく入ったクラスで、友達を作りたいと思っています。
- K(友達候補とする人数)を3とします。
最初に、あなたが好きな活動や興味を持っている科目などで、最も似ている3人(K=3)を見つけます。その3人がよく遊んでいる場所や参加しているクラブなどを参考に、あなたも何をすればいいかを決めます。
このように、周りのデータ(この場合はクラスメート)を参考にして、何かを決める方法がKNNです。