Алгоритм K-ближайших соседей (kNN) — это простой, непараметрический алгоритм машинного обучения, используемый как для классификации, так и для регрессии.

Суть: Относит новый объект (точку данных) к классу, наиболее представленному среди k ближайших к нему объектов в обучающей выборке. Для регрессии predicts значение как среднее/медианное значение k ближайших соседей.

Основные шаги для классификации:

Выбор K: Определить число ближайших соседей (K).
Расчет расстояния: Вычислить расстояние между новым объектом и каждым объектом в обучающей выборке (например, евклидово расстояние).
Поиск K ближайших: Отсортировать объекты по расстоянию и выбрать K ближайших.
Голосование: Определить класс нового объекта на основе мажоритарного голосования среди K ближайших соседей.

Преимущества:

Простота реализации и понимания.
Не требует обучения модели (ленивый алгоритм).
Адаптируется к новым данным по мере их появления.

Недостатки:

Вычислительно затратен при больших объемах данных (на этапе предсказания).
Выбор K и метрики расстояния критически важны.
Чувствителен к масштабу признаков и "проклятию размерности".
Не работает хорошо с категориальными признаками напрямую (требуется кодирование).

Применение:

Распознавание образов.
Рекомендательные системы.
Медицинская диагностика.
Поиск похожих документов.

python

Что такое алгоритм k-ближайших соседей (kNN)?