k-nearest neighbors 알고리즘(kNN)

k-nearest neighbors 알고리즘(kNN)

Summary:

k-nearest neighbors 알고리즘(kNN)을 공부하고 내용을 기록합니다.


kNN 알고리즘

k-nearest neighbors는 적용 가능 사례를 쉽게 찾아볼 수 있는 친근한 알고리즘이다. k 근접 이웃 알고리즘, 최근접 이웃 알고리즘, kNN 알고리즘 등으로 불린다. 이미 가지고 있는 데이터를 기준으로 새로운 데이터를 분류해준다.

이 알고리즘을 적용하기 위해서는 우선 k, 즉 최근접점을 몇 개 까지 둘 지 정해야 한다. 분류 기준이 최근접한 상위 k개의 데이터 중 다수를 차지하는 그룹으로 분류되기 때문이다. 새로운 데이터에 기존 분포 데이터를 몇 개까지 가장 가까운 데이터로 잡느냐에 따라 새로운 데이터가 어디에 속할 지 다른 결과를 얻을 수도 있다.

커머스에 적용하기

끼리끼리 로 kNN 알고리즘을 빗댈 수 있다. 비슷한 색을 좋아하는 사람들끼리, 비슷한 아이템을 수집하는 사람들끼리, 또는 비슷한 특성을 가진 제품끼리 그룹지을 때 유용하다. 보다 구체적인 예를 들자면 다음과 같다. 나는 이때까지 내가 사용했던 뷰티제품에 별점을 매겨왔다. 별 1개 집단부터 별 5개 집단까지 화장품들이 분류되어 있다. 각 화장품의 유형별, 성분별 정보도 기록해두었다. 최근에 난 A 제품을 새롭게 알게 되었는데 바로 사자니 구매에 실패할까 불안하다. 이 때 kNN을 이용하면 새롭게 접하는 화장품에 대해 내가 별을 몇 개 줄 지 예측할 수 있다.

어떤 백화점 매장이 고객의 나이와 백화점 카드 이용 금액, 상품구매여부 데이터를 가지고 있을 때 새로운 고객이 과연 우리 제품을 구매할 것인가 구매하지 않을 것인가를 판단하는 척도로 쓰이기도 한다.

참고자료

머신 러닝 입문 #1-머신러닝 소개와 kNN 소개 from Terry Cho

Hyeyeon

A Blog about E-Commerce and Product Management

comments powered by Disqus

    rss facebook twitter github youtube mail spotify instagram linkedin google google-plus pinterest medium vimeo stackoverflow reddit quora