지도 학습(Supervised Learning)

supervised learning 지도 학습에는 분류와 회귀가 있다.

classification 분류: 미리 정의된, 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것 정답이 데이터와 함께 주어지며, 정답으로 해당 데이터의 class가 주어짐

K-nearest neighbors 알고리즘 K-nearest neighbors 알고리즘은 학습 단계를 거치지 않는 알고리즘이다.(lazy classifier라고도 한다.) 새로운 데이터 샘플을 분류하기 위해 답을 도출할 때 가장 가까운 k개의 레이블을 확인하여 majority voting을 통해 새로운 데이터의 class를 예측한다. k-NN 방법은 특징 공간에 있는 모든 데이터에 대한 정보가 필요하다. 데이터 인스턴스, 특징 요소들의 개수가 많다면 많은 메모리 공간과 계산 시간이 필요하다는 단점이 있다. 알고리즘이 매우 단순하고 직관적이며 사전 학습이나 특별한 준비 시간이 필요 없다는 장점이 있다. k와 데이터 사이의 거리를 계산하는 방식은 사람이 제공한다.

regression 회귀: 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(실수)를 예측하는 것 정답이 데이터와 함께 주어지며, 정답으로 실수가 주어짐