데이터 전처리 - 정규화와 표준화 방법과 계산식

<정규화와 표준화=""> - 데이터 전처리를 통한 분석 성능 개선 기계 학습에서 사용하는 데이터 값 중에서 특성에 따라 규모가 크게 다른(=균일하지 않은 축적(scale)을 갖는) 값을 흔히 볼 수 있다. 예를 들자면, 나이와 재산의 상관 관계를 보고자 할 때, 나이는 보통 1~80 사이에 분포하는 반면, 재산은 -수십억 ~ +수십억 까지 넓고 큰 규모로 분포한다. 이런 경우에, 데이터 전처리를 통해 입력 속성값의 범위를 비슷하게 만들어 줄 수 있으며 이를 정규화, 표준화라고 한다. [데이터 정규화] - normalization 최대 최소 스케일러는 다음의 식을 통해 데이터의 값을 0~1사이로 조정한다. [데이터 표준화] - standardization 표준화는 데이터를 정제할 때 전체의 평균과 분산을 사용한다. 이러한 표준화 과정을 거치면, X는 평균이 0이고 분산이 1인 데이터가 된다.