데이터를 기반으로

패스트캠퍼스 챌린지 24일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 24일차

이노후 2022. 2. 16. 23:15
728x90
반응형

오늘의 강의는 2가지인데 하나는 condition number의 행렬관점의 코딩으로 설명해주는 강의와 번수간 스케일 차이 조정으로 시작되는 강의였다.

 

condition number는 어제의 강의에서 실습 코딩으로 이어진 강의라 해당 게시물에서는 패스하겠다.

 

왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다.

 

변수간 스케일링을 해주는 가장 큰 이유는 각각의 변수의 범위가 다르기 때문에 각 변수간의 비교가 어렵기 때문에 이를 비교할 수 있도록 범위를 동일하게 만들어주는 것이다.

 

스케일링을 하는 이유는 강의에서는 크게 2가지로 나누었다.

 

하드웨어 적인 측면으로는 메모리를 많이 잡아 먹어서인데 예를 들면 수치가 엄청 큰 데이터들의 연산을 진행하려면 메모리를 많이 잡아 먹는다. 이때 스케일링 후 연산을 진행하게 되면 상대적으로 작은 수치를 연산하기에 메모리를 덜 잡아먹기 때문이다.

 

소프트웨어적인 측면으로는 범위가 큰 변수는 분산이 상대적으로 크다고 생각하는 데 이러한 분산을 동일하게 하여 비교하고자 하는 부분이다.

 

스케일링의 방법은 강의에서는 4가지를 알려주었다.

 

Standard Scaler / Min-Max Scaler / Robust Scaler / Normalizer 이렇게 구성되어있다.

 

Standard Scaler은 가정이 기존 분포가 정규분포라는 가정하에 스케일링이 진행되는 것이다. 

 

Min-Max Scaler은 가정이 정규분포가 아니거나 표준편차가 매우작을 때 효과적이라 한다. 해당 스케일러는 각 변수들의 분포 모양을 그대로 유지한다는 장점이 있다. 하지만 이상치에 민감하게 반응하는 스케일러다.

 

Robust Scaler는 Min-Max Scaler의 단점을 보완하기 위해 사용하는 것인데 이상치에 민감하게 반응하지 않게 사분위를 이용하여 이상치에 영향을 최소화하며 스케일링하는 것이다.

 

Normalizer은 피처 n개 모든 변수들의 크기를 나누어서 변환 / 각 변수들의 값은 원점으로부터 반지름 1만큼 떨어진 범위 내로 변환

왼쪽은 강의 자료 화면이고 오른쪽 은 강의화면이다.

 

어떤 것이 가장 좋은 스케일러냐고 하기에는 무리가 있다. 현실적으로는 모든 스케일러를 각각 적용해보고 테스트를 진행했을 때 가장 잘 나오는 스케일링을 쓰게 된다.

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형