데이터를 기반으로

정규성 검정(Normality Test)(1) - 시각적 검정 본문

통계/검정

정규성 검정(Normality Test)(1) - 시각적 검정

이노후 2023. 8. 27. 20:39
728x90
반응형

통계학에서는 정규 분포를 굉장히 좋아하고 모든 분포가 정규 분포를 따르면 얼마나 좋을까? 라는 생각을 가끔 할 때도 있다.

 

이러한 이유는 모수적 통계 방법들을 적용하고 싶은 마음에서 나온 것 같다.

 

자, 그럼 우리가 가지고있는 이 데이터가 정규분포여서 모수적 통계 방법들을 사용할 수 있기를 바라며 해당 데이터의 정규성 검정하는 방식에 대해서 설명을 하고자 한다.

 

정규성 검정에 대한 판단을 할 수 있는 것은 크게 2가지가 있다.

 

- 시각적 검정

- 통계적 검정

 

먼저, 시각적 검정을 살펴보면 그래프를 직접 그려서 정규 분포를 확인하는 방법이다. 시각적 검정 방법에는 다양한 시각화 그래프가 이용된다. 우리는 그 중에서 히스토그램, Q-Q플랏, 박스 플랏을 확인해보고자 한다.

 

[ 시각적 검정 ]

1. 히스토그램(histogram)

→ 도수분포표를 나타내는 그래프라 불리는 시각화 기법 중 하나이다.

위 그림은 정규분포의 형태에 맞춰 데이터를 랜덤하게 뽑아서 직접 히스토그램을 그려본 것이다. 위 그래프 처럼 그래프가 종모양에 가까울 수록 정규분포 형태를 띄고 있다고 판단한다.

 

2. Q-Q Plot(Quantile-Quantile Plot)

 Q-Q Plot은 풀 워딩을 보면 파악할 수 있듯이 분위수들을 비교하여 정규분포와 가까운지 보는 것을 말한다. 직선에 존재하는 빨간선과 분포도가 동일한 방향으로 일치하는 경우 정규분포라고 판단하는 시각화 방법 중 하나이다.

 

 

3. Box Plot(Box-and-Whisker Plot)

→ 상자 수염 그림 또는 상자 그림이라고 부르는 이 방법은 위 Q-Q plot 과 비슷한 관점으로 분위수를 기반으로 판단하는 시각적 판단 방법 이다.

 

본 글에서는 정규성 검정에 대한 부분이라 상자 수염 그림에 대한 디테일한 해석 부분은 위키백과를 통해 학습을 권한다.

 

https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC

 

상자 수염 그림 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 기술 통계학에서 '상자 수염 그림'(box-and-whisker plot, box-and-whisker diagram) 또는 '상자 그림'(box plot, boxplot)은 수치적 자료를 표현하는 그래프이다. 이 그래프는 가공

ko.wikipedia.org

위 아래의 조그맣게 찍혀있는 부분은 이상치로 바라볼 수 있는 부분이긴 하나 데이터 마다 다르며 위키백과의 상세 해석을 보고 판단하기 바란다.

 

단, 위 1번 부터 3번까지의 그래프들은 모두 정규분포를 만족하는 데이터로 그림을 그려본 것이다.

 

위 함수를 선언해서 데이터를 넣으면 한번에 3가지 그래프를 보여줄 수 있게 선언하고 데이터만 넣어서 비교해보고자 한다.

 

먼저, 위에서 선언한 정규분포를 따르는 데이터를 넣어서 기존 그래프들이 잘 추출되는지 확인해보자.

 

잘 나오는게 확인되었다.

 

seaborn에 내재되어 있는 'mpg' 데이터를 matrix 산점도를 그려보고 히스토그램을 보고 최대한 정규분포에 가까운 컬럼과 정 반대의 컬럼을 각각 넣어서 출력 결과 그래프를 비교해서 보고자 한다.

 

위 그림처럼 한번에 볼 수 있는 상태에서 각각 선별해보고자 한다.

 

acceleration 을 보면 다른 컬럼에 비해 가장 정규분포에 가까운 모습을 보인다.

 

displacement 컬럼의 분포도를 보면 왼쪽으로 치우쳐진 히스토그램을 볼 수 있다. 하여, 이 2개의 컬럼을 기반으로 각각 그려보고자 한다.

 

예상대로 위 'acceleration'은 기존 정규 분포 데이터를 생성했던 것과 비슷한 모습을 보이며, 'displacemet'는 정규 분포를 만족하지 못하는 모습을 보인다.

 

위 그림은 mpg 컬럼 데이터인데, 이렇게 정규분포 같긴 한데, 애매한 데이터가 존재한다. 각설하고 그림을 그려보자.

뭔가 애매한 부분들이 너무 많다. 정규 분포라고 하기도 애매하고 아니라고 하기도 애매한 부분들이 너무 많다.

 

이렇기에 시각적으로 검정한다는 것 자체가 애매한 부분들이 있기에 이러한 부분을 명확하게 하고자 통계적 검정이 존재한다.

 

우리는 다음 게시글에서 통계적 검정들은 어떤 것이 있는지 살펴보고자 한다.

728x90
반응형