일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- correlation
- 에어플로
- 분석
- DAGs
- 파이썬
- Python
- EDA
- 패스트캠퍼스후기
- 태국여행
- 자동매매프로그램
- 딥러닝
- 패캠챌린지
- 방콕여행
- 데이터 분석
- 데이터
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 머신러닝
- Ai
- 직장인인강
- 직장인자기계발
- 챗지피티
- API
- 상관분석
- 활성화함수
- 리뷰
- 독서리뷰
- airflow
- 패스트캠퍼스
- 데이터분석
- 빅데이터
- Today
- Total
목록통계 (11)
데이터를 기반으로

저번 글에 이어서 2번째 통계적 검정법인 'Kolmogorov-smirnov test'에 대해서 정리를 하고자 한다. (줄여서 KS-Test라고 부르기도 한다.) 먼저, 해당 검정법은 정규분포와 해당 변수의 분포를 비교해서 얼마나 차이가 많이 나는지 비교하는 방법으로 진행된다. 좀 더 자세하게 말하면 정규분의 누적분포와 검정하고자 하는 변수의 누적분포를 서로 비교하는 방법이다. 해당 검정을 진행하기 위한 조건 및 권장 사항에 대해서 확인하면 다음과 같다. 1. N은 50개 이상인 경우에 권장한다. 2. 비모수 검정이기에 분포에 대한 가정이 필요없다. 3. 연속형 변수에 적합하다. 해당 검정법의 원래 목적은 2변수에 대한 누적분포를 서로 비교하는 것인데, 현시대에 많은 통계 패키지 및 Tool 들이 옵션값..

이전 글에 이어 2번째 통계적 검정에 대해 알아보고자 한다. https://ds92.tistory.com/127 정규성 검정(Normality Test)(1) - 시각적 검정 통계학에서는 정규 분포를 굉장히 좋아하고 모든 분포가 정규 분포를 따르면 얼마나 좋을까? 라는 생각을 가끔 할 때도 있다. 이러한 이유는 모수적 통계 방법들을 적용하고 싶은 마음에서 나온 ds92.tistory.com [ 통계적 검정 ] 1. 샤피로-윌크 검정(Shapiro-Wilk test) → 정규성 검정에서 가장 많이 쓰이는 방법 중 하나이며 생각보다 위키피디아에 정리가 잘 되어 있었다. 해당 검정법은 가장 많이 쓰이는 검정법이며 작은 표본에서도 잘 작동하며, 정확한 검정을 제공하고 큰 표본에서는 검정 결과가 민감할 수 있다...

통계학에서는 정규 분포를 굉장히 좋아하고 모든 분포가 정규 분포를 따르면 얼마나 좋을까? 라는 생각을 가끔 할 때도 있다. 이러한 이유는 모수적 통계 방법들을 적용하고 싶은 마음에서 나온 것 같다. 자, 그럼 우리가 가지고있는 이 데이터가 정규분포여서 모수적 통계 방법들을 사용할 수 있기를 바라며 해당 데이터의 정규성 검정하는 방식에 대해서 설명을 하고자 한다. 정규성 검정에 대한 판단을 할 수 있는 것은 크게 2가지가 있다. - 시각적 검정 - 통계적 검정 먼저, 시각적 검정을 살펴보면 그래프를 직접 그려서 정규 분포를 확인하는 방법이다. 시각적 검정 방법에는 다양한 시각화 그래프가 이용된다. 우리는 그 중에서 히스토그램, Q-Q플랏, 박스 플랏을 확인해보고자 한다. [ 시각적 검정 ] 1. 히스토그램..

이전 글에서 공분산과 상관계수에 대한 차이를 알아보았다. https://ds92.tistory.com/124 공분산과 상관계수의 차이 - (1) 이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 ds92.tistory.com https://ds92.tistory.com/125 공분산과 상관계수의 차이 - (2) 1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상 ds92.tisto..

1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수이다.[1] 여러 유형의 상관계수가 존재하지만 제각기 자신들만의 정의와 특징이 있다. 이들은 모두 값의 범위가 -1에서 +1 사이에 속하며 여기서 ±1은 정도가 가장 센 잠재적 일치를 나타내고 0은 정도가 가장 센 불일치를 나타낸다.[2] - 출처 : 위키 백과 - 이전 공분산의 범위는 - 무한대 ~ + 무한대 이다. 상관 계수는 -1 ~ +1 이다. 이것만 두고 보아도 무엇이 다른지 확연히 알 수 있다. 바로 스케일의 차이다..

이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 명확하게 해석할 수 있는 '인과 관계'를 찾고자 한다. 하지만, 현실에서 인과 관계를 증명하기는 생각보다 어려울 수 있다. 분석을 진행하면서 의사 결정권자 분들에게 리포팅을 보여드리거나 어떠한 현상에 대해 설명할 때 마다 이러한 명확함을 좋아하기에 연관이 있는 관계를 확대 해석하여 인과 관계로 오해하곤 한다. 그렇기에 분석가라면 정확히 인과 관계가 아닌 상관 또는 연관이 있는 관계라는 점을 명확하게 짚고 넘어가야한다. 이 정도로 현업에서 발생할 만한 케이스에 대한 설명을 끝내고, 제목에 보여지는 공분산과 상관계수에 대해 ..