일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 데이터 분석
- EDA
- correlation
- 빅데이터
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 리뷰
- 직장인인강
- 에어플로
- 통계분석
- 머신러닝
- DAGs
- 활성화함수
- 딥러닝
- 패스트캠퍼스
- 분석
- airflow
- 독서리뷰
- Ai
- Python
- 데이터분석
- 직장인자기계발
- 상관분석
- API
- 태국여행
- 패캠챌린지
- 방콕여행
- 파이썬
- 자동매매프로그램
- 패스트캠퍼스후기
- 데이터
- Today
- Total
목록분류 전체보기 (132)
데이터를 기반으로
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bQHLHa/btssc76M9es/IHYHeNithIalqdNj0JZjs1/img.png)
통계학에서는 정규 분포를 굉장히 좋아하고 모든 분포가 정규 분포를 따르면 얼마나 좋을까? 라는 생각을 가끔 할 때도 있다. 이러한 이유는 모수적 통계 방법들을 적용하고 싶은 마음에서 나온 것 같다. 자, 그럼 우리가 가지고있는 이 데이터가 정규분포여서 모수적 통계 방법들을 사용할 수 있기를 바라며 해당 데이터의 정규성 검정하는 방식에 대해서 설명을 하고자 한다. 정규성 검정에 대한 판단을 할 수 있는 것은 크게 2가지가 있다. - 시각적 검정 - 통계적 검정 먼저, 시각적 검정을 살펴보면 그래프를 직접 그려서 정규 분포를 확인하는 방법이다. 시각적 검정 방법에는 다양한 시각화 그래프가 이용된다. 우리는 그 중에서 히스토그램, Q-Q플랏, 박스 플랏을 확인해보고자 한다. [ 시각적 검정 ] 1. 히스토그램..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/JfnLW/btsr61dFV72/g3SlbxpMh5XzxCpsK6pfkk/img.png)
이전 글에서 공분산과 상관계수에 대한 차이를 알아보았다. https://ds92.tistory.com/124 공분산과 상관계수의 차이 - (1) 이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 ds92.tistory.com https://ds92.tistory.com/125 공분산과 상관계수의 차이 - (2) 1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상 ds92.tisto..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bJnuNi/btsrfgo5vUA/vn58mlMdZ2cKNxxTjvbsLk/img.png)
1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수이다.[1] 여러 유형의 상관계수가 존재하지만 제각기 자신들만의 정의와 특징이 있다. 이들은 모두 값의 범위가 -1에서 +1 사이에 속하며 여기서 ±1은 정도가 가장 센 잠재적 일치를 나타내고 0은 정도가 가장 센 불일치를 나타낸다.[2] - 출처 : 위키 백과 - 이전 공분산의 범위는 - 무한대 ~ + 무한대 이다. 상관 계수는 -1 ~ +1 이다. 이것만 두고 보아도 무엇이 다른지 확연히 알 수 있다. 바로 스케일의 차이다..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/by3o2j/btsrgQpD0Bf/K6uJak3nE55TU87NQ3DDs0/img.png)
이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 명확하게 해석할 수 있는 '인과 관계'를 찾고자 한다. 하지만, 현실에서 인과 관계를 증명하기는 생각보다 어려울 수 있다. 분석을 진행하면서 의사 결정권자 분들에게 리포팅을 보여드리거나 어떠한 현상에 대해 설명할 때 마다 이러한 명확함을 좋아하기에 연관이 있는 관계를 확대 해석하여 인과 관계로 오해하곤 한다. 그렇기에 분석가라면 정확히 인과 관계가 아닌 상관 또는 연관이 있는 관계라는 점을 명확하게 짚고 넘어가야한다. 이 정도로 현업에서 발생할 만한 케이스에 대한 설명을 끝내고, 제목에 보여지는 공분산과 상관계수에 대해 ..
변수라는 말은 일상 생활에서도 많이 쓰이는 단어이다. "최대한 모든 변수를 고려해서 계획을 세워보자!" "예상치 못한 변수들 때문에 계획이 틀어졌어!" 이러한 우리 일상 생활에서 대화를 나눌 때도 많이 쓰이는 이 '변수'라는 것에 대해 조금은 심도 있게 다루어 보고자 한다. 우리가 일상 생활에서 쓰이는 '변수'라는 단어의 사전적 의미는 아래와 같다. (출처 : 네이버 국어 사전) 1. 어떤 상황의 가변적 요인. 2. 어떤 관계나 범위 안에서 여러 가지 값으로 변할 수 있는 수. 그럼, 우리가 수학적 or 통계적으로 다루는 변수라는 단어의 의미는 조금 다를까? (출처 : 위키백과 사전) 변수(變數)는 변하는 값을 나타내는 문자다. 다양한 값이나 양을 넣을 수 있는 빈 자리를 나타내는 기호로 종종 주어진 집..
데이터 분석을 하다 보면 pandas 패키지를 자연스럽게 사용하게 될 것이다. 우리는 수 많은 데이터를 load 해야하는 경우가 많을 것이다. 우선, pandas documentation에 있는 read_csv 함수에 대한 옵션을 살펴보고 가자. https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv pandas.read_csv — pandas 2.0.3 documentation Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing e..