'분류 전체보기' 카테고리의 글 목록 (4 Page)

250x250

Notice

Recent Posts

Recent Comments

Link

linked

« 2024/07 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록분류 전체보기 (132)

데이터를 기반으로

정규성 검정(Normality Test)(1) - 시각적 검정

통계학에서는 정규 분포를 굉장히 좋아하고 모든 분포가 정규 분포를 따르면 얼마나 좋을까? 라는 생각을 가끔 할 때도 있다. 이러한 이유는 모수적 통계 방법들을 적용하고 싶은 마음에서 나온 것 같다. 자, 그럼 우리가 가지고있는 이 데이터가 정규분포여서 모수적 통계 방법들을 사용할 수 있기를 바라며 해당 데이터의 정규성 검정하는 방식에 대해서 설명을 하고자 한다. 정규성 검정에 대한 판단을 할 수 있는 것은 크게 2가지가 있다. - 시각적 검정 - 통계적 검정 먼저, 시각적 검정을 살펴보면 그래프를 직접 그려서 정규 분포를 확인하는 방법이다. 시각적 검정 방법에는 다양한 시각화 그래프가 이용된다. 우리는 그 중에서 히스토그램, Q-Q플랏, 박스 플랏을 확인해보고자 한다. [ 시각적 검정 ] 1. 히스토그램..

통계/검정 2023. 8. 27. 20:39

상관계수의 기초 - 피어슨 상관계수(Pearson correlation)(1)

이전 글에서 공분산과 상관계수에 대한 차이를 알아보았다. https://ds92.tistory.com/124 공분산과 상관계수의 차이 - (1) 이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 ds92.tistory.com https://ds92.tistory.com/125 공분산과 상관계수의 차이 - (2) 1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상 ds92.tisto..

통계/통계관련 개념 2023. 8. 25. 12:29

공분산과 상관계수의 차이 - (2)

1번 글에 이어서 상관계수의 개념을 보면서 시작하고자 한다. [ 상관 계수(Correlation coefficient) ] 상관계수(相關係數, correlation coefficient)는 두 변수 사이의 통계적 관계를 표현하기 위해 특정한 상관 관계의 정도를 수치적으로 나타낸 계수이다.[1] 여러 유형의 상관계수가 존재하지만 제각기 자신들만의 정의와 특징이 있다. 이들은 모두 값의 범위가 -1에서 +1 사이에 속하며 여기서 ±1은 정도가 가장 센 잠재적 일치를 나타내고 0은 정도가 가장 센 불일치를 나타낸다.[2] - 출처 : 위키 백과 - 이전 공분산의 범위는 - 무한대 ~ + 무한대 이다. 상관 계수는 -1 ~ +1 이다. 이것만 두고 보아도 무엇이 다른지 확연히 알 수 있다. 바로 스케일의 차이다..

통계/통계관련 개념 2023. 8. 16. 17:20

공분산과 상관계수의 차이 - (1)

이전 게시글에서 변수 타입에 대해 정의를 내려보았다. 그럼 이제 각 변수들 간의 어떠한 관계가 있을 건지에 대한 궁금증이 생기기 마련이다. 우리는 어떠한 특정 현상이나 관계에 대해 가장 명확하게 해석할 수 있는 '인과 관계'를 찾고자 한다. 하지만, 현실에서 인과 관계를 증명하기는 생각보다 어려울 수 있다. 분석을 진행하면서 의사 결정권자 분들에게 리포팅을 보여드리거나 어떠한 현상에 대해 설명할 때 마다 이러한 명확함을 좋아하기에 연관이 있는 관계를 확대 해석하여 인과 관계로 오해하곤 한다. 그렇기에 분석가라면 정확히 인과 관계가 아닌 상관 또는 연관이 있는 관계라는 점을 명확하게 짚고 넘어가야한다. 이 정도로 현업에서 발생할 만한 케이스에 대한 설명을 끝내고, 제목에 보여지는 공분산과 상관계수에 대해 ..

통계/통계관련 개념 2023. 8. 15. 00:19

변수(Variable)의 개념 및 종류

변수라는 말은 일상 생활에서도 많이 쓰이는 단어이다. "최대한 모든 변수를 고려해서 계획을 세워보자!" "예상치 못한 변수들 때문에 계획이 틀어졌어!" 이러한 우리 일상 생활에서 대화를 나눌 때도 많이 쓰이는 이 '변수'라는 것에 대해 조금은 심도 있게 다루어 보고자 한다. 우리가 일상 생활에서 쓰이는 '변수'라는 단어의 사전적 의미는 아래와 같다. (출처 : 네이버 국어 사전) 1. 어떤 상황의 가변적 요인. 2. 어떤 관계나 범위 안에서 여러 가지 값으로 변할 수 있는 수. 그럼, 우리가 수학적 or 통계적으로 다루는 변수라는 단어의 의미는 조금 다를까? (출처 : 위키백과 사전) 변수(變數)는 변하는 값을 나타내는 문자다. 다양한 값이나 양을 넣을 수 있는 빈 자리를 나타내는 기호로 종종 주어진 집..

통계/통계관련 개념 2023. 7. 30. 00:50

pandas encoding에 관하여

데이터 분석을 하다 보면 pandas 패키지를 자연스럽게 사용하게 될 것이다. 우리는 수 많은 데이터를 load 해야하는 경우가 많을 것이다. 우선, pandas documentation에 있는 read_csv 함수에 대한 옵션을 살펴보고 가자. https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html?highlight=read_csv#pandas.read_csv pandas.read_csv — pandas 2.0.3 documentation Delimiter to use. If sep is None, the C engine cannot automatically detect the separator, but the Python parsing e..

데이터 분석(Python)/탐색적 데이터 분석(EDA) 2023. 7. 15. 20:22

이전 Prev 1 2 3 4 5 6 7 ··· 22 Next 다음

목록분류 전체보기 (132)

데이터를 기반으로

티스토리툴바