데이터를 기반으로

250x250

Notice

Recent Posts

Recent Comments

Link

linked

« 2024/07 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

데이터를 기반으로

패스트캠퍼스 챌린지 17일차

오늘의 강의는 어제에 이어 잔차 분석에 대한 설명으로 시작되었다. 어제는 정상성과 정규분포에 대한 설명을 이어갔고 오늘은 자기상관과 등분산성의 대한 설명을 이어나갈 것으로 예상된다. 먼저 자기상관 테스트인데 4가설 방법중 륭 박스와 더빈 왓슨이 가장 많이 쓰인다고 한다. 귀무가설은 자기상관이 0이다.(존재하지 않는다) / 대립가설 0이 아니다.(존재한다) 더빈왓슨은 륭 박스와 가설은 동일하나 의사결정을 륭박스나 다른 가설들은 유의수준과 P-value를 고려하지만 더빈왓슨은 검정통계량을 이용한다는 점이다. 검정 통계량은 0~4 사이의 값으로 측정되는데 0은 양의 자기상관 / 4는 음의 자기상관이 존재한다고 한다. 왼쪽은 강의를 들으며 블로그에 메모를 하는 중이고 오른쪽 화면은 강의화면이다. 다음은 등분산성..

스터디/패스트캠퍼스 2022. 2. 9. 23:15

패스트캠퍼스 챌린지 16일차

오늘의 강의는 어제와 비슷하게 시작되었다. 비시계열 데이터에서 설명했던 잔차분석에 대한 시계열 데이터 관점으로의 설명인 강의였다. 그 중 오늘은 기존과 다르게 새롭게 들어보는 내용들이 많아 직접 블로그 글에 메모를 하며 강의를 들었다. 왼쪽 화면은 블로그 글을 작성하기 전에 메모장 역할로 메모하는 화면이고 오른쪽 화면은 강의화면이다. 시계열 모델링에서 잔차진단을 하기 위해 크게 4가지로 나뉜다. 1. 정상성 / 2. 정규분포 / 3. 자기상관 / 4. 등분산성 오늘의 강의에서는 1번 정상성과 2번 정규분포의 부분을 진행하였다. 가장 먼저 정상성이란 자기상관도 없고 등분산성을 있는 케이스를 의미한다고 한다. 한마디로 '정상성 테스트' 에 대한 설명은 자기상관과 등분산성을 하나로 아우른다 라는 의미라고 한다..

스터디/패스트캠퍼스 2022. 2. 8. 21:44

패스트캠퍼스 챌린지 15일차

오늘의 강의는 여태 진행되었던 비시계열에 대한 강의를 한번 쭉 진행 후 다시 시계열 데이터의 관점으로 바라보는 강의로 시작되었다. 월요일은 다시 자취방으로 돌아와 듀얼모니터로 실습파일을 보며 강의를 시청했다. 오늘은 비시계열 데이터에서 잔차분석에 해당하는 파트를 시계열 데이터 관점으로 바라보며 설명을 해주었다. 이전에 시계열 데이터 분석을 진행했을 때 백색소음(White Noise)라는 단어를 들어본 적이 있다. 정확한 개념은 몰랐지만 오늘 강의를 듣고 개념이 조금 잡혔다. 우리가 실제 관측되는 데이터(표본데이터)와 예측치 사이의 차이를 잔차라고 한다. 해당 잔차가 정규분포를 띄며 상관성이 없는 것이 해당 모델의 개선의 여지가 없음을 의미한다. 먼저 잔차 부분을 보면 잔차의 정규분포인지 아닌지 판별하는 ..

스터디/패스트캠퍼스 2022. 2. 7. 23:03

패스트캠퍼스 챌린지 14일차

오늘의 강의는 어제에 이어(모델링 평가지표에 대한 강의) 이론 강의가 진행되었다. 각 모델별 여러가지 지표가 존재하며 해당 모델을 평가하기 위해선 다양한 관점으로 모델을 바라봐야한다. 오늘 강의에서는 모델링을 하면 한번 정도 들었을 법한 Overfitting과 Underfitting에 관련된 이야기로 시작되었다. 한국어로는 과대적합, 과소적합이라고 부른다. 해당 모델이 잘 예측할 수 있도록 학습데이터를 기반으로 모델을 학습시켜 예측치를 뽑아내는 과정에서 학습데이터에 너무 편향되게 학습을 하여 새로운 데이터가 유입되었을 때 학습데이터에 편향된 예측치를 도출해낼 때 이러한 모델을 과대적합된 모델이라고 말할 수 있다. 단어만 보면 반대개념인 과소적합도 추측이 가능하다. 바로 학습데이터를 기반으로 모델이 학습이..

스터디/패스트캠퍼스 2022. 2. 6. 17:45

패스트캠퍼스 챌린지 13일차

오늘의 강의는 어제에 이어서 진행되었다. 모델을 구축하고 나서 모델을 평가하는 지표로 여러가지가 사용된다. 이전에 비시계열 데이터의 다양한 모델들이 있었고 각각의 모델들 마다 각자 다른 목적을 위한 평가지표가 있다. 우리가 가장 먼저 모델이 얼만큼 예측을 하는지 측정하는 기본적인 지표는 정확도(Accuracy)이다. 정확도란 우리의 모델이 예측 데이터를 추출했을 때 실제 데이터를 얼만큼 예측하는지를 보여주는 지표이다. 정확도는 회귀와 분류 모두에서 사용되는 지표이지만 분류에서 좀 더 정확하게 보여지는 지표이다. 회귀에서는 RMSE, MSE, MAE 등 오차에 좀 더 가중치를 둔 지표들이 많다. 해당 예측치가 실제 데이터와 얼만큼 다른지 어느정도의 오차를 측정하는 지표들이다. 단순히 오차를 측정하는 것이 ..

스터디/패스트캠퍼스 2022. 2. 5. 17:44

패스트캠퍼스 챌린지 12일차

오늘의 강의는 어제의 이론과 실습을 병행한 강의에서 이어져서 진행되었다. 어제 마지막에 Train과 Test 데이터 셋의 분류 비율 및 분류 방법에 대한 강의가 진행되었고 비시계열 모델에 대한 이론도 설명이 되었다. 그래서 오늘의 강의는 첫 순서는 회귀분석을 돌리고 난 후 결과에 대한 해석과 통계이론에 대한 설명으로 시작되었다. 왼쪽 화면은 코딩화면(강의자료화면)이고 오른쪽 화면은 강의화면이다. 우선 코딩화면을 보시다 싶이 저번에 4번을 지나치고 5번의 비시계열의 데이터셋 분리에 대해 설명이 진행되었다. 이후 오늘은 6번인데 6번은 회귀분석에 대한 코딩으로 시작되었다. 해당 예제 데이터를 회귀분석을 돌려 OLS를 통한 결과치를 해석하는 강의였다. 이론 강의시간에도 설명이 있었지만 회귀분석에서는 많은 통계..

스터디/패스트캠퍼스 2022. 2. 4. 23:20

이전 Prev 1 ··· 15 16 17 18 19 20 21 22 Next 다음

데이터를 기반으로

티스토리툴바