일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- airflow
- EDA
- 빅데이터
- 딥러닝
- 태국여행
- 상관분석
- 데이터 분석
- 직장인자기계발
- 패캠챌린지
- 독서리뷰
- 방콕여행
- 패스트캠퍼스
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 데이터
- 패스트캠퍼스후기
- 에어플로
- 리뷰
- DAGs
- correlation
- 직장인인강
- 분석
- Ai
- API
- 통계분석
- Python
- 데이터분석
- 파이썬
- 활성화함수
- 머신러닝
- 자동매매프로그램
- Today
- Total
목록스터디 (63)
데이터를 기반으로
오늘은 강의 들을 시간과 블로그 글을 쓸 여유가 안되어 지하철에서 수강하며 글을 써서 인증샷이 다소 협소한 점 이해부탁드립니다. 테블릿으로 강의를 들으며 블로그에 정리하는 중의 사진입니다. 사진상은 수강중인 화면입니다. 오늘의 강의는 Bagging 과 Boosting 알고리즘과 시계열 알고리즘의 비교에 대한 설명으로 시작되었다. 강사님께서는 이전 강의에서 Cost Function때문에 좀 더 구체적인 설명을 했었다고 한다. 우리는 일반적으로 Cost Function을 고려하지 않는다고 한다. 이유는 너무 알고리즘 자체에만 포커싱을 가지고 고민을 하기 때문이라고 한다. 하지만, 실질적으로 알고리즘 성능을 향상시키는 것은 Cost Function으로 인해 일어난다고 한다. 위 화면은 강의화면입니다. 우리가 ..
오늘의 강의는 어제 강의에 이어 정규화 방법론에 대한 이해도 향상과 해당 실습 코드를 돌려보는 시간이었다. 왼쪽 화면은 강의 자료 화면이고 오른쪽 화면은 강의 화면이다. 화면에 보이는 것은 하이퍼파라미터 특성에 대해 파악해보는 부분이다. 해당 화면에 보이는 그래프는 variable coefficients 라고 변수에 대한 상관을 보여지는 그래프 같다. X축에 각 변수명이 기재되어있고 오른쪽 부터 상관성이 높은 변수부터 왼쪽은 음수로서 상관성이 양의 상관인 변수가 나와있다. 해당 변수들 마다 모델에 미치는 영향도 즉, 계수를 수치화해서 그린 것과 동일한 의미로 보면 될 것 같다. 그렇게 릿지 부분에 대한 그래프를 이어서 보면 알파 값을 줄여주면 줄여줄 수록 계수에 수치가 점점 작아지는 것을 볼 수 있다. ..
오늘의 강의는 어제 끝마치지 못한 라쏘와 릿지에 대한 개념 설명으로 이어졌다. 어제 릿지와 라쏘가 Bi가 작아지게 하는 것이 목표라고 했다. 근데 정확히 Bi(계수)가 작아진다가 무슨 의미 일까? 좀 더 상세하게 강사님이 설명을 이어나가셨다. 왼쪽 화면은 강의 자료 화면이고 오른쪽은 강의 화면이다. 강사님은 매출과 광고에 대한 회귀식을 세워두고 ROI 개념을 곁들여 설명을 이어나가셨다. ROI(Return on Invest)라고 투자 대비 매출 효과라고 생각하면 된다. 여기서 Bi가 음수이면 광고비용을 줄이면 매출이 올라간다는 의미이다. 또는 1000보다 크면 해당 광고에 올인을 하는 것인데 둘 다 현실적으로는 어려운 부분이다. 그리고 데이터 분석을 진행했는데 어떤 광고는 계수가 음수가 나와 해당 광고에..
오늘의 강의 파트 3를 들어서는 간단한 목차의 리뷰로 강의가 시작되었다. 왼쪽은 강의를 들으며 블로그 글에 정리하는 화면이고 오른쪽은 강의 화면이다. 단순 선형 확률과정과 적분 선형 확률과정이 일반적인 시계열 데이터 모델에 가장 기본적인 모델이라 한다. 이러한 선현 확률과정보다 조금 더 난이도가 있는 것들은 비선형 확률과정과 다변량 선형확률과정이다. 비선형 확률과정은 비선형적인 관점으로 데이터를 분석하는 것인데 해당 과정이 딥러닝(DNN)에서 비선형 확률과정을 포함하고 있는 개념이다. 다변량 알고리즘은 기존 알고리즘과 다른게 y가 2개 이상인 것들을 다변량이라고 한다. 이후 강의에서는 정규화 방법론 알고리즘과 시계열 알고리즘의 차이를 보고자 한다.이전 강의들은 데이터 사이언스에 관한 내용들이었지만 이번 ..
오늘의 강의 파트 2를 정리하는 시간을 가지는 강의였다. 그래서 인증 사진은 인강을 들으며 블로그 글에 정리를 하고자하여 강의자료와 블로그 글 작성화면으로 인증샷을 대체할 예정이다. 왼쪽 화면은 블로그 글을 쓰며 메모하는 중이고 오른쪽 화면은 강의화면이다. 파트1에서는 데이터 분석 준비하기로 비시계열의 일반적인 데이터 분석 및 모델링에 대한 전반적인 내용과 프로세스를 공부해왔다. 파트2에서는 시계열 데이터 분석을 기준으로 설명변수와 종속변수에 대한 전처리를 진행해왔다. 파트 2에서는 크게 3가지 단계로 시계열 피처엔지니어링, 분석싸이클 완성, 현실적인 분석으로 진행을 해왔다. 그리고 파트2에서 독립변수를 기준으로는 VIF, PCA를 통한 유의미한 독립변수들로만 모델링을 하여 성능을 향상하는 방법을 배웠고..
오늘 강의는 정상성 통계량 확인과 정상성 테스트 실습을 진행했다. 왼쪽은 강의자료 화면이고 오른쪽은 강의화면이다. 정상성 테스트 부분을 보면 어디선가 본적이 있는 느낌이 들었다. 아니나 다를까 강의에서 강사님도 동일한 표현을 하시며 물어보았다. 바로 잔차 검정에서 본 부분과 동일했다. 해당 검증 방법이나 원리도 동일했다. 해당 테스트를 하는 방법은 크게 3가지가 있다. 시각화 테스트 / 기초통계 테스트 / 검정통계량 테스트 이다. 시각화 테스트란 왼쪽 화면에서도 보이듯이 그래프를 직접 그려보며 육안으로 확인하는 것을 의미한다. 기초통계 테스트는 특정시간에 따른 기초통계가 랜덤한지 파악하여 안정성을 확인 하는 것이다. 마지막으로 검정 통계량 테스트는 가설 검정의 단계라고 보면 된다. 정상성 테스트에서 귀무..