데이터를 기반으로

패스트캠퍼스 챌린지 32일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 32일차

이노후 2022. 2. 24. 23:39
728x90
반응형

오늘의 강의 파트 3를 들어서는 간단한 목차의 리뷰로 강의가 시작되었다.

 

왼쪽은 강의를 들으며 블로그 글에 정리하는 화면이고 오른쪽은 강의 화면이다.

 

단순 선형 확률과정과 적분 선형 확률과정이 일반적인 시계열 데이터 모델에 가장 기본적인 모델이라 한다.

 

이러한 선현 확률과정보다 조금 더 난이도가 있는 것들은 비선형 확률과정과 다변량 선형확률과정이다.

 

비선형 확률과정은 비선형적인 관점으로 데이터를 분석하는 것인데 해당 과정이 딥러닝(DNN)에서 비선형 확률과정을 포함하고 있는 개념이다. 

 

다변량 알고리즘은 기존 알고리즘과 다른게 y가 2개 이상인 것들을 다변량이라고 한다.

 

이후 강의에서는 정규화 방법론 알고리즘과 시계열 알고리즘의 차이를 보고자 한다.이전 강의들은 데이터 사이언스에 관한 내용들이었지만 이번 파트에서는 수학적인 내용들이 기반이 되는 알고리즘들이 소개 될 것이다.

 

왼쪽은 강의자료 화면이고 오른쪽은 강의 화면이다.

 

회귀분석에서 X가 Y의 원인이고 그 원인을 파악하는 것이 아니라 Y-F(X)의 제곱으로 잔차 제곱을 최소화하는 것이 목적이다.

 

여기서 릿지와 라쏘 회귀가 나오는데 수식을 기반으로 강사님은 설명 해주신다.

 

릿지나 라쏘 둘다 Bi를 최대한 줄이는 게 목적인데 릿지는 큰 숫자에 민감하고 라쏘는 크거나 작거나 무관하고 0으로 빠른 수렴을 한다. 이게 무슨 의미냐면 릿지는 1보다 큰 것을 1로 바꾸는 것이고 라쏘는 크던 작던 빠르게 0으로 가게 만드는 것이다. 

 

그렇다 보니 효과가 없는 x 를 0으로 만들어서 바로 버려버린다. 릿지는 그래도 x를 1보다 크면 최대한 작게 만들지만 살려는 둔다.

 

릿지를 쓰게 되면 스케일이 작아지고 라쏘를 쓰면 변수들이 적게 도출될 것이다.

 

 

 

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형