데이터를 기반으로

패스트캠퍼스 챌린지 3일차 본문

스터디/패스트캠퍼스

패스트캠퍼스 챌린지 3일차

이노후 2022. 1. 26. 20:49
728x90
반응형

3일차의 강의는 아직 이론수업의 강의가 진행되었다.

 

2일차에 들었던 강의는 빅데이터에 대한 전반적인 개념 및 현재 시장에서 진행되는 프로젝트들의 프로세스 위주로 설명이 진행되었다면 3일차에는 통계 및 분석의 기본 프로세스에 초점을 맞춘 설명들이 이어져 나갔다.

 

왼쪽화면은 이론설명 강의자료이고 오른쪽 화면이 인터넷 강의 장면이다.

강의를 듣고 강의자료를 보면서 한번 더 이해하는 식으로 공부를 진행해나갔다.

 

기초적인 데이터 타입부터 시작해 변수 종류 등 피처에 대한 기본적인 특징들에 대해서 강의가 시작되었다.

이후에는 분포를 기반으로 설명이 시작되었고 분포의 모양에 대한 설명에서 왜도, 첨도 에 대한 설명이 나왔다.

 

처음 강의 자료를 듣고 이해가 가지 않았지만 강의에서도 외부 포털사이트에서 직접 검색을 하여 이미지를 보여주며 더 구체적인 설명을 이어나갔다. 

 

하여, 나도 직접 구글에서 검색을 하여 왜도와 첨도에 관련된 이미지를 보고 한층 더 수월하게 이해할 수 있게 되었다.

왼쪽화면은 직접 서칭을 하여 찾은 왜도와 첨도에 관한 설명이 잘 되어 있는 사진이다.

 

통계분석을 하면서 가장 접하기 쉬운 오류는 상관관계를 인과관계로 해석하는 부분이라고 생각한다.

 

이러한 딜레마를 이번 강의에서도 다루는 모습을 볼 수 있었다. 

 

인과관계는 상관관계가 될 수 있지만, 상관관계가 인과관계를 증명할 수 없다.

이것에 대한 강의에서의 예시는 아이스크림 판매량과 익사자의 수 이다. 무더운 여름에 수영을 하다 익사하는 사람이 많아 질 것이다. 그리고 날씨가 더운 탓에 아이스크림 판매량은 늘어날 것이다.

 

이로인해 아이스크림 판매량과 익사자의 수는 양의 상관과계를 가질 수 있을 것이다. 하지만, 익사자의 수가 많아진 이유가 아이스크림의 판매량이 늘어서 일까?

아니면 반대로 아이스크림 판매량이 많아지는 것은 익사자의 수가 늘어난 탓일까?

 

모두 답은 아니다.

 

이처럼 인과관계는 상관관계가 될 수 있지만 상관관계는 인과관계가 될 수 없다는 것을 좋은 예시와 함께 잘 설명해주셔서 이해가 쉽게 되었다.

 

이렇게 3일차 강의는 마무리되었고 기본 개념을 다지는 시간이기에 해당 시간들을 더 중요하게 생각하며 학습을 진행해 나갈 것이다.

 

 

※ 본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성었습니다. 

 

※ 관련 링크 : https://bit.ly/37BpXiC

728x90
반응형