데이터를 기반으로

변수(Variable)의 개념 및 종류 본문

통계/통계관련 개념

변수(Variable)의 개념 및 종류

이노후 2023. 7. 30. 00:50
728x90
반응형

변수라는 말은 일상 생활에서도 많이 쓰이는 단어이다.

 

"최대한 모든 변수를 고려해서 계획을 세워보자!"

"예상치 못한 변수들 때문에 계획이 틀어졌어!"

 

이러한 우리 일상 생활에서 대화를 나눌 때도 많이 쓰이는 이 '변수'라는 것에 대해 조금은 심도 있게 다루어 보고자 한다.

 

우리가 일상 생활에서 쓰이는 '변수'라는 단어의 사전적 의미는 아래와 같다.

 

(출처 : 네이버 국어 사전)

1. 어떤 상황의 가변적 요인.
2. 어떤 관계나 범위 안에서 여러 가지 값으로 변할 수 있는 수.

 

그럼, 우리가 수학적 or 통계적으로 다루는 변수라는 단어의 의미는 조금 다를까?

 

(출처 : 위키백과 사전)

변수(變數)는 변하는 값을 나타내는 문자다. 다양한 값이나 양을 넣을 수 있는 빈 자리를 나타내는 기호로 종종 주어진 집합에 있는 임의의 원소를 나타낼 때 쓴다. 변수는 수뿐만 아니라 벡터, 행렬과 함수를 나타낼 때도 쓴다.

 

변수는 컴퓨터 프로그래밍에서도 많이 쓰인다. 이 부분도 같이 알아보자.

 

(출처 : 위키백과 사전)

컴퓨터 프로그래밍에서 변수(變數, variable) 또는 스칼라(scalar)는 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적인 이름이다. 

 

이렇게 모든 수학적, 프로그래밍 측면 그리고 일상에서 쓰이는 모든 사전적 의미를 보니, 각각 환경에 맞게 사용되고 있는 것을 확인했다.

 

그리고, 공통적으로 들어가 있는 의미는 명확하게 '어떠한 값이다.' 라고 정의하기 힘들고 추후 변동이 가능한 점을 반영하여 부르는 단어인 것을 알 수 있었다.

 

자, 우리는 사실 통계적인 환경에서 변수에 대한 의미와 종류에 대해서 알아보고자 해당 글을 작성하게 되었다.

 

먼저, 변수에 대한 종류를 파악하기 전 간략하게 전체를 리스트 업 해보자.

 

[ 범주형(Categorical) = 질적(Qualitative) 변수 ]
- 순서형(Ordinal)
- 명목형(Nominal)

[ 수치형(Numerical) = 양적(Quantitative) 변수 ]
- 이산형(Discrete)
- 연속형(Continuous)
       1. 간격, 등간(Interval)
       2. 비율(Ration)

 

이렇게 볼 수 있다.

 

[ 범주형(Categorical) = 질적(Qualitative) 변수 ]

→ 해당 변수는 수치로 측정이 불가능하며, 대상을 몇 개의 범주 중 하나에 속하게 하는 변수를 말한다. 

     즉, 대상은 분류되어 속성을 갖게 된다.

- 순서형(Ordinal)

대상에 속한 범주들이 각각 순위가 존재하는 항목을 말한다.

     ( 예시 : 성적(A등급, B등급, C등급, D등급), 경제적 수준(상, 중, 하) 등 )

- 명목형(Nominal) 

 범주형 변수 정의에 충족하며, 순서형 변수와 다르게 순위가 존재하지 않는 항목을 말한다.

     ( 예시 : 성별(남, 녀), 학과목(수학, 과학, 미술) 등 )

 

 

[ 수치형(Numerical) = 양적(Quantitative) 변수 ]

→ 해당 변수는 수치로 측정이 가능하며, 대상들이 서로 연속된 값을 갖게 하는 경우에 대한 변수를 말한다. 

- 이산형(Discrete)

 이산적인 값을 가지는 즉, 수치형 데이터이나 소수점을 표현하지 않는 항목을 말한다.

     ( 예시 : 사고 건수(1건,2건...), 아이스크림 갯수(1개, 2개 ...) 등 )

- 연속형(Continuous)

수치적인 의미가 있는 것은 이산형 변수와 동일하나, 소수점을 표현하는 항목을 말한다.

     ( 예시 : 길이(10.2cm, 5.3cm), 체중(83.2kg, 62.7kg) 등 )

 

이 연속형 변수는 세부적으로 간격(등간)변수 와 비율 변수로 나눌 수 있다.

1. 간격, 등간(Interval)

등간변수, 구간 척도라고도 불리며 사칙연산 중 곱셉, 나눗셈은 불가능한 항목을 말한다.

     추가로, 절대 영점은 없다.( 0이라고 하여 의미가 없거나, 존재하지 않는다는 의미를 갖지 않는다.)

     온도가 0 이라 하면 어는점인 0도 인 것이지 온도가 없다는 개념은 아니다.

     추가로 나눗셈과 곱셈을 못하는 이유도 온도 기준으로 1도와 10도 일때 10배 덥다라는 개념을 사용하지 않으며,

     오후 1시와 오후 2시를 두고 2배의 시간이라 표현하지 않기 때문이다.

     ( 예시 : 온도, 지능, 시간 등 )

 

2. 비율(Ratio)

등간변수의 0이 절대적인 0을 가지는 값을 의미한다. 몸무게로 예시를 들면, 몸무게가 0 이면 무게가 없다로 표현할

    수 있다. 절대 영점이 존재하기에, 곱셈 나눗셈이 가능하다.(2kg 과 4kg을 비교하여 2배 무겁다고 표현함)

    ( 예시 : 연령 / 무게 / 시간 / 거리 / 소득 등 )

 

 

이렇게 변수들의 종류(type)에 대해 알아보았다.

 

생각보다 이러한 기초적인 영역을 모르고 분석을 시작하는 분들이 많기에 이렇게 정리를 한번 해보았다.

위 개념을 기반으로 많은 통계기법이 파생되므로 꼭 알고 넘어가야할 개념이라고 생각한다.

728x90
반응형