일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 챗지피티
- 패캠챌린지
- 데이터
- 파이썬
- Python
- EDA
- 직장인인강
- 태국여행
- DAGs
- 방콕여행
- 데이터분석
- 데이터 분석
- 자동매매프로그램
- 분석
- API
- 빅데이터
- correlation
- airflow
- 에어플로
- Ai
- 패스트캠퍼스
- 패스트캠퍼스후기
- 머신러닝
- 독서리뷰
- 활성화함수
- 리뷰
- 직장인자기계발
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 상관분석
- 딥러닝
- Today
- Total
데이터를 기반으로
R 스터디 2일차 - 데이터 확인, 데이터 다각도로 보기! 본문
안녕하세요 여러분~
이번 게시글 부터는 중간 배열로 조금 더 깔끔하게 진행하겠습니다!! ㅎㅎ
1일차에는 R에 내장되어 있는 유명한 iris 데이터로 연습을 해보는 시간을 가졌습니다.
2일차 이번부터는 본격적으로 원래 진행하고자 했던 SK BigData hub에서 가져온
바로바로!!
.
.
.
.
'19년 1월 서울시 치킨 판매업종 이용 통화량'
데이터입니다!
데이터 얻은 주소는
https://www.bigdatahub.co.kr/product/view.do?pid=1002028
여기 있습니다!
자 시작해 보겠습니다!!!
역시....처음부터 순탄치 않네요 ㅠㅠ
이 에러가 무엇일까... 검색을 해보니!!!
위 사진의 출처는 이 곳입니다!
https://stackoverflow.com/questions/18444769/error-while-reading-csv-file-in-r
오....영어를 못하지만...해석을 해보니 같은 이름을 가진 열이 2가지가 있을 지도 모른다는 말을 하네요...
하지만!! 저는... 잘못 해석해 열을 행으로 보고 말았죠...
우선 파일을 한번 열어보았습니다.
이렇게 생겼는데 생각해보니 각각의 행 중 하나 정도는 똑같은 값을 가졌을 지도 모른다는 생각을 했습니다.
직접 확인은 귀찮으니 저는 그냥 엑셀 켠김에 고유번호를 부여해줬습니다 ㅎㅎ
위에 한 1,2,3, 만 쓰고 더블클릭 하면 모든 열에 다 부여되는거 아시죠? ㅎㅎㅎ
아무튼....이렇게 잘못된 해석으로 진행을 했습니다...허허ㅓ
근데.....이게 무슨 일이죠...???
어찌하여.....불러와지는 것인가요??
저는 원래 해석대로 라면 고유번호를 주고 R 자체에서 지우면 똑같은 데이터가 되니 그렇게 진행하려 했습니다.
근데...해석을 잘못했음에도 불구하고 어떻게 불러와진 것인지 의문이 드는 부분이네요....
그래서!! 한번 확인을 해봤습니다!!
잘....불러와졌군요...
끝에 고유번호를 지우고 다시 불러와보니!!
이 또한....완벽하네요..ㅎ
혹시나!! 잘못된게 있는지 차원수로 한번 더 확인을 해보니 !!
이상없이 잘 불러와졌습니다....ㅎㅎ
뜻밖의 행운인건가요 ㅎㅎㅎㅎ
이 부분의 원인은 자세히 다시 파악하고 해결되면 올려보도록 하겠습니다...ㅠㅠ
항상 전처리에는 시간이 많이 걸리네요 ㅠㅠ
자!
다시 돌아와서 2일 차 스터디를 진행해보겠습니다 ㅎㅎ
summary 함수를 돌려보니 기준일은 그냥 하나의 숫자로 인식해서 min 과 max 가 저렇게 나오는 것으로 생각했습니다.
하지만 왜 요일은 저렇게 뒤죽박죽 연관없이 섞여 있는것인지 의문이 들었습니다.
한번 str 로 확인을 해보니!!
기준일은 int , 요일은 factor 로 인식되어 있었습니다.
as.character() 함수를 사용하여 문자열 형식으로 바꿔주고
as.POSIXct() 함수를 사용하여 날짜 형식으로 바꾸어 주자.
as.POSIXct() 는 이런 형식으로 진행하면 된다.
?factor 를 실행시켜 help 화면에서 예제를 보니
이런 식으로 진행하면 된다.
하여!!! 밑에와 같은 코드로 진행한다!!
aa$기준일<-as.character(aa$기준일)
aa$기준일<-as.POSIXct(aa$기준일,format="%Y%m%d")
aa$요일<-factor(aa$요일,levels=c("월","화","수","목","금","토","일"))
확인하니 제대로 기준일과 요일이 바껴있다.
summary 를 통해 다시한번 확인해보자!!
기준일과 요일 모두 잘 원하는대로 변했다!!
아주 성공적이다!!
마지막 한가지!!!!!
데이터에 NA 값이 있는지 확인해보는 작업이다!!
없다! ㅎㅎ
자~ 이제 전처리는 확실히 끝났다!!
이제 어떤 분석을 해볼지 고민을 해보았다.....
우선 도메인 지식!! 데이터를 보고 어떤 Insight 를 도출할지 고민을 해보았다.
- 요일에 따라 통화 건수가 달라질까??
- 보통 금,토에 많이 전화를 하지 않을까?
- 연령에 따라 통화 건수가 달라질까??
- 10대, 20대보다는 금전적 여유가 있는 30,40대가 더 많이 전화를 하지 않을까?
.
.
.
.
– 그러나 이는 30대 역시 치킨을 시켜먹을만한 충분한 금전적 여유가 있으나 30대와 5천건이나 차이가 나는것이 이상하게 생각이 될 수도 있다.
2. 40대면 보통 가정을 갖고 있을수 있고, 자녀도 역시 10대 일 수 있다.
– 이러면 30대와 차이를 생각해 볼 수 있는게, 40대의 10대 자녀가 부모님을 통해 전화를 할 수가 있을 수 있다고 해석해 볼 수 있다.
'스터디 > R 온라인 스터디' 카테고리의 다른 글
R 스터디 4일차 - 시각화!!(feat. ggplot) (0) | 2019.04.29 |
---|---|
R 스터디 3일차 - 다양한 시도와 접근!(중국집&피자) (0) | 2019.03.23 |
R 스터디 1일차 - Plot (0) | 2019.03.10 |