일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 챗지피티
- ChatGPT
- 직장인자기계발
- 활성화함수
- 방콕여행
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 패스트캠퍼스후기
- Ai
- 분석
- 자동매매프로그램
- 데이터
- 패캠챌린지
- 독서리뷰
- 태국여행
- 딥러닝
- Python
- 리뷰
- 머신러닝
- 패스트캠퍼스
- API
- DAGs
- 상관분석
- 파이썬
- 클라우드
- airflow
- 직장인인강
- 데이터분석
- 빅데이터
- It
- nlp
- Today
- Total
목록스터디 (63)
데이터를 기반으로
빅데이터 기술에서 가장 먼저 예로 들 수 있는 것이 'Hadoop'과 'NoSQL'이다. 웹 서버 등에서 생성된 데이터는 처음에는 RDB와 NoSQL 등의 텍스트 데이터에 저장된다. 그 후 모든 데이터가 Hadoop으로 모이고 거기서 대규모 데이터 처리가 실행된다. 기존 RDB에 대용량 데이터들을 처리하는데 한계가 생겼으며 이를 해결하기 위해 'Hadoop'과 'NoSQL'이 각각 다른 형태로 나온 것이다. [ Hadoop ] Hadoop은 다수의 컴퓨터에서 대량의 데이터 처리하기 위한 시스템이다. 전세계의 웹페이지를 모아서 검색 엔진을 만들고자할 때, 방대한 데이터를 저장해둘 스토리지와 순차적으로 데이터 처리를 할 수 있는 구조가 필요하다. 그러기 위해서는 수 백, 수천 대의 컴퓨터가 이용되어야 하며 ..

현재 회사를 입사 후 처음으로 책 한권을 잡고 쭉 공부해보자 라는 마음을 먹은 첫 도서이다. 입사 직무를 데이터 사이언티스트로 들어와 가장 많이 필요로 했던 기술들이 ETL 기술을 필두로 다양한 엔지니어 기술들이었다. 하여, 해당 도서를 개인적으로 읽어보며 챕터 별로 정리해 볼 생각이다. 우선 간단하게 목차부터 확인해보자. CHAPTER 1 빅데이터의 기초 지식 _ 1 1-1 [배경] 빅데이터의 정착 3 1-2 빅데이터 시대의 데이터 분석 기반 11 1-3 [속성 학습] 스크립트 언어에 의한 특별 분석과 데이터 프레임 26 1-4 BI 도구와 모니터링 33 1-5 요약 42 CHAPTER 2 빅데이터의 탐색 _ 43 2-1 크로스 집계의 기본 45 2-2 열 지향 스토리지에 의한 고속화 56 2-3 애드..

DAG에 새로운 스크립트를 업로드하고 나서 웹에서 확인하는데 보여지지 않아 기존에 띄워져 있던 webserver를 재실행하고자 했다. 그래서, 커널을 열고 기존 처럼 webserver 를 실행하면 재실행이 될 줄 알았는데, 위 사진과 같이 실행이 안되고, Can't connect to 메시지를 보이며 계속 멈춘 상태가 되었다. 그래서 특정 포트를 지정하고 실행해보고자 아래와 같이 실행했다. 8080 포트로 강제 부여해서 실행할 수 있을까? 하는 시도로 해보았지만...결과는 동일했다. 여기 저기 찾아보니 실행되고 있는 것을 종료시키고 실행해야된다고 나와있었다. 명령어 : ps -f -> 현재 실행되고 있는 모든 프로세스들을 보여준다. 명령어 : kill - (종료하고자 하는 PID) -> 해당 프로세스(P..

다음 학습인 DAGs 폴더에 파이썬 스크립트인 .py 파일을 업로드 하고, airflow webserver 에서 확인해보면 업로드 되어있어야 할 스크립트 파일이 없는 상황이었다. 보통 이러한경우는 크게 2가지로 나뉜다고 한다. 1. 스크립트파일(.py) 파일 자체 코드가 실행했을 때, 정상적으로 실행이 안되는 경우 2. DAGs 경로들이 제대로 인식되지 않은 경우 우선, 첫 번째 스크립트 파일을 뜯어보았다. 책 예제에서 보여주는 'download_rocket_launches.py' 파일이었고, 실행해보니 start_date 관련해서 오류가 발생했다. (해당 코드는 책에서 제공되는 git 을 로컬에 clone하여 받은 파일이다.) Error Message : RemovedInAirflow3Warning: ..
airflow DAGs 에서 파이썬 오퍼레이터가 정확히 어떻게 작동되는지에 대한 개념이 애매한 상태로 실무에서 적용해보고자 시도해본 적이 많았다. 그때마다 굉장한 어려움이 있었는데..역시 도서를 보고 개념부터 이해해가니 쉽게 이해할 수 있었다. 우선 함수를 정의 하는 부분의 코드들이 상단에 있다는 가정하에, def action_func(x) : y = x+2 return y get_pictures = PythonOperator( task_id="get_pictures", python_callable=action_func, dag=dag ) 위와 같은 코드에서 예로 들어 설명을 한다면, 실제로 파이썬 작업이 이루어지는 것은 함수 action_func 안의 코드이다. 해당 함수를 선언하기 위해서 하단의 Py..

DAG 란? -> 방향성 비순환 그래프(Directed Acyclic Grapch)라고 부르며, airflow에서 각 태스크 별로 어떻게 실행되는 지 순서를 확인할 수 있는 그래프이며, 해당 그래프로 전체 파이프라인을 직관적으로 표현할 수 있다. 화살표의 관계는 방향성의 시작점의 태스크가 완료되어야 방향성이 가리키는 태스크를 실행할 수 있다는 의미이다. 이러한 관계이기에, 반복이나 순환을 허용하지 않는다. 만약, 허용하게 된다면 논리적 오류가 발생되어 교착상태(데드락 = deadlock)로 이어진다. [ 예시 사진 ] 태스크 1의 순서인 첫번째가 혹시, 병렬 구조로 2개의 태스크가 독립적으로 이루어지는 케이스들도 존재한다. 해당 태스크는 병렬로 실행하여 가용 컴퓨팅 리소스를 더 효율적으로 사용할 수 있다..