일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 클라우드
- nlp
- 직장인자기계발
- 분석
- 데이터분석
- 활성화함수
- 머신러닝
- It
- 패스트캠퍼스
- 딥러닝
- 리뷰
- 상관분석
- DAGs
- 자동매매프로그램
- 직장인인강
- 패캠챌린지
- API
- 빅데이터
- 패스트캠퍼스후기
- airflow
- 독서리뷰
- ChatGPT
- 챗지피티
- Ai
- Python
- 파이썬을활용한시계열데이터분석A-Z올인원패키지
- 방콕여행
- 태국여행
- 파이썬
- 데이터
- Today
- Total
목록스터디/Apache Airflow (6)
데이터를 기반으로

DAG에 새로운 스크립트를 업로드하고 나서 웹에서 확인하는데 보여지지 않아 기존에 띄워져 있던 webserver를 재실행하고자 했다. 그래서, 커널을 열고 기존 처럼 webserver 를 실행하면 재실행이 될 줄 알았는데, 위 사진과 같이 실행이 안되고, Can't connect to 메시지를 보이며 계속 멈춘 상태가 되었다. 그래서 특정 포트를 지정하고 실행해보고자 아래와 같이 실행했다. 8080 포트로 강제 부여해서 실행할 수 있을까? 하는 시도로 해보았지만...결과는 동일했다. 여기 저기 찾아보니 실행되고 있는 것을 종료시키고 실행해야된다고 나와있었다. 명령어 : ps -f -> 현재 실행되고 있는 모든 프로세스들을 보여준다. 명령어 : kill - (종료하고자 하는 PID) -> 해당 프로세스(P..

다음 학습인 DAGs 폴더에 파이썬 스크립트인 .py 파일을 업로드 하고, airflow webserver 에서 확인해보면 업로드 되어있어야 할 스크립트 파일이 없는 상황이었다. 보통 이러한경우는 크게 2가지로 나뉜다고 한다. 1. 스크립트파일(.py) 파일 자체 코드가 실행했을 때, 정상적으로 실행이 안되는 경우 2. DAGs 경로들이 제대로 인식되지 않은 경우 우선, 첫 번째 스크립트 파일을 뜯어보았다. 책 예제에서 보여주는 'download_rocket_launches.py' 파일이었고, 실행해보니 start_date 관련해서 오류가 발생했다. (해당 코드는 책에서 제공되는 git 을 로컬에 clone하여 받은 파일이다.) Error Message : RemovedInAirflow3Warning: ..
airflow DAGs 에서 파이썬 오퍼레이터가 정확히 어떻게 작동되는지에 대한 개념이 애매한 상태로 실무에서 적용해보고자 시도해본 적이 많았다. 그때마다 굉장한 어려움이 있었는데..역시 도서를 보고 개념부터 이해해가니 쉽게 이해할 수 있었다. 우선 함수를 정의 하는 부분의 코드들이 상단에 있다는 가정하에, def action_func(x) : y = x+2 return y get_pictures = PythonOperator( task_id="get_pictures", python_callable=action_func, dag=dag ) 위와 같은 코드에서 예로 들어 설명을 한다면, 실제로 파이썬 작업이 이루어지는 것은 함수 action_func 안의 코드이다. 해당 함수를 선언하기 위해서 하단의 Py..

DAG 란? -> 방향성 비순환 그래프(Directed Acyclic Grapch)라고 부르며, airflow에서 각 태스크 별로 어떻게 실행되는 지 순서를 확인할 수 있는 그래프이며, 해당 그래프로 전체 파이프라인을 직관적으로 표현할 수 있다. 화살표의 관계는 방향성의 시작점의 태스크가 완료되어야 방향성이 가리키는 태스크를 실행할 수 있다는 의미이다. 이러한 관계이기에, 반복이나 순환을 허용하지 않는다. 만약, 허용하게 된다면 논리적 오류가 발생되어 교착상태(데드락 = deadlock)로 이어진다. [ 예시 사진 ] 태스크 1의 순서인 첫번째가 혹시, 병렬 구조로 2개의 태스크가 독립적으로 이루어지는 케이스들도 존재한다. 해당 태스크는 병렬로 실행하여 가용 컴퓨팅 리소스를 더 효율적으로 사용할 수 있다..

[ Airflow 살펴보기 ] Airflow란, 워크플로우를 개발하고 모니터링하기 위한 오픈 소스 솔루션 이다. Airflow의 기능 중 스케줄링과 데이터 파이프라인 관리 등이 존재한다. 그 중 파이프라인에 대한 부분에 간단한 예시가 있다. 목적 : 실시간 날씨 데이터를 대시보드에 보여주고 싶다. 위와 같은 목표를 실행하기 위해 각각 세분화된 프로세스를 나누어야한다. 1. 먼저 날씨 API를 통해 일기 예보 데이터를 가져온다. 2. 서비스 목적에 맞도록 데이터를 정제하거나 변환한다. (예. 온도를 화씨에서 섭씨로 변환) 3. 변환된 데이터를 날씨 대시보드로 전송한다. 이렇게 3가지의 프로세스(이후에는 task라고 지칭함)를 나눠 각각 실행하며, 오류를 관리할 수 있도록 할 수 있는게 airflow의 파이..