Data Engineering

Databricks certified data engineer associate 취득 후기(2024.08)

HOONY_612 2024. 8. 10. 13:59
반응형

 

 

계기

이번 자격증은 Databricsk 에서 발급하는 "Databricks certified data engineer associate"에 대해 얘기해보려고한다.

내가 이 시험을 친 계기는 회사 사정으로 인해 Data Engineer 로 직무를 바꿔야하는 상황?이 왔다.

처음엔 많은 고민이 되었지만 긴 인생 살아가면서 아주 작은 부분에 해당할 수 있고 이러한 경험을 언제할 수 있을지 모른다.

그래서 Data Engineer 로 직무 변경의 기회를 잡았다.

 

현재 Datawarehouse Hadoop 클러스터의 모든 테이블을 Databricks - Azure 의 Datalake 로 이전하는 작업을 진행중이다.

그러나 데이터 플랫폼 개발했어도 하둡과 Datalake 에 대해서는 생소하였다.

어떤 방향성을 가지고 어떻게 학습해야하는지 고민하다 회사에서 위 자격증을 추천했다.

이렇게 난 Data Engineer 커리어의 첫 걸음을 내딛었다.

 

시험 소개

시험에 대해서 간략하게 소개하겠다.

 

1. 문제: 객관식(45문항)

2. 비용: 200달러(Voucher 사용 시 50% 할인)

3. 언어: 영어, 일본어, 포르투갈어, 한국어

4. 시험 방식: 온라인

5. 유효기간: 2년

 

시험에 나오는 주제는 아래와 같다.

 

Databricks Lakehouse Platform – 24%

ELT With Spark SQL and Python – 29%

Incremental Data Processing – 22%

Production Pipelines – 16%

Data Governance – 9%

 

준비 방법

시험준비는 Databricks 제공해주는 시험 + Udemy 제공하는 Exam 5개로 준비하였다.

준비기간은 2주였다.

처음 바로 문제를 풀려고하면 위 시험들이 어렵게 느껴진다.

아래의 개념들을 공식문서 또는 블로그를 통해 학습하고 시험을 치길 권장한다.

 

1. 메달리온 아키텍처 브론즈, 실버, 골드 역할

2. Python 기본 문법(if, for..) + SQL 기본 문법

3. AutoLoader 개념

4. DLT 개념

5. Datalakehouse 개념

 

위 개념이 학습되었다면 문제를 풀면서 어떤 옵션이 있고 차이는 무엇이고 옵션 선택 시 동작은 어떻게 하는지 파악하는게 중요하다.

 

1. Auto Loader vs COPY INTO

2. INSERT INTO vs MERGE INTO

3. INSERT OVERWRITE vs CREATE OR REPLACE TABLE

4. CREATE OR REPLACE TABLE vs CREATE IF NOT EXIST

 

그리고 문제를 보면 어떤 상황에 대한 대처 방법을 물어보는 문제가 많이 나온다.

 

예시> 데이터 사이언스 팀이 동시 많은 사용자가 있는 경우 SQL 느리게 실행됨. 어떻게 해결할 것 인가?

 

위 옵션 및 상황 대처에 대한 문제들은 기출문제를 풀어보면 어느정도 파악이 가능하다.

 

제일 골치아픈 부분은 ELT With Spark SQL and Python 였다.

나도 시험을 치면서 처음보는 문법 및 함수들이 있었다.

최대한 많이 외우고 들어가는 게 좋다.

https://spark.apache.org/docs/latest/sql-ref-functions.html

 

Functions - Spark 3.5.1 Documentation

 

spark.apache.org

위 함수들을 다 외우진 못해도 처음 보거나 자주 나오는 문법은 외워주자.(FLATTEN, EXPLODE ..)

 

한국어 vs 영어

한국어 혹은 영어로 시험을 볼 수 있다.

시험을 쳐보니 한글이 좀 어색한 부분이 있긴했다.

그러나 기출문제와 다른 유형들이 출제되는게 많았다.

이런 문제들은 문제를 빠르게 파악하고 보기를 비교할 수 있어야한다.

만약 영어를 잘한다면 영어를 보는 것도 좋아보이지만 난 한국어가 편했다.

 

익숙하지 않은 것 예시

Temporary View -> 임시 뷰

 

시험 전 준비 사항

시험 등록 후 메일로 링크를 받으면 로그인을 하고 LockBrowser? + 사진 등록 과정을 해주어야한다.

그리고 시험 시작 10분 전 "?" 모양이 시험을 칠 수 있도록 변경된다.

그것을 누르고 시험을 시작하면 된다.

여권 확인은 안했지만 가지고 있자.

 

후기

난 결과적으로 6 ~ 7 개(85~86%)를 틀렸다.

처음보는 문제들이 있어 그랬던 것 같다.

웃긴 게 얼마전 회의 중 DLT 에서 STREAM(LIVE.table) 이런 문법이 있어 궁금했었는데 이게 나왔다는 것..

문제: 왜 STREAM 을 붙이는 건지?

이런 문제들을 보면서 생각보다 문제들이 실무를 하는데 있어 필요한 문제들만 뽑아 놓았구나라는 느낌을 받았다.

이번 준비를 통해서 어떻게 Databricks 기본 기능들을 다뤄야하는지 파악했다.

다음엔 Professional 자격증을 도전해보고 싶다.

 

 

반응형