분류 전체보기
-
SparkSQL CLI 대신 Spark Thrift ServerData Engineering 2024. 1. 15. 19:54
기본적으로 SparkSQL을 CLI(${SPARK_HOME}/bin/spark-sql)로 실행해왔다. 다른 방법으로 Thrift Server를 이용하여 JDBC/ODBC 접근이 가능하다. 사용이유 1. JDBC/ODBC사용하여 SparkSQL 사용가능. 2. DB 분석 툴이나 IDE 연계하여 사용가능함. 3. 동시에 여러 유저들이 사용가능함. 실행 기본 HMS가 RDB에 설정되어있어야한다. HMS 서버는 안 띄우더라도 HMS가 사용하던 DB가 있어야한다. 참고: https://hoony-612.tistory.com/82 1. 실행 //Default: jdbc:hive2://localhost:10000 ${SPARK_HOME}/sbin/start-thriftserver.sh //jdbc:hive2://..
-
Spark + S3 연동하기Data Engineering 2024. 1. 15. 16:12
이전 글에서는 SparkSQL로 LocalFileSystem에 Data를 기록하고 Hive Metastore에 Metadata를 기록하였다. 이번에는 LocalFileSystem 대신에 AWS S3 FileSystem을 사용하여 Spark 및 SparkSQL을 사용해보자. S3는 만들어져 있고 Access Key, Private Key 발급받는 과정은 생략한다. Spark Configuration 설정하기 1. AWS 사용을 위한 Jar 다운로드 및 ${SPARK_HOME}/jars 에 넣기 Spark와 아래 Jar버전이 안맞는 경우는 런타임 시 에러가 발생할 수 있으므로 확인하고 다운로드하자. * spark: 3.5.0 * aws-java-sdk-bundle-1.12.262.jar * hadoop-a..
-
Hive Metastore & SparkSQL & Local FileSystemData Engineering 2024. 1. 14. 20:07
SparkSQL로 RDB에 Metadata 및 실제 데이터를 저장하고 그것을 Hive Metastore(HMS)로 읽어들여보자. 버전 * Spark: 3.5.0 * Hadoop: 3.3.1 * Hive Metastore: 3.1.3 Hive Metastore 설치 1. hadoop, hive metastore, mysql connector 다운로드 //HADOOP Download curl -O https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz //HMS Download curl -O https://repo1.maven.org/maven2/org/apache/hive/hive-standalone-metastore/3.1..
-
CKA 합격 후기일상 2024. 1. 12. 21:03
시험을 준비하게 된 이유 작년 12월부터 공부하던 CKA 시험을 1월 11일에 치뤘다. 다행이 한 번의 시험만에 자격증을 취득할 수 있었다. 만약 못했다면 시험 스트레스로 몇 일을 고생했을 수 있다... 이번 CKA 시험의 계기는 회사 업무와 관련이 있다. 우리 회사는 실제 회사들이 주로 사용하는 AWS, GCP 등을 사용하지 못한다. 그래서 사용하고 싶은 제품들을 직접 온프레미스 Private Cloud 환경에서 만들다보니 쿠버네티스의 기초적인 지식이 꼭 필요했다. 왜냐하면 친절하게 UI 혹은 Guide가 위 회사들만큼 제공되지 않기 때문에 순수 환경을 이해하고 써야하는 경우가 많다. 물론 난 백엔드 개발자이지만 협업을 하다보면 TA(Helm차트 구성 및 Kubernetes운영하는 업무)분들과 협업할 ..