수업 1데이터 레이크 및 객체 저장소 선택: S3, GCS, Azure Blob — 파티셔닝 전략, 파일 형식(Parquet/ORC/Avro) 및 압축주요 클라우드의 데이터 레이크 설계를 탐구하고 S3, GCS, Azure Blob을 비교합니다. 파티셔닝 전략, 파일 레이아웃, Parquet, ORC, Avro, 압축 선택이 성능, 비용, 다운스트림 처리에 미치는 영향을 배웁니다.
S3, GCS, Azure Blob 기능 비교버킷, 폴더, 명명 규칙 설계시간, 엔티티, 라이프사이클 단계별 파티셔닝워크로드에 따른 Parquet, ORC, Avro 선택압축 코덱 및 성능 트레이드오프작은 파일 최적화 및 압축 작업수업 2배치 수집 및 상호운용성: Sqoop/CDC 도구, AWS Glue, Google Dataflow 배치, Airbyte 커넥터, 야간 내보내기 스케줄링Sqoop, CDC 도구, AWS Glue, Google Dataflow 배치, Airbyte를 사용하여 데이터베이스 및 SaaS 시스템에서 배치 수집 옵션을 배웁니다. 야간 및 장중 로드, 스키마 처리, 이종 소스 간 상호운용성을 설계합니다.
Sqoop 및 JDBC 기반 벌크 추출변경 데이터 캡처 도구 및 패턴배치 수집을 위한 AWS Glue 작업Google Dataflow 배치 파이프라인 설계Airbyte 커넥터 및 구성야간 및 장중 로드 스케줄 설계수업 3스트림 처리 프레임워크: Apache Flink, Kafka Streams, Spark Structured Streaming — 정확히한번 의미론, 상태 관리, 윈도잉, 워터마킹Apache Flink, Kafka Streams, Spark Structured Streaming으로 스트림 처리를 탐구합니다. 상태ful 연산자 설계, 정확히 한번 의미론 구현, 견고한 실시간 분석을 위한 윈도우와 워터마크 구성 방법을 배웁니다.
Flink 아키텍처 및 배포 옵션Kafka Streams 토폴로지 및 상태 저장소Spark Structured Streaming 마이크로배치 모델정확히 한번 의미론 및 멱등 싱크상태 관리, 체크포인트, 복구윈도잉, 워터마킹, 늦은 이벤트수업 4통합 및 API 레이어: GraphQL/REST API, 제품 피드를 위한 물질화된 뷰, 소비자 데이터 액세스 패턴분석 및 운영 데이터를 노출하는 통합 및 API 레이어를 탐구합니다. GraphQL 및 REST 패턴, 제품 피드를 위한 물질화된 뷰 사용, 다양한 소비자를 위한 안전하고 거버넌스된 데이터 액세스 설계를 배웁니다.
데이터 액세스를 위한 REST API 설계분석을 위한 GraphQL 스키마 및 리졸버제품 피드를 위한 물질화된 뷰 사용API를 위한 캐싱 및 페이지네이션 전략행 수준 보안 및 권한 부여버전 관리 및 하위 호환 계약수업 5스트리밍 수집 옵션 및 패턴: Kafka, Confluent Platform, AWS Kinesis, Google Pub/Sub — 프로듀서, 파티셔닝, 스키마 진화 고려사항Kafka, Confluent, Kinesis, Pub/Sub을 포함한 스트리밍 수집 플랫폼을 이해합니다. 프로듀서 설계, 파티셔닝 전략, 스키마 진화, 도메인 간 내구성 있고 확장 가능한 이벤트 수집 패턴을 배웁니다.
Kafka 토픽, 파티션, 복제Confluent Platform 생태계 구성 요소AWS Kinesis 스트림 및 파이어호스 사용Google Pub/Sub 설계 및 할당량프로듀서 설계, 배칭, 백프레셔Avro 및 스키마 레지스트리와의 스키마 진화수업 6실시간 서빙 저장소: Redis, RocksDB 기반 저장소, Cassandra, OLAP 스트리밍 쿼리를 위한 DruidRedis, RocksDB 기반 엔진, Cassandra, Druid과 같은 실시간 서빙 저장소를 연구합니다. 액세스 패턴, 데이터 모델링, 신선한 스트리밍 데이터에 대한 저지연 조회 및 OLAP 스타일 쿼리 지원 방법을 배웁니다.
캐시 및 기본 데이터 저장소로서의 RedisRocksDB 기반 상태ful 서비스시계열을 위한 Cassandra 데이터 모델링스트리밍 OLAP을 위한 Druid 아키텍처일관성, 지연, 비용 균형용량 계획 및 핫스팟 완화수업 7분석을 위한 데이터 웨어하우스 옵션: Snowflake, BigQuery, Redshift — CTAS, 물질화된 뷰, 비용/신선도 트레이드오프Snowflake, BigQuery, Redshift와 같은 데이터 웨어하우스 옵션을 비교합니다. CTAS 패턴, 물질화된 뷰, 클러스터링, 분석 워크로드에 대한 비용, 성능, 데이터 신선도 균형 방법을 배웁니다.
Snowflake 가상 웨어하우스 및 스케일링BigQuery 저장소 및 쿼리 최적화Redshift 분배 및 정렬 키파생 테이블을 위한 CTAS 패턴물질화된 뷰 및 새로고침 정책비용 대 신선도 트레이드오프 및 튜닝수업 8배치 처리 및 오케스트레이션: Apache Spark, EMR/Dataproc의 Spark, 변환을 위한 DBT, 오케스트레이션을 위한 Airflow/Cloud Composer/Managed WorkflowsEMR 및 Dataproc의 Spark로 배치 처리, dbt로 SQL 중심 변환을 이해합니다. Airflow, Cloud Composer, Managed Workflows를 사용한 오케스트레이션 패턴으로 신뢰성 있고 관찰 가능한 배치 파이프라인을 구축합니다.
Spark 클러스터 모드 및 리소스 크기 조정ETL 및 ELT를 위한 Spark 작업 설계dbt 모델, 테스트, 문서화Airflow DAG 설계 및 종속성 관리배치 작업을 위한 스케줄링, 재시도, SLA파이프라인을 위한 모니터링, 로깅, 경고수업 9피처 저장소 및 ML 데이터 플랫폼: Feast, Tecton 또는 Delta Lake/BigQuery를 사용한 커스텀 피처 파이프라인; 온라인 vs 오프라인 피처 서빙Feast, Tecton 또는 Delta Lake 및 BigQuery의 커스텀 파이프라인을 사용한 피처 저장소 및 ML 데이터 플랫폼을 검토합니다. 피처 정의, 혈통, 일관된 모델 동작을 위한 온라인 대 오프라인 서빙 관리를 배웁니다.
피처 저장소 및 엔티티의 핵심 개념Feast 아키텍처 및 배포 패턴Tecton 기능 및 통합 옵션Delta Lake의 커스텀 피처 파이프라인 구축BigQuery의 오프라인 피처 계산온라인 대 오프라인 피처 서빙 설계