수업 1HDFS 아키텍처, 네임노드, 데이터노드, 복제 및 저장소 고려사항 개요Cloudera 내 HDFS 아키텍처 개요를 제공하며, NameNode와 DataNode 역할, 블록 저장소, 복제에 대해 설명합니다. 랙 인식, 저장소 정책, 성능과 복원력을 위한 용량 계획을 논의합니다.
NameNode responsibilities and high availabilityDataNode duties, block reports, and heartbeatsBlock size, replication factor, and rack awarenessStorage policies, SSD tiers, and cold storageCapacity planning and balancing strategies수업 2Kafka 및 스트리밍 기본: Kafka 브로커, 토픽, 프로듀서, 컨슈머, 오프셋, 보존, 정확히 한 번 고려사항Cloudera에서 스트리밍을 위한 Kafka 개념을 소개하며, 브로커, 토픽, 파티션, 컨슈머 그룹을 다룹니다. 프로듀서, 컨슈머, 오프셋, 보존, 전달 보장, 신뢰할 수 있는 스트리밍 파이프라인을 위한 설계 선택을 다룹니다.
Kafka brokers, topics, partitions, and replicasProducers, acknowledgments, and batching optionsConsumers, groups, and offset managementRetention policies, compaction, and storage impactExactly-once semantics and idempotent design수업 3에코시스템 커넥터 및 도구: Oozie, Airflow, Flume, NiFi, Sqoop 및 Cloudera 구성 요소와의 통합Cloudera와 통합되는 에코시스템 도구를 소개하며, Oozie, Airflow, Flume, NiFi, Sqoop을 다룹니다. 오케스트레이션, 수집, 마이그레이션 패턴과 이러한 도구가 핵심 플랫폼 서비스에 어떻게 연결되는지 설명합니다.
Oozie workflows and coordinators for Hadoop jobsAirflow DAGs for cross-platform orchestrationFlume agents and channels for log ingestionNiFi flows, processors, and data routingSqoop imports, exports, and migration patterns수업 4Cloudera Manager 및 클러스터 서비스: 서비스 역할, 구성 관리, 모니터링, 알림, 라이프사이클 작업Cloudera Manager가 클러스터 서비스를 프로비저닝, 구성, 모니터링하는 방법을 설명합니다. 서비스 역할, 구성 관리, 건강 검사, 알림, 로깅, 업그레이드, 재시작, 롤링 변경 등의 라이프사이클 작업을 다룹니다.
Service roles and role groups in Cloudera ManagerCentralized configuration and safety valve patternsHealth checks, metrics, and log collectionAlert policies, notifications, and troubleshootingService lifecycle: deploy, restart, upgrade수업 5Cloudera의 Spark: 핵심 개념 (RDD, DataFrame, Dataset), 실행 모델, 클러스터 배포 모드Cloudera에서 Spark가 어떻게 실행되는지 탐구하며, RDD, DataFrame, Dataset 추상화를 다룹니다. Spark 실행 모델, 작업 및 스테이지, YARN, Kubernetes, standalone 등의 클러스터 배포 모드를 비교합니다.
RDD, DataFrame, and Dataset abstractionsTransformations, actions, and lazy evaluationJobs, stages, tasks, and the DAG schedulerCluster deployment modes: YARN and KubernetesResource tuning and executor configuration수업 6Hive 및 Impala: 메타스토어, 테이블 유형 (관리 vs 외부), SQL 의미론 및 사용 사례Cloudera에서 SQL 엔진으로서 Hive와 Impala를 다루며, 공유 메타스토어, 관리 테이블 대 외부 테이블, 스키마 설계를 중점으로 합니다. SQL 의미론, 성능 트레이드오프, 워크로드에 Hive 또는 Impala를 선택할 때를 설명합니다.
Hive metastore structure and catalog integrationManaged vs external tables and data ownershipPartitioning, bucketing, and file format choicesHive vs Impala SQL semantics and limitationsWorkload use cases and engine selection수업 7보안 구성 요소: Kerberos, Ranger, HDFS 권한, 키탭, SSL/TLS, 감사 로깅Cloudera 보안 빌딩 블록을 설명하며, Kerberos 인증, Ranger 권한 부여, HDFS 권한, TLS 암호화를 다룹니다. 키탭, 인증서 관리, 규정 준수 및 거버넌스를 위한 감사 로깅을 다룹니다.
Kerberos realms, principals, and ticket flowKeytab management and service principal hygieneRanger policies, tags, and row-level securityHDFS permissions, ACLs, and ownership modelsSSL/TLS setup, certificates, and audit trails