Анализ данных с помощью современного Apache Spark
Начало: По мере набора группы
Длительность: 1 неделя
СертификатОнлайн
Описание курса
(32 ак. часов) Курс дает практику построения распределенной обработки данных на Apache Spark: от базовых абстракций (RDD, DataFrame, Spark SQL) до production-настройки, оптимизации и параллелизма, а также потоковой обработки (Structured Streaming). В результате вы сможете разрабатывать и сопровождать масштабируемые ETL/аналитические пайплайны и приложения для batch/stream данных, подключать современные компоненты экосистемы (Delta Lake, Kubernetes, pandas API) и уверенно работать со слабоструктурированными форматами (JSON/XML).