Пайплайны данных: ETL/ELT, DWH, качество данных, оркестрация.
Пайплайны данных на базовом уровне: загрузки, простые трансформации, расписание.
- Делать загрузки данных
- Поддерживать пайплайны
- Писать простые трансформации
- Следить за ошибками джоб
- SQL
- Python basics
- Airflow basics
- Git
- Понимание DWH на уровне терминов
- ETL vs ELT
- Incremental load
- Data quality basics
- Scheduling
- ETL pipeline
- DQ checks
- Простая витрина
Дальше: Middle DE (оркестрация, качество, стриминг).
Надежные пайплайны, качество, модели данных, оркестрация.
- Проектировать пайплайны
- Делать модели данных
- Улучшать качество
- Автоматизировать проверки и алерты
- Airflow advanced
- dbt или слой моделей
- Kafka или стриминг базово
- Observability пайплайнов
- Backfills
- Partitioning
- Data contracts
- Late arriving data
- dbt проект
- Airflow DAGs с ретраями
- Мониторинг качества
Senior DE / Platform Data.
Архитектура данных: DWH/Lakehouse, надежность, стандарты, производительность.
- Архитектура хранилища
- Стандарты качества и моделей
- Оптимизация стоимости и perf
- Менторинг
- Архитектуры данных
- Performance tuning
- Governance
- Безопасность данных
- Lakehouse
- Streaming гарантии
- SLA для данных
- Версионирование схем
- Архитектурный план
- Дата каталог
- Набор стандартов
Data Architect / Head of Data Engineering.