Geekfactor Geekfactor

Data Engineer

Пайплайны данных: ETL/ELT, DWH, качество данных, оркестрация.

Уровни и матрица компетенций

Junior

Junior Data Engineer

Пайплайны данных на базовом уровне: загрузки, простые трансформации, расписание.

Задачи и ответственность

- Делать загрузки данных
- Поддерживать пайплайны
- Писать простые трансформации
- Следить за ошибками джоб

Требования

- SQL
- Python basics
- Airflow basics
- Git
- Понимание DWH на уровне терминов

Темы для интервью

- ETL vs ELT
- Incremental load
- Data quality basics
- Scheduling

Проекты в портфолио

- ETL pipeline
- DQ checks
- Простая витрина

Рост и следующие шаги

Дальше: Middle DE (оркестрация, качество, стриминг).

Middle

Middle Data Engineer

Надежные пайплайны, качество, модели данных, оркестрация.

Задачи и ответственность

- Проектировать пайплайны
- Делать модели данных
- Улучшать качество
- Автоматизировать проверки и алерты

Требования

- Airflow advanced
- dbt или слой моделей
- Kafka или стриминг базово
- Observability пайплайнов

Темы для интервью

- Backfills
- Partitioning
- Data contracts
- Late arriving data

Проекты в портфолио

- dbt проект
- Airflow DAGs с ретраями
- Мониторинг качества

Рост и следующие шаги

Senior DE / Platform Data.

Senior

Senior Data Engineer

Архитектура данных: DWH/Lakehouse, надежность, стандарты, производительность.

Задачи и ответственность

- Архитектура хранилища
- Стандарты качества и моделей
- Оптимизация стоимости и perf
- Менторинг

Требования

- Архитектуры данных
- Performance tuning
- Governance
- Безопасность данных

Темы для интервью

- Lakehouse
- Streaming гарантии
- SLA для данных
- Версионирование схем

Проекты в портфолио

- Архитектурный план
- Дата каталог
- Набор стандартов

Рост и следующие шаги

Data Architect / Head of Data Engineering.

Статьи

PodCast Python: Асинхронщина с базами данных
Джуниорские темы из нашей повестки никуда не исчезли, но первый выпуск после трансформации Python Junior Podcast → Moscow Python Podcast преисполнен хардкора и…
Просто про Git
Git - распределенная система контроля версий, она облегчает работы с исходными кодами. Система управления версиями позволяет хранить несколько версий одного и …
Учимся использовать API сервиса Yandex SpeechKit
После прочтения статьи вы сможете: разобраться, что же такое API на простых примерах (macOS); познакомиться с сервисом распознавания и синтеза речи от Yandex; …
Библиотека Requests: HTTP for Humans
Язык Python является универсальным языком программирования. С его помощью можно решать разнообразные задачи в сфере разработки. Одной из таких сфер, в котор…
Материалы для новичков в python
Часто у новичков, которые только начинают знакомиться с программированием на python, возникает чувство некой пустоты, будто есть что-то, чем со всеми поделилис…
HR-аналитика и Python
Для каждого набора на курсах Learn Python мы создаем чаты, в которых общаются наши ученики и кураторы. Эти чаты остаются и по окончании учебы. И помимо вопросо…
Learn Python в Пензе
23 ноября начнутся занятия у учеников нового набора курсов Learn Python. Но теперь оффлайн-занятия будут проходить не только в Москве, но и в Пензе. И …
Батарейки в python есть, но они протекают - Эмбер Браун в дискуссии с Гвидо
Amber Brown (контрибьютор в Twisted) поделилась своей критикой стандартной библиотеки Python. Это оказалось самой спорной дискуссий дня; Гвидо ван Россум буква…