Geekfactor Geekfactor

SRE Engineer: Middle

Middle SRE Engineer

SLO, инциденты, наблюдаемость, устранение причин отказов.

Задачи и ответственность

- Вести инциденты
- Внедрять SLO
- Улучшать наблюдаемость
- Делать postmortem

Требования

- Observability stack
- Linux
- Kubernetes basics
- Понимание reliability

Темы для интервью

- SLI/SLO
- Alert fatigue
- Postmortem
- Error budgets