Надежность, SLO, инциденты, наблюдаемость и инженерные практики.
SLO, инциденты, наблюдаемость, устранение причин отказов.
- Вести инциденты
- Внедрять SLO
- Улучшать наблюдаемость
- Делать postmortem
- Observability stack
- Linux
- Kubernetes basics
- Понимание reliability
- SLI/SLO
- Alert fatigue
- Postmortem
- Error budgets
- SLO setup
- Dashboards
- Incident playbooks
Senior SRE / Platform.