America's Job Portal
Estamos em busca de um(a) Site Reliability Engineer (SRE) para atuar em um ambiente desafiador, contribuindo diretamente para a confiabilidade, escalabilidade e performance de sistemas críticos.
Principais Responsabilidades Definir e evoluir SLIs, SLOs e Error Budgets para serviços críticos. Implantar e manter observabilidade ponta a ponta (métricas, logs, traces e alertas). Automatizar processos operacionais, reduzindo atividades manuais (toil). Apoiar times de produto na adoção de boas práticas de resiliência, disponibilidade e performance. Atuar na otimização de capacidade, escalabilidade e custos da infraestrutura. Fortalecer processos de deploy seguro utilizando CI/CD, rollback, canary releases e feature flags. Promover uma cultura de melhoria contínua, aprendizado e gestão blameless de incidentes.
✅ Requisitos Obrigatórios Experiência com operação de sistemas distribuídos em ambientes Cloud (AWS ou Azure). Vivência com Kubernetes e containers em produção....