Responsabilidades
- Manter e otimizar a infraestrutura necessária para pipelines de Machine Learning em ambientes produtivos.
- Garantir a alta disponibilidade, escalabilidade e segurança da infraestrutura em nuvem.
- Monitorar e corrigir problemas em sistemas de modelos em produção, garantindo uma operação contínua e confiável.
- Trabalhar com equipes multidisciplinares (Engenharia de ML, Data Science e DevOps) para operacionalizar soluções.
- Gerenciar e manter ambientes com Docker e Kubernetes.
- Responder rapidamente a incidentes críticos, garantindo a estabilidade do ambiente produtivo.
Requisitos
Experiência em Nuvem:
- Domínio em pelo menos duas das principais plataformas de nuvem: Oracle OCI, AWS, Azure ou GCP, com preferência por Oracle OCI devido à sua utilização no projeto em questão.
- Configuração, monitoramento e manutenção de infraestrutura em nuvem.
Contêineres e Orquestração:
- Experiência avançada com Docker e Kubernetes para ambientes de produção.
Monitoramento e Manutenção:
- Conhecimento em ferramentas de observabilidade e monitoramento como o Dynatrace.
- Experiência com Jira para acompanhamento de tarefas e chamados.
- Experiência com incidentes em produção e resolução de problemas críticos.
Ciclo de Vida de Modelos de Machine Learning:
- Entendimento básico sobre o ciclo de vida de modelos de Machine Learning (treinamento, implantação, monitoramento e retreino).
Automação e CI/CD:
- Experiência com Terraform aplicado a pipelines de infraestrutura.
- Experiência básica com ferramentas de automação como Jenkins, GitHub Actions.
DIFERENCIAIS:
- Experiência com ferramentas de MLOps como MLflow, Airflow ou similares;
- Experiência em Data Science;
- Experiência com Python para Engenharia de Dados;