FLUXO NATIVO
Mais sinais
Microserviços, Kubernetes, filas e APIs aumentam volume e cardinalidade todos os dias.
Do primeiro span ao projeto em produção: um treinamento ao vivo de 6 módulos para operar observability de verdade, com OpenTelemetry, Apache Kafka, ClickHouse, ClickStack (HyperDX), Kubernetes, RCA e IA aplicada.
Plataformas modernas geram sinais demais, mudam rápido demais e custam caro demais para serem operadas só com dashboard e alerta genérico. SREs, DevOps, Platform Engineers e times de backend precisam entender telemetria como arquitetura: ingestão, contexto, retenção, query, custo e resposta a incidentes.
FLUXO NATIVO
Microserviços, Kubernetes, filas e APIs aumentam volume e cardinalidade todos os dias.
CUSTO
Sem modelagem e retenção, observability vira uma conta crescente que pouca gente sabe explicar.
RCA
O raro que acontece quando logs, traces e métricas respondem perguntas durante o incidente.
Observability real nasce em produção, não em tutorial. O curso parte de problemas que você já conhece: cardinalidade fora de controle, contexto perdido entre serviços, Collector subdimensionado, Apache Kafka mal dimensionado para absorver picos de ingestão e time tentando fazer RCA no escuro.
A promessa é prática: sair com repertório para desenhar uma stack, defender trade-offs e operar sinais confiáveis em cloud native, com revisão ao vivo durante a jornada.
TRACES
Span sem nome útil, atributo demais, propagação falhando e RCA virando caça ao tesouro.
METRICS
Métrica que parecia simples explode custo, degrada query e atrapalha alerta confiável.
PIPELINE
Sem fila, sem retry, sem health do próprio pipeline e sem clareza de capacidade.
QUERY
Logs, traces e métricas existem, mas não se correlacionam quando o time precisa decidir rápido.
01
Use OpenTelemetry sem explodir cardinalidade, custo ou ruído operacional.
02
ClickHouse, ClickStack, retenção, TTL e schema pensados para investigação.
03
Pipeline com OTel Collector, Fluent Bit, Apache Kafka, retry, health checks e sinais do próprio sistema.
04
Conecte MCP ao ClickStack e tenha agentes consultando seus sinais para chegar à causa raiz antes de você terminar de ler o alerta.
A jornada conecta instrumentação, coleta, buffer, armazenamento analítico e investigação. O foco é entender onde cada decisão impacta custo, latência, confiabilidade e RCA.
Elasticsearch nasceu para busca textual e indexação invertida. Em observability moderna, a investigação é agregação em alto volume, cardinalidade alta e custo previsível. ClickHouse entra como motor analítico colunar para esse workload.
NETFLIX
5 PB/diaLog em escala massiva com ClickHouse, mais de 10 milhões de eventos por segundo e queries interativas.
EDD
–30%Migração do Elasticsearch para ClickHouse em logs, com redução de custo de hardware e queries mais rápidas.
META
62xCompressão de dados não estruturados em ClickHouse com melhoria expressiva de performance.
CLICKHOUSE
10x+Compressão e retenção longa para dados OTel com tempo de query como primeira resposta.
Loki é forte para logs e tem pouco overhead. Mas a proposta aqui é correlacionar logs, traces e métricas com SQL e schema. ClickHouse e ClickStack fazem isso nativamente.
Números baseados em materiais públicos de ClickHouse, Netflix, Red, Sentry e Cloudflare.
Monitoramento vs observability, métricas, traces, logs, SLI, SLO, SLA, Error Budget e ODD.
SDK, API, OpenTelemetry Collector, exporters, processors, semantic conventions, Go, Java, contexto e sampling.
MergeTrees, particionamento, compressão, schema design, queries analíticas, retenção, custo e comparação com Elasticsearch.
OpenTelemetry Collector em modo agent/gateway, Fluent Bit, Apache Kafka, ClickHouse, kind/minikube, DaemonSet, HPA com KEDA, helm, Strimzi e Ability.
Retry, fila, persistent storage, multi-cluster, isolamento de ingestão/query, alertas do pipeline e capacity planning.
Agentes consultando traces e logs, RCA, runbooks gerados e limites do que automatizar.
É para você se...
Você atua com backend, plataforma, SRE ou DevOps ou arquitetura.
Você já viveu deploy, incidentes, Kubernetes, cloud ou sistemas distribuídos.
Você quer ser o "toolbelt" para desenhar pipeline confiável.
Você precisa justificar custo, retenção, sampling e schema e trade-offs técnicas.
Não é a melhor escolha se...
Você busca um curso introdutório de programação ou DevOps do zero.
Você quer apenas aprender a clicar em uma ferramenta SaaS específica.
Você não consegue reservar tempo semanal para aula ao vivo e prática.
Você espera respostas mágicas sem discutir contexto, custo e operação.
Cada sessão combina teoria aplicada, terminal aberto, decisões de arquitetura e exercícios/demos e tempo real para dúvidas. A turma é guiada semana a semana para manter ritmo, profundidade e troca entre pessoas que já vivem produção.
Quintas, 19h–22h, em 6 encontros, totalizando 18 horas ao vivo.
Interação direta durante cada aula, com espaço para casos reais trazidos pela turma.
Entrega no GitHub para validar prática, raciocínio técnico, documentação e trade-offs.
Entrega prática revisada ao vivo: serviços instrumentados, pipeline, backend analítico e decisões de arquitetura.
A abordagem combina implementação, leitura crítica de área e decisões de operação. Não é uma coleção de ferramentas: é um sistema para diagnosticar produção com dados reais, contexto e automação onde ela faz sentido.
O fechamento do curso é um projeto com serviços instrumentados, pipeline completo, backend analítico e dashboard funcional. A revisão acontece ao vivo para transformar cada decisão em aprendizado coletivo.
O curso é conduzido por profissionais que vivem arquitetura, confiabilidade, plataforma, dados e observability em ambientes de alta exigência.
STAFF ENGINEER · PICPAY
Experiência em plataforma, observability e arquitetura em ambientes de alta escala. Passou por IBM, CS Bank e Bradesco.
LinkedIn
PRINCIPAL
Ex-AWS principal specialist em OpenSearch para LATAM. Foco em dados, analytics e workloads críticos em produção.
LinkedInPara empresas, o treinamento pode ser adaptado ao contexto da plataforma: stack atual, volume de telemetria, dores de custo, arquitetura de ingestão, logs, traces e métricas e processos de incidentes.
Mapeamento de arquitetura atual, gargalos de custo, retenção, cardinalidade e pipeline.
Exercícios adaptados para decisões reais de OTel Collector, Fluent Bit, Apache Kafka e ClickHouse.
Turma dedicada para engenharia, plataforma, SRE ou DevOps, com agenda combinada.
Se nos primeiros 7 dias você perceber que o nível, o formato ou a proposta não se encaixam no seu momento, é só solicitar o reembolso. Sem formulário infinito, sem fricção desnecessária. A garantia existe para reduzir risco, não para empurrar uma compra.
Vagas limitadas para manter a qualidade da turma.
Entrar na lista de esperaA turma é ao vivo e terá tamanho controlado para preservar qualidade nas discussões, revisão de PRs e acompanhamento do projeto final.
ATÉ ANTECIPADO
R$ 300 de desconto para quem entrar na lista e garantir a primeira janela.
Entrar na lista de esperaNão. O curso assume que você já lida com deploys, incidentes e decisões de produção. Se você nunca viu um span, uma métrica ou um pipeline de logs, vale estudar fundamentos antes.
Não precisa dominar. O curso começa do SDK, mas assume maturidade de engenharia para entender trade-offs.
As aulas acontecem às quintas, das 19h às 22h. A proposta é aprender junto, tirar dúvidas ao vivo. Às gravações ficam disponíveis por até 1 ano para revisão.
Sim. Cada módulo tem lab, exercício ou estudo de caso, e as entregas principais acontecem via PR no GitHub.
Os dois aparecem. A base é self-hosted com ClickHouse, Apache Kafka, OTel Collector, Fluent Bit e ClickStack, mas decisões SaaS entram nos comparativos.
Entre na lista para receber data, condição antecipada, pré-requisitos e detalhes da matrícula. Sem spam — só quando a turma abrir.
Deixe seu e-mail e avisamos quando a próxima turma abrir — e quando tiver condição de lote antecipado.
Você está na lista! Avisaremos em primeira mão.