Microsserviços, Kubernetes, filas e APIs aumentam volume e cardinalidade todos os dias.
Ao vivo Quintas, 19h-22h Engenheiros pleno+
Observability
Do primeiro span ao projeto em produção: um treinamento ao vivo de 6 módulos para operar observability de verdade, com OpenTelemetry, Apache Kafka, ClickHouse, ClickStack (HyperDX), Kubernetes, RCA e IA aplicada.
- Quintas
- 19h-22h ao vivo
- 18 horas
- 6 módulos guiados
- Projeto
- entrega prática com revisão
Oportunidade de mercado
Observability virou competência de engenharia, não responsabilidade de uma ferramenta.
Plataformas modernas geram sinais demais, mudam rápido demais e custam caro demais para serem operadas só com dashboard e alerta genérico. SREs, DevOps, Platform Engineers e times de backend precisam entender telemetria como arquitetura: ingestão, contexto, retenção, query, custo e resposta a incidente.
Sem modelagem e retenção, observability vira uma conta crescente que pouca gente sabe explicar.
O valor real aparece quando logs, traces e métricas respondem perguntas durante o incidente.
Para quem já vive produção
Observability sem slide bonito e dashboard inútil.
Observability real nasce em produção, não em tutorial. O curso parte de problemas que você já conhece: cardinalidade fora de controle, contexto perdido entre serviços, Collector subdimensionado, Apache Kafka mal dimensionado para absorver picos de ingestão e time tentando fazer RCA no escuro.
A promessa é prática: sair com repertório para desenhar uma stack, defender trade-offs e operar sinais confiáveis em cloud native, com revisão ao vivo durante a jornada.
Onde a stack costuma quebrar
Se sua telemetria não ajuda no incidente, ela só está gerando custo.
Contexto perdido entre serviços
Span sem nome útil, atributo demais, propagação falhando e RCA virando caça ao tesouro.
Cardinalidade fora de controle
Métrica que parecia simples explode custo, degrada query e atrapalha alerta confiável.
Collector frágil em produção
Sem fila, sem retry, sem health do próprio pipeline e sem clareza de capacidade.
Dados que não respondem perguntas
Logs, traces e métricas existem, mas não se correlacionam quando o time precisa decidir rápido.
Instrumente com critério
Use OpenTelemetry sem explodir cardinalidade, custo ou ruído operacional.
Modele para query real
ClickHouse, ClickStack, retenção, TTL e schema pensados para investigação.
Opere sob pressão
Pipeline com OpenTelemetry Collector, Fluent Bit, Apache Kafka, retry, health checks e sinais do próprio sistema.
Use IA com contexto
Conecte MCP ao ClickStack e tenha agentes consultando seus sinais para chegar à causa raiz antes de você terminar de ler o alerta.
Projeto em produção
O pipeline que você vai montar, operar e defender tecnicamente.
A jornada conecta instrumentação, coleta, buffer, armazenamento analítico e investigação. O foco é entender onde cada decisão impacta custo, latência, confiabilidade e RCA.
Por que esse treinamento é diferente
Diferenciais Centrais
Observability orientada a custo e escala, com ClickHouse e ClickStack.
O curso não trata ClickHouse como detalhe de backend. A stack analítica faz parte do desenho desde o início: ingestão, compressão, retenção, query, custo e investigação.
Logs em escala massiva com ClickHouse, mais de 10 milhões de eventos por segundo e queries interativas.
Migração de Elasticsearch para ClickHouse em logs, com redução de custo de hardware e queries mais rápidas.
Consulta de dados não estruturados em ClickHouse com melhoria expressiva de performance.
Compressão e retenção longa para dados OpenTelemetry sem tratar amostragem como primeira resposta.
Por que ClickHouse e não só Elasticsearch?
Elasticsearch nasceu para busca textual e indexação invertida. Em observability moderna, muita investigação é agregação em alto volume, cardinalidade alta, retenção longa e custo previsível. ClickHouse entra como motor analítico colunar para esse tipo de workload.
Por que não só Loki?
Loki é forte para logs no modelo label-first, mas a proposta aqui é correlacionar logs, traces e métricas com SQL, schema, TTL, compressão e ClickStack como experiência completa de investigação.
Números baseados em materiais públicos de ClickHouse, Netflix, Didi, Sentry e ClickStack.
Currículo
Seis módulos para sair de sinais soltos para uma operação observável.
Fundamentos de Observability
Monitoramento vs observability, métricas, traces, logs, SLI, SLO, SLA, Error Budget e ODD.
OpenTelemetry do zero à produção
SDK, API, OpenTelemetry Collector, exporters, processors, semantic conventions, Go, Java, contexto e sampling.
ClickHouse como backend analítico
MergeTree, particionamento, compressão, schema design, queries analíticas, retenção, custo e comparação com Elasticsearch/Loki.
Infraestrutura, ingestão e logs
OpenTelemetry Collector em modo agent/gateway, Fluent Bit, Apache Kafka, ClickHouse, kind/minikube, DaemonSet, HPA com KEDA, Helm, Strimzi e Altinity.
Resiliência e Escala em Produção
Retry, fila, persistent storage, multi-cluster, isolamento de ingestão/query, alertas do pipeline e capacity planning.
IA e MCP em Observability
Agentes consultando traces e logs, RCA assistido, runbooks gerados e limites do que automatizar.
Perfil da turma
Feito para quem precisa operar, defender arquitetura e responder incidente.
É para você se...
- Você atua como backend, plataforma, SRE, DevOps ou arquitetura.
- Você já vive deploy, incidente, Kubernetes, cloud ou sistemas distribuídos.
- Você quer sair do “instalei ferramenta” para desenho de pipeline confiável.
- Você precisa justificar custo, retenção, sampling, schema e trade-offs técnicos.
Não é a melhor escolha se...
- Você busca um curso introdutório de programação ou DevOps do zero.
- Você quer apenas aprender a clicar em uma ferramenta SaaS específica.
- Você não consegue reservar tempo semanal para aula ao vivo e prática.
- Você espera respostas mágicas sem discutir contexto, custo e operação.
Formato ao vivo
Ao vivo. Toda quinta. Das 19h às 22h.
Cada sessão combina teoria aplicada, terminal aberto, decisões de arquitetura exercícios/demos e tempo real para dúvidas. A turma é guiada semana a semana para manter ritmo, profundidade e troca entre pessoas que já vivem produção.
Aulas ao vivo
Quintas, 19h-22h, em 6 encontros, totalizando 18 horas ao vivo.
Dúvidas em tempo real
Interação direta durante cada aula, com espaço para casos reais trazidos pela turma.
Exercícios via PR
Entrega no GitHub para validar prática, raciocínio técnico, documentação e trade-offs.
Projeto final
Entrega prática revisada ao vivo: serviços instrumentados, pipeline, backend analítico e decisões de arquitetura.
$ observability360 stack plan
signals:
traces: context propagation, sampling, span naming
metrics: SLIs, SLOs, error budget, pipeline health
logs: structured events, RCA, high-cardinality queries
pipeline:
app -> OTel Collector / Fluent Bit -> Apache Kafka -> ClickHouse -> ClickStack
ops:
kubernetes: daemonset, deployment, keda
storage: retention, ttl, compression
review: pull request + live architecture review
Pegada dev
Você aprende olhando para arquitetura, código, terminal e query.
A abordagem combina implementação, leitura crítica de sinais e decisões de operação. Não é uma coleção de ferramentas: é um sistema mental para diagnosticar produção com dados reais, contexto e automação onde ela faz sentido.
Projeto final
Entregue uma stack completa de observability.
O fechamento do curso é um projeto com serviços instrumentados, pipeline completo, backend analítico e dashboard funcional. A revisão acontece ao vivo para transformar cada decisão em aprendizado coletivo.
- Dois serviços instrumentados: Go e Java
- OpenTelemetry Collector com pipeline completo
- Apache Kafka como camada de desacoplamento e absorção de picos de ingestão
- ClickHouse como backend de observability
- ClickStack como experiência principal de investigação
- README com decisões de arquitetura e trade-offs
Pré-requisitos e ambiente
Você não precisa chegar especialista. Precisa chegar com base e vontade de abrir o terminal.
Conhecimento esperado
- Noções de HTTP, APIs, logs, métricas e deploy de aplicações.
- Vivência com backend, infraestrutura, SRE, DevOps ou plataforma.
- Familiaridade básica com Docker, Kubernetes ou cloud native.
Setup recomendado
- Máquina com Docker, Git e editor de código instalados.
- Conta GitHub para exercícios via PR e revisão.
- Ambiente local ou cloud para rodar labs com OpenTelemetry Collector, Fluent Bit, Apache Kafka, ClickHouse e ClickStack.
O que você leva
- Gravações por 1 ano para revisão.
- Exercícios e projeto final com contexto de produção.
- Critérios para tomar decisões de custo, escala, retenção e confiabilidade.
Instrutores
Aprenda com quem opera engenharia em escala.
O curso é conduzido por profissionais que vivem arquitetura, confiabilidade, plataforma, dados e observability em ambientes de alta exigência.
Turmas para empresas
Quer levar Observability 360 para seu time?
Para empresas, o treinamento pode ser adaptado ao contexto da plataforma: stack atual, volume de telemetria, dores de custo, arquitetura de ingestão, logs, traces, métricas e processo de incidentes.
Diagnóstico técnico
Mapeamento de arquitetura atual, gargalos de custo, retenção, cardinalidade e pipeline.
Labs no contexto do time
Exercícios adaptados para decisões reais de OpenTelemetry Collector, Fluent Bit, Apache Kafka e ClickHouse.
Formato fechado
Turma dedicada para engenharia, plataforma, SRE, DevOps ou arquitetura, com agenda combinada.
Garantia profissional
7 dias para validar se a turma faz sentido para você.
Se nos primeiros 7 dias você perceber que o nível, o formato ou a proposta não encaixam no seu momento, é só solicitar o reembolso. Sem formulário infinito, sem fricção desnecessária. A garantia existe para reduzir risco, não para empurrar uma compra.
Próxima turma
Vagas limitadas para uma turma realmente acompanhada.
A turma é ao vivo e terá tamanho controlado para preservar qualidade nas discussões, revisão de PRs e acompanhamento do projeto final.
- 18 horas ao vivo em 6 encontros às quintas
- Revisão de exercícios e projeto final
- Acesso às gravações por 1 ano
FAQ
Antes de entrar na lista.
É para iniciante?
Não. O curso assume que você já lida com deploys, incidentes e decisões de produção. Se você nunca viu um span, uma métrica ou um pipeline de logs, vale estudar fundamentos antes.
Preciso saber OpenTelemetry?
Não precisa dominar. O curso começa do zero em OpenTelemetry, mas assume maturidade de engenharia para entender trade-offs.
Vou conseguir acompanhar ao vivo?
As aulas acontecem às quintas, das 19h às 22h. A proposta é aprender junto, tirar dúvidas e ainda ter a semana para desenvolver exercícios e projeto. As gravações ficam disponíveis como apoio de revisão por até 1 ano.
Vai ter mão na massa?
Sim. Cada módulo tem lab, exercício ou estudo de caso, e as entregas principais acontecem via PR no GitHub.
É SaaS ou self-hosted?
Os dois aparecem. A base prática foca self-hosted com ClickHouse, Apache Kafka, OpenTelemetry Collector, Fluent Bit e ClickStack, mas decisões SaaS entram nos comparativos.
Lista de espera
Quer ser avisado quando a próxima turma abrir?
Entre na lista para receber data, condição antecipada, pré-requisitos e detalhes da matrícula.