Contexto perdido entre serviços
Span sem nome útil, atributo demais, propagação falhando e RCA virando caça ao tesouro.
Ao vivo · Terças, 19h-22h · engenheiros pleno+
Do primeiro span ao projeto em produção: um treinamento ao vivo de 6 módulos para operar observability de verdade, com OpenTelemetry, Apache Kafka, ClickHouse, ClickStack/HyperDX, Kubernetes, RCA e IA aplicada.
Para quem já vive produção
Observability real nasce em produção, não em tutorial. O curso parte de problemas que você já conhece: cardinalidade fora de controle, contexto perdido entre serviços, Collector subdimensionado, Apache Kafka mal dimensionado para absorver picos de ingestão e time tentando fazer RCA no escuro.
A promessa é prática: sair com repertório para desenhar uma stack, defender trade-offs e operar sinais confiáveis em cloud native, com revisão ao vivo durante a jornada.
Onde a stack costuma quebrar
Span sem nome útil, atributo demais, propagação falhando e RCA virando caça ao tesouro.
Métrica que parecia simples explode custo, degrada query e atrapalha alerta confiável.
Sem fila, sem retry, sem health do próprio pipeline e sem clareza de capacidade.
Logs, traces e métricas existem, mas não se correlacionam quando o time precisa decidir rápido.
Use OpenTelemetry sem explodir cardinalidade, custo ou ruído operacional.
ClickHouse, ClickStack/HyperDX, retenção, TTL e schema pensados para investigação.
Pipeline com OpenTelemetry Collector, Fluent Bit, Apache Kafka, retry, health checks e sinais do próprio sistema.
MCP, RCA assistido e limites claros para automação em produção.
Diferencial central
O curso não trata ClickHouse como detalhe de backend. A stack analítica é parte do desenho: ingestão, compressão, retenção, query, custo e experiência de investigação.
Logs em escala massiva com ClickHouse, mais de 10 milhões de eventos por segundo e queries interativas.
Migração de Elasticsearch para ClickHouse em logs, com redução de custo de hardware e queries mais rápidas.
Consulta de dados não estruturados em ClickHouse com melhoria expressiva de performance.
Compressão e retenção longa para dados OpenTelemetry sem tratar amostragem como primeira resposta.
Elasticsearch nasceu para busca textual e indexação invertida. Em observability moderna, muita investigação é agregação em alto volume, cardinalidade alta, retenção longa e custo previsível. ClickHouse entra como motor analítico colunar para esse tipo de workload.
Loki é forte para logs no modelo label-first, mas a proposta aqui é correlacionar logs, traces e métricas com SQL, schema, TTL, compressão e ClickStack/HyperDX como experiência completa de investigação.
Números baseados em materiais públicos de ClickHouse, Netflix, Didi, Sentry e ClickStack.
Projeto em produção
A jornada conecta instrumentação, coleta, buffer, armazenamento analítico e investigação. O foco é entender onde cada decisão impacta custo, latência, confiabilidade e RCA.
Perfil da turma
Currículo
Monitoramento vs observability, métricas, traces, logs, SLI, SLO, SLA, Error Budget e ODD.
SDK, API, OpenTelemetry Collector, exporters, processors, semantic conventions, Go, Java, contexto e sampling.
MergeTree, particionamento, compressão, schema design, queries analíticas, retenção, custo e comparação com Elasticsearch/Loki.
OpenTelemetry Collector em modo agent/gateway, Fluent Bit, Apache Kafka, ClickHouse, kind/minikube, DaemonSet, HPA com KEDA, Helm, Strimzi e Altinity.
Retry, fila, persistent storage, multi-cluster, isolamento de ingestão/query, alertas do pipeline e capacity planning.
Agentes consultando traces e logs, RCA assistido, runbooks gerados e limites do que automatizar.
Formato ao vivo
Cada sessão combina teoria aplicada, terminal aberto, decisões de arquitetura exercícios/demos e tempo real para dúvidas. A turma é guiada semana a semana para manter ritmo, profundidade e troca entre pessoas que já vivem produção.
Terças, 19h-22h, em 6 encontros, totalizando 18 horas ao vivo.
Interação direta durante cada aula, com espaço para casos reais trazidos pela turma.
Entrega no GitHub para validar prática, raciocínio técnico, documentação e trade-offs.
Entrega prática revisada ao vivo: serviços instrumentados, pipeline, backend analítico e decisões de arquitetura.
$ observability360 stack plan
signals:
traces: context propagation, sampling, span naming
metrics: SLIs, SLOs, error budget, pipeline health
logs: structured events, RCA, high-cardinality queries
pipeline:
app -> OpenTelemetry Collector / Fluent Bit -> Apache Kafka -> ClickHouse -> ClickStack/HyperDX
ops:
kubernetes: daemonset, deployment, keda
storage: retention, ttl, compression
review: pull request + live architecture review
Pegada dev
A abordagem combina implementação, leitura crítica de sinais e decisões de operação. Não é uma coleção de ferramentas: é um sistema mental para diagnosticar produção com dados reais, contexto e automação onde ela faz sentido.
Projeto final
O fechamento do curso é um projeto com serviços instrumentados, pipeline completo, backend analítico e dashboard funcional. A revisão acontece ao vivo para transformar cada decisão em aprendizado coletivo.
Pré-requisitos e ambiente
Instrutores
O curso é conduzido por profissionais que vivem arquitetura, confiabilidade, plataforma, dados e observability em ambientes de alta exigência.
FAQ
Não. O curso assume que você já lida com deploys, incidentes e decisões de produção. Se você nunca viu um span, uma métrica ou um pipeline de logs, vale estudar fundamentos antes.
Não precisa dominar. O curso começa do zero em OpenTelemetry, mas assume maturidade de engenharia para entender trade-offs.
As aulas acontecem às terças, das 19h às 22h. A proposta é aprender junto, tirar dúvidas e ainda ter a semana para desenvolver exercícios e projeto. As gravações ficam disponíveis como apoio de revisão por até 1 ano.
Sim. Cada módulo tem lab, exercício ou estudo de caso, e as entregas principais acontecem via PR no GitHub.
Os dois aparecem. A base prática foca self-hosted com ClickHouse, Apache Kafka, OpenTelemetry Collector, Fluent Bit e ClickStack/HyperDX, mas decisões SaaS entram nos comparativos.
Turmas para empresas
Para empresas, o treinamento pode ser adaptado ao contexto da plataforma: stack atual, volume de telemetria, dores de custo, arquitetura de ingestão, logs, traces, métricas e processo de incidentes.
Mapeamento de arquitetura atual, gargalos de custo, retenção, cardinalidade e pipeline.
Exercícios adaptados para decisões reais de OpenTelemetry Collector, Fluent Bit, Apache Kafka e ClickHouse.
Turma dedicada para engenharia, plataforma, SRE, DevOps ou arquitetura, com agenda combinada.
Próxima turma
A turma é ao vivo e terá tamanho controlado para preservar qualidade nas discussões, revisão de PRs e acompanhamento do projeto final.