Ao vivo · Toda quinta · 19h–22h · Vagas limitadas — entrar na lista de espera
AO VIVO TERÇAS 19H–22H PRESENCIALMENTE PLENO

Observa­bility 360

Do primeiro span ao projeto em produção: um treinamento ao vivo de 6 módulos para operar observability de verdade, com OpenTelemetry, Apache Kafka, ClickHouse, ClickStack (HyperDX), Kubernetes, RCA e IA aplicada.

OPORTUNIDADE DE MERCADO

Observability virou competência de engenharia, não responsabilidade de uma ferramenta.

Plataformas modernas geram sinais demais, mudam rápido demais e custam caro demais para serem operadas só com dashboard e alerta genérico. SREs, DevOps, Platform Engineers e times de backend precisam entender telemetria como arquitetura: ingestão, contexto, retenção, query, custo e resposta a incidentes.

FLUXO NATIVO

Mais sinais

Microserviços, Kubernetes, filas e APIs aumentam volume e cardinalidade todos os dias.

CUSTO

Menos desperdício

Sem modelagem e retenção, observability vira uma conta crescente que pouca gente sabe explicar.

RCA

Menos chute

O raro que acontece quando logs, traces e métricas respondem perguntas durante o incidente.

PARA QUEM JÁ VIVE PRODUÇÃO

Observability sem slide bonito e dashboard inútil.

Observability real nasce em produção, não em tutorial. O curso parte de problemas que você já conhece: cardinalidade fora de controle, contexto perdido entre serviços, Collector subdimensionado, Apache Kafka mal dimensionado para absorver picos de ingestão e time tentando fazer RCA no escuro.

A promessa é prática: sair com repertório para desenhar uma stack, defender trade-offs e operar sinais confiáveis em cloud native, com revisão ao vivo durante a jornada.

ONDE A STACK COSTUMA QUEBRAR

Se sua telemetria não ajuda no incidente, ela só está gerando custo.

TRACES

Contexto perdido entre serviços

Span sem nome útil, atributo demais, propagação falhando e RCA virando caça ao tesouro.

METRICS

Cardinalidade fora de controle

Métrica que parecia simples explode custo, degrada query e atrapalha alerta confiável.

PIPELINE

Collector frágil em produção

Sem fila, sem retry, sem health do próprio pipeline e sem clareza de capacidade.

QUERY

Dados que não respondem perguntas

Logs, traces e métricas existem, mas não se correlacionam quando o time precisa decidir rápido.

O que você vai aprender

01

Instrumente com critério

Use OpenTelemetry sem explodir cardinalidade, custo ou ruído operacional.

02

Modele para query real

ClickHouse, ClickStack, retenção, TTL e schema pensados para investigação.

03

Opere sob pressão

Pipeline com OTel Collector, Fluent Bit, Apache Kafka, retry, health checks e sinais do próprio sistema.

04

Use IA com contexto

Conecte MCP ao ClickStack e tenha agentes consultando seus sinais para chegar à causa raiz antes de você terminar de ler o alerta.

PROJETO EM PRODUÇÃO

O pipeline que você vai montar, operar e defender tecnicamente.

A jornada conecta instrumentação, coleta, buffer, armazenamento analítico e investigação. O foco é entender onde cada decisão impacta custo, latência, confiabilidade e RCA.

APPS Go + Java traces, metrics, logs
COLLECT OTel Collector agent/gateway, processors, exporters
LOGS Fluent Bit tail, parse, enrich
BUFFER Apache Kafka picos, retry, desacoplamento
STORE ClickHouse schema, TTL, compressão, SQL
INVESTIGATE ClickStack RCA, correlação, query
CLICKHOUSE

Por que ClickHouse e não só Elasticsearch?

Elasticsearch nasceu para busca textual e indexação invertida. Em observability moderna, a investigação é agregação em alto volume, cardinalidade alta e custo previsível. ClickHouse entra como motor analítico colunar para esse workload.

NETFLIX

5 PB/dia

Log em escala massiva com ClickHouse, mais de 10 milhões de eventos por segundo e queries interativas.

EDD

–30%

Migração do Elasticsearch para ClickHouse em logs, com redução de custo de hardware e queries mais rápidas.

META

62x

Compressão de dados não estruturados em ClickHouse com melhoria expressiva de performance.

CLICKHOUSE

10x+

Compressão e retenção longa para dados OTel com tempo de query como primeira resposta.

Por que não é Loki?

Loki é forte para logs e tem pouco overhead. Mas a proposta aqui é correlacionar logs, traces e métricas com SQL e schema. ClickHouse e ClickStack fazem isso nativamente.

CURRÍCULO

Seis módulos para sair de sinais soltos para uma operação observável.

Números baseados em materiais públicos de ClickHouse, Netflix, Red, Sentry e Cloudflare.

MÓDULO 1 · FUNDAMENTOS

Fundamentos de Observability

Monitoramento vs observability, métricas, traces, logs, SLI, SLO, SLA, Error Budget e ODD.

MÓDULO 2 · OPENTELEMETRY

OpenTelemetry do zero à produção

SDK, API, OpenTelemetry Collector, exporters, processors, semantic conventions, Go, Java, contexto e sampling.

MÓDULO 3 · CLICKHOUSE

ClickHouse como backend analítico

MergeTrees, particionamento, compressão, schema design, queries analíticas, retenção, custo e comparação com Elasticsearch.

MÓDULO 4 · INFRAESTRUTURA E LOGS

Infraestrutura, ingestão e logs

OpenTelemetry Collector em modo agent/gateway, Fluent Bit, Apache Kafka, ClickHouse, kind/minikube, DaemonSet, HPA com KEDA, helm, Strimzi e Ability.

MÓDULO 5 · RESILIÊNCIA

Resiliência e Escala em Produção

Retry, fila, persistent storage, multi-cluster, isolamento de ingestão/query, alertas do pipeline e capacity planning.

MÓDULO 6 · IA E MCP

IA e MCP em Observability

Agentes consultando traces e logs, RCA, runbooks gerados e limites do que automatizar.

PERFIL DA TURMA

Feito para quem precisa operar, defender arquitetura e responder incidente.

É para você se...

Você atua com backend, plataforma, SRE ou DevOps ou arquitetura.

Você já viveu deploy, incidentes, Kubernetes, cloud ou sistemas distribuídos.

Você quer ser o "toolbelt" para desenhar pipeline confiável.

Você precisa justificar custo, retenção, sampling e schema e trade-offs técnicas.

Não é a melhor escolha se...

Você busca um curso introdutório de programação ou DevOps do zero.

Você quer apenas aprender a clicar em uma ferramenta SaaS específica.

Você não consegue reservar tempo semanal para aula ao vivo e prática.

Você espera respostas mágicas sem discutir contexto, custo e operação.

FORMATO AO VIVO

Ao vivo. Toda quinta. Das 19h às 22h.

Cada sessão combina teoria aplicada, terminal aberto, decisões de arquitetura e exercícios/demos e tempo real para dúvidas. A turma é guiada semana a semana para manter ritmo, profundidade e troca entre pessoas que já vivem produção.

🎙️

Aulas ao vivo

Quintas, 19h–22h, em 6 encontros, totalizando 18 horas ao vivo.

💬

Dúvidas em tempo real

Interação direta durante cada aula, com espaço para casos reais trazidos pela turma.

🔀

Exercícios via PR

Entrega no GitHub para validar prática, raciocínio técnico, documentação e trade-offs.

🏁

Projeto final

Entrega prática revisada ao vivo: serviços instrumentados, pipeline, backend analítico e decisões de arquitetura.

PESADA DEV

Você aprende olhando para arquitetura, código, terminal e query.

A abordagem combina implementação, leitura crítica de área e decisões de operação. Não é uma coleção de ferramentas: é um sistema para diagnosticar produção com dados reais, contexto e automação onde ela faz sentido.

$ observability360 stack plan

signals:
  traces: context propagation, sampling, span naming
  metrics: SLIs, SLOs, error budget
  logs: structured events, RCA, high-cardinality queries

pipeline:
  app -> OTel Collector / Fluent Bit -> Apache Kafka -> ClickStack

ops:
  kubernetes: daemonset, deployment, keda
  storage: retention, ttl, compression
  review: pull request + live architecture review
PROJETO FINAL

Entregue uma stack completa de observability.

O fechamento do curso é um projeto com serviços instrumentados, pipeline completo, backend analítico e dashboard funcional. A revisão acontece ao vivo para transformar cada decisão em aprendizado coletivo.

Dois serviços instrumentados: Go e Java
OpenTelemetry Collector com pipeline completo
Apache Kafka como camada de desacoplamento e absorção de picos de ingestão
ClickHouse como backend de observability
ClickStack como experiência principal de investigação
README com decisões de arquitetura e trade-offs
PRÉ-REQUISITOS E AMBIENTE

Você não precisa chegar especialista. Precisa chegar com base e vontade de abrir o terminal.

Conhecimento esperado

  • Noções de HTTP, APIs, logs, métricas e deploy de aplicações
  • Vivência com backend, infraestrutura, SRE, DevOps ou plataforma
  • Familiaridade básica com Docker, Kubernetes ou cloud native

Setup recomendado

  • Máquina com Docker, Git e editor de código instalados
  • Conta GitHub para exercícios via PR e revisão
  • Ambiente local ou cloud para rodar labs com OTel, Apache Kafka, ClickHouse e ClickStack

O que você leva

  • Gravações por 1 ano para revisão
  • Exercícios e projeto final com contexto de produção
  • Critérios para tomar decisões de custo, escala, retenção e confiabilidade
INSTRUTORES

Aprenda com quem opera engenharia em escala.

O curso é conduzido por profissionais que vivem arquitetura, confiabilidade, plataforma, dados e observability em ambientes de alta exigência.

Luis Vinhali

STAFF ENGINEER · PICPAY

Luis Vinhali

Experiência em plataforma, observability e arquitetura em ambientes de alta escala. Passou por IBM, CS Bank e Bradesco.

LinkedIn
Rafael Gumiero

PRINCIPAL

Rafael Gumiero

Ex-AWS principal specialist em OpenSearch para LATAM. Foco em dados, analytics e workloads críticos em produção.

LinkedIn
TURMAS PARA EMPRESAS

Quer levar Observability 360 para seu time?

Para empresas, o treinamento pode ser adaptado ao contexto da plataforma: stack atual, volume de telemetria, dores de custo, arquitetura de ingestão, logs, traces e métricas e processos de incidentes.

Diagnóstico técnico

Mapeamento de arquitetura atual, gargalos de custo, retenção, cardinalidade e pipeline.

Labs no contexto do time

Exercícios adaptados para decisões reais de OTel Collector, Fluent Bit, Apache Kafka e ClickHouse.

Formato fechado

Turma dedicada para engenharia, plataforma, SRE ou DevOps, com agenda combinada.

Conversar sobre turma corporativa
🛡️

7 dias para validar se a turma faz sentido para você.

Se nos primeiros 7 dias você perceber que o nível, o formato ou a proposta não se encaixam no seu momento, é só solicitar o reembolso. Sem formulário infinito, sem fricção desnecessária. A garantia existe para reduzir risco, não para empurrar uma compra.

Vagas limitadas para manter a qualidade da turma.

Entrar na lista de espera
PRÓXIMA TURMA

Vagas limitadas para uma turma realmente acompanhada.

A turma é ao vivo e terá tamanho controlado para preservar qualidade nas discussões, revisão de PRs e acompanhamento do projeto final.

ATÉ ANTECIPADO

R$ 1.997

R$ 300 de desconto para quem entrar na lista e garantir a primeira janela.

Entrar na lista de espera
  • 18 horas ao vivo em 6 encontros às quintas
  • Revisão de exercícios e projeto final
  • Acesso às gravações por 1 ano
  • 7 dias de garantia profissional
VALOR REGULAR R$ 2.197 Economia de R$ 300 no antecipado
FAQ

Antes de entrar na lista.

É para iniciante?

Não. O curso assume que você já lida com deploys, incidentes e decisões de produção. Se você nunca viu um span, uma métrica ou um pipeline de logs, vale estudar fundamentos antes.

Preciso saber OpenTelemetry?

Não precisa dominar. O curso começa do SDK, mas assume maturidade de engenharia para entender trade-offs.

Vou conseguir acompanhar ao vivo?

As aulas acontecem às quintas, das 19h às 22h. A proposta é aprender junto, tirar dúvidas ao vivo. Às gravações ficam disponíveis por até 1 ano para revisão.

Vai ter mão na massa?

Sim. Cada módulo tem lab, exercício ou estudo de caso, e as entregas principais acontecem via PR no GitHub.

É SaaS ou self-hosted?

Os dois aparecem. A base é self-hosted com ClickHouse, Apache Kafka, OTel Collector, Fluent Bit e ClickStack, mas decisões SaaS entram nos comparativos.

Quer ser avisado quando a próxima turma abrir?

Entre na lista para receber data, condição antecipada, pré-requisitos e detalhes da matrícula. Sem spam — só quando a turma abrir.