27 de ago. de 2025·8 min

Lições de produto em ML de Daphne Koller: da pesquisa à implantação

Lições de Daphne Koller sobre transformar pesquisa em sistemas implantáveis: definir escopo de recursos de ML, escolher métricas, ajustar expectativas e enviar com segurança.

Por que resultados de pesquisa muitas vezes não sobrevivem à realidade do produto

Um ótimo artigo de ML ainda pode virar um produto decepcionante. Artigos existem para provar um ponto em condições controladas. Produtos existem para ajudar pessoas a terminar uma tarefa num dia bagunçado, com dados imperfeitos e pouca paciência.

Uma lição útil das lições de produto em ML atribuídas a Daphne Koller (como lente, não biografia) é a mudança de incentivos: pesquisa recompensa novidade e ganhos limpos; produto recompensa utilidade e confiança. Se seu modelo impressiona, mas o recurso é difícil de entender, lento ou imprevisível, os usuários não vão se importar com a métrica de benchmark.

O que os usuários notam é básico e imediato. Eles sentem latência. Percebemo quando a mesma entrada gera respostas diferentes. Lembram-se de um erro grave mais do que de dez acertos. E se o recurso mexe com dinheiro, saúde ou algo público, rapidamente avaliam se é seguro confiar.

A maioria dos “ganhos de paper” falham no mundo real pelos mesmos motivos: o objetivo é vago (então a equipe otimiza o que é fácil medir), mudança nos dados (novos usuários, novos assuntos, novos casos de borda), propriedade indefinida (problemas de qualidade ficam sem dono) ou o recurso é lançado como “mágica de IA” sem forma de prever, verificar ou corrigir saídas.

Um exemplo simples: um modelo de sumarização pode parecer ótimo em testes offline, mas o produto falha se omite um detalhe crítico, usa o tom errado ou leva 12 segundos para responder. Usuários não o comparam a um baseline técnico; comparam ao próprio tempo e risco.

Equipes também perdem tempo quando tratam o modelo como o produto. Na prática, o modelo é um componente do sistema: tratamento de entrada, guardrails, UI, feedback, logs e um caminho de fallback quando o modelo está inseguro.

Isso fica claro em construtores de IA voltados ao usuário como Koder.ai. Gerar um app a partir de um chat pode impressionar numa demo, mas usuários reais se importam se o resultado roda, se as edições se comportam de forma previsível e se é possível reverter quando algo quebra. Essa é a realidade do produto: menos sobre “melhor modelo”, mais sobre uma experiência confiável.

Métricas de artigos vs resultados de produto: o que muda na prática

Pesquisa normalmente tenta provar um ponto: um modelo vence um baseline em um dataset limpo e com teste fixo. Produto tenta ajudar um usuário a concluir uma tarefa em condições bagunçadas, com riscos reais e pouca paciência. Essa discrepância é onde muitas ideias promissoras quebram.

Uma das lições mais práticas é tratar “acurácia” como sinal inicial, não como linha de chegada. Num paper, um pequeno ganho de métrica pode importar. Num produto, esse ganho pode ser invisível ou trazer novos custos: respostas mais lentas, casos de borda confusos ou aumento de tickets de suporte.

Protótipo, piloto, produção: as regras mudam

Um protótipo responde “isso funciona?”. Você pode selecionar dados, rodar o modelo uma vez e demonstrar os melhores casos. Um piloto pergunta “isso ajuda usuários reais?”. Agora você precisa de entradas reais, limites de tempo reais e uma medida clara de sucesso. Produção pergunta “conseguimos manter funcionando?”. Isso inclui confiabilidade, segurança, custo e o que fazer nos dias ruins.

Uma forma rápida de lembrar a mudança:

Protótipo: amostra pequena de dados, métrica simples, muita checagem manual
Piloto: fluxos reais de usuário, análise estruturada de erros, loops de feedback
Produção: monitoramento, fallbacks, limites de custo e plano de re-treinamento

O trabalho oculto que os artigos não cobrem

Resultados de produto dependem de tudo ao redor do modelo. Pipelines de dados quebram. Entradas mudam quando usuários alteram comportamento. Rótulos ficam obsoletos. Você também precisa de uma forma de notar problemas cedo e de ajudar usuários a se recuperar quando a IA erra.

Esse “trabalho oculto” normalmente inclui monitorar qualidade das entradas, logar falhas, revisar casos estranhos e decidir quando re-treinar. Inclui scripts de suporte e mensagens claras na UI, porque usuários julgam a experiência inteira, não o modelo isoladamente.

Antes de construir, defina o que significa “bom o suficiente” e escreva em linguagem simples: quais usuários, quais tarefas, tipos de erro aceitáveis e o limiar para lançar ou parar. “Reduzir o tempo de revisão manual em 20% sem aumentar erros de alto risco” é mais útil do que “Melhorar F1”.

Como definir o escopo de um recurso de ML sem chutar

Comece pelo trabalho do usuário, não pelo modelo. Um bom escopo começa com uma pergunta: o que as pessoas tentam fazer e o que as atrasa hoje? Se você não consegue descrever o momento exato no fluxo de trabalho onde o recurso ajuda, você ainda está em “modo paper”, não em modo produto.

Uma estrutura útil é definir o recurso pelo papel que ele tem para o usuário. Está tirando trabalho das costas (automação), ajudando a fazer o trabalho melhor (assistência) ou oferecendo uma recomendação que podem aceitar ou ignorar (suporte à decisão)? Essa escolha molda a UI, a métrica, a taxa de erro aceitável e como lidar com falhas.

Antes de construir, escreva a promessa da UI em uma frase. A frase deve continuar verdadeira no pior dia do recurso. “Rascunha uma primeira versão que você pode editar” é mais seguro que “Escreve a resposta final”. Se você precisa de muitas condições para que a promessa seja verdadeira, o escopo é grande demais.

Restrições são o escopo real. Torne-as explícitas.

Um template simples de escopo

Não avance até que estas cinco linhas estejam claras:

Trabalho do usuário: a tarefa específica e quando acontece
Papel do recurso: automação, assistência ou suporte à decisão
Promessa em uma frase: o que a UI garante
Restrições: latência, custo por requisição, privacidade e onde os dados podem residir
Tolerância a falhas: o que acontece quando está errado ou incerto

Exemplo: suponha que você está adicionando um “assistente de esquema de BD” numa ferramenta de vibe-coding como Koder.ai. O trabalho do usuário é “preciso de uma tabela de BD rápido para continuar construindo.” Se você escopá-lo como assistência, a promessa pode ser “Sugere um esquema de tabela que você pode revisar e aplicar.” Isso implica guardrails: mostrar o diff antes de aplicar mudanças, permitir rollback e priorizar respostas rápidas em vez de raciocínio complexo.

Lance a primeira versão em torno da menor ação que gera valor. Decida o que você não vai suportar ainda (idiomas, tipos de dados, entradas muito longas, alto tráfego) e deixe isso visível na UI. Assim você evita colocar os usuários à mercê dos modos de falha do seu modelo.

Escolhendo métricas que correspondam ao valor real do usuário

Uma boa métrica de ML não é a mesma que uma boa métrica de produto. A maneira mais rápida de ver a lacuna é perguntar: se esse número subir, um usuário real percebe e sente a diferença? Se não, é provavelmente uma métrica de laboratório.

Uma prática confiável é escolher uma métrica principal de sucesso ligada ao valor do usuário e mensurável após o lançamento. Todo o resto deve suportá-la, não competir com ela.

Uma pilha simples de métricas

Comece com uma métrica primária, depois acrescente algumas salvaguardas:

Métrica primária de sucesso: o resultado que os usuários querem (taxa de conclusão de tarefa, tempo até a resposta correta, % de sessões com “isso ajudou”)
Métricas guardrail: o que impede que você “vença” de forma prejudicial (taxa de sugestões nocivas, taxa de reclamações, taxa de erro de alto impacto)
Custo e latência: tempo de resposta e custo por requisição, porque IA lenta ou cara vira inutilizável rápido

Guardrails devem focar em erros que os usuários realmente sentem. Uma pequena queda na acurácia pode ser aceitável em casos de baixo risco, mas uma resposta errada e confiante num momento crítico quebra confiança.

Métricas offline (acurácia, F1, BLEU, ROUGE) ainda são úteis como triagem. Métricas online (conversão, retenção, tickets de suporte, reembolsos, tempo de retrabalho) dizem se o recurso pertence ao produto.

Para conectar os dois, defina um limiar de decisão que mapeia a saída do modelo para uma ação e então meça a ação. Se o modelo sugere respostas, rastreie com que frequência usuários as aceitam, editam muito ou rejeitam.

Não pule o baseline. Você precisa de algo para superar: um sistema baseado em regras, uma biblioteca de templates ou o fluxo humano atual. Se a IA apenas iguala o baseline e adiciona confusão, é perda líquida.

Exemplo: você lança um resumo automático para chats de suporte. Offline, os resumos pontuam bem em ROUGE. Online, os agentes passam mais tempo corrigindo resumos em casos complexos. Uma métrica primária melhor é “tempo médio de atendimento em chats com resumo de IA”, pareada com guardrails como “% de resumos com omissões críticas” (auditoria semanal) e “taxa de resumo errado reportado pelo usuário”.

Passo a passo: transformar uma ideia de ML em sistema deployável

Lance um piloto real

Coloque seu piloto em um domínio personalizado para compartilhar com stakeholders e usuários iniciais.

Adicionar Domínio

Um resultado de pesquisa vira produto quando você consegue entregá-lo, medir e dar suporte. A versão prática costuma ser menor e mais restrita que a versão do paper.

1) Defina o slice do MVP

Comece com a menor entrada que você pode aceitar e a saída mais simples que ainda ajuda.

Em vez de “resumir qualquer documento”, comece com “resumir tickets de suporte com até 1.000 palavras em 3 bullets.” Menos formatos significam menos surpresas.

2) Decida quais dados você precisa

Escreva o que já tem, o que pode logar com segurança e o que precisa coletar propositadamente. Muitas ideias travam aqui.

Se não tiver exemplos reais suficientes, planeje uma fase leve de coleta: permita que usuários avaliem saídas ou marquem “útil” vs “não útil” com uma razão curta. Garanta que o que coleta corresponde ao que quer melhorar.

3) Escolha um método de avaliação cedo

Escolha a avaliação mais barata que pegue as maiores falhas: um holdout, revisão humana rápida com regras claras ou um teste A/B com métrica guardrail. Não confie em um único número; pareie um sinal de qualidade com um sinal de segurança.

4) Planeje o lançamento como um experimento

Liberte em estágios: uso interno, grupo pequeno de usuários, depois rollout mais amplo. Mantenha um loop de feedback apertado: logue falhas, revise amostras semanalmente e entregue correções pequenas.

Se seu tooling suporta snapshots e rollback, use-os. Poder reverter rápido altera o quanto você pode iterar com segurança.

5) Itere com regras claras de parada

Decida desde o início o que significa “bom o suficiente para expandir” e o que dispara uma pausa. Por exemplo: “Expandimos quando a utilidade estiver acima de 70% e erros severos abaixo de 1% por duas semanas.” Isso evita debates intermináveis e promessas que não dá pra cumprir.

Definindo expectativas em apps de IA voltados ao usuário

Usuários não avaliam seu modelo pelas melhores respostas. Avaliam pelos poucos momentos em que ele erra com confiança, especialmente quando o app parece oficial. Definir expectativas é parte do produto, não um aviso de rodapé.

Fale em intervalos, não absolutos. Em vez de “isto é preciso”, diga “geralmente correto para X” e “menos confiável para Y.” Se puder, mostre a confiança em linguagem simples (alta, média, baixa) e associe cada nível ao que o usuário deve fazer em seguida.

Seja claro sobre para que o sistema serve e para que não serve. Uma pequena fronteira próxima à saída previne usos indevidos: “Ótimo para rascunhos e sumarização. Não para aconselhamento jurídico ou decisões finais.”

Sinais de incerteza funcionam melhor quando visíveis e acionáveis. Usuários são mais tolerantes quando conseguem ver por que a IA respondeu daquela forma ou quando o app admite que precisa de checagem.

Sinais práticos de incerteza que usuários entendem

Escolha um ou dois sinais e os use consistentemente:

Uma breve razão (quais entradas foram usadas)
Citações ou trechos da fonte quando a resposta depende de documentos
Um rótulo simples como “Precisa revisão” quando a confiança é baixa
Duas opções quando a entrada é ambígua

Projete para fallback desde o dia 1. Quando a IA está insegura, o produto ainda deve permitir que o usuário finalize a tarefa: um formulário manual, revisão humana ou um fluxo baseado em regras mais simples.

Exemplo: um assistente de resposta para suporte não deve enviar automaticamente. Deve gerar um rascunho e destacar partes de risco (reembolsos, promessas de política) como “Precisa revisão”. Se a confiança for baixa, deve perguntar uma questão de follow-up em vez de adivinhar.

Armadilhas comuns que levam a promessas exageradas e churn

Projete para a realidade do produto

Prototipe a promessa da interface, as salvaguardas e o fluxo de fallback antes de investir em treinamento.

Experimente Koder ai

Usuários não abandonam porque um modelo é imperfeito. Abandonam quando o app soa confiante e depois falha de forma a quebrar confiança. Muitas lições sobre produto em ML caem aqui: o trabalho não é só treinar um modelo, é projetar um sistema que se comporte com segurança em uso real.

Armadilhas comuns incluem overfitting a um benchmark (dados de produto parecem nada com o dataset), lançar sem monitoramento ou rollback (pequenas atualizações viram dias de dor para usuários), ignorar casos cotidianos (queries curtas, entradas bagunçadas, línguas misturadas), assumir que um modelo serve todos os segmentos (usuários novos vs power users se comportam diferente) e prometer “nível humano” (usuários lembram erros confiantes).

Essas falhas frequentemente vêm de pular decisões “não-ML” de produto: o que o modelo pode fazer, quando deve recusar, o que acontece quando a confiança é baixa e como as pessoas podem corrigi-lo. Se você não definir essas fronteiras, marketing e UI vão defini-las por você.

Um cenário simples: você adiciona uma resposta automática por IA ao suporte. Testes offline parecem ótimos, mas tickets reais têm mensagens agressivas, números de pedido parciais e longos históricos. Sem monitoramento, você perde que respostas ficam mais curtas e genéricas após uma mudança de modelo. Sem rollback, a equipe debate por dois dias enquanto agentes desativam manualmente a função. Usuários veem respostas confiantes que omitem detalhes e deixam de confiar em sugestões de IA, inclusive nas boas.

A correção raramente é “treinar mais”. É ser preciso sobre escopo, escolher métricas que reflitam dano ao usuário (respostas erradas e confiantes são piores que recusas seguras) e construir segurança operacional (alertas, lançamentos em estágio, snapshots, rollback).

Cenário exemplo: lançar um recurso de IA que as pessoas possam confiar

Triage de suporte ao cliente é um lugar realista para aplicar essas lições. O objetivo não é “resolver suporte com IA”. É reduzir o tempo que um humano leva para encaminhar um ticket ao lugar certo.

Defina uma promessa pequena e honesta

Prometa uma coisa estreita: quando um ticket novo chega, o sistema sugere uma categoria (cobrança, bug, pedido de recurso) e uma prioridade (baixa, normal, urgente). Um agente humano confirma ou edita antes que isso afete o roteamento.

A escolha de palavras importa. “Sugerir” e “agente confirma” ajustam a expectativa e evitam que erros iniciais virem outages voltadas ao cliente.

Escolha métricas que correspondam ao trabalho

Acurácia offline ajuda, mas não é o placar final. Meça resultados que reflitam o trabalho real: tempo até primeira resposta, taxa de reatribuição, taxa de override do agente e satisfação do usuário (CSAT). Observe também sinais de “falha silenciosa”, como aumento do tempo de atendimento nos tickets que o modelo marcou como urgente.

Projete para falhas, não perfeição

Em vez de uma resposta, mostre as 3 principais categorias sugeridas com um rótulo de confiança simples (alto, médio, baixo). Quando a confiança é baixa, defina como padrão “precisa revisão” e exija uma escolha humana explícita.

Dê aos agentes um código de razão rápido quando fizerem override (área de produto errada, falta contexto, cliente está agressivo). Essas razões viram dados de treino e destacam lacunas sistemáticas.

Lance sem surpresas

Comece pequeno e expanda só quando as métricas andarem no sentido certo. Lance para uma equipe com o fluxo antigo como fallback. Revise amostras semanais para achar erros recorrentes. Ajuste rótulos e textos da UI antes de re-treinar. Adicione alertas quando a taxa de override subir após uma atualização de modelo.

Se você construiu esse recurso numa plataforma como Koder.ai, trate prompts, regras e textos da UI como parte do produto. Confiança vem do sistema inteiro, não só do modelo.

Checklist rápido antes de enviar

Defina o escopo com o Planning Mode

Redija uma especificação de uma página, defina restrições e mantenha o escopo honesto desde o primeiro dia.

Usar Planning

Antes de liberar um recurso de ML voltado ao usuário, escreva a forma mais simples do que você está prometendo. A maioria das lições de produto se resume a ser específico sobre valor, honesto sobre limites e pronto para a realidade.

Verifique estes itens antes do lançamento:

Promessa ao usuário (uma frase): O que o recurso fará e quando? Mantenha testável.
Baseline e melhoria alvo: O que acontece hoje sem ML e que número seria significativamente melhor?
Quando o modelo erra ou está incerto: Defina comportamento de falha (indicação de confiança, pergunta de esclarecimento, fallback por regras ou ocultar o recurso). Defina o que conta como saída insegura e como é bloqueada.
Sinal semanal de sucesso: Escolha 1–2 medidas que você consiga revisar rapidamente toda semana (uso opt-in, uso recorrente, taxa de conclusão, taxa de salvamento, taxa de reclamação, taxa de desfazer).
Monitoramento, rollback, ownership: Saiba quem responde pela qualidade, quem é alertado e como reverte mudanças rápido.

Se fizer só uma coisa a mais, rode um pequeno lançamento com usuários reais, colete as 20 maiores falhas e rotule-as. Essas falhas geralmente dizem se ajustar o escopo, a UI ou a promessa é o que você precisa, não só o modelo.

Próximos passos: um plano prático para ir de ideia a entrega

Comece com uma especificação de uma página que dê para ler em dois minutos. Mantenha em linguagem simples e foque numa promessa que o usuário possa confiar.

Escreva quatro coisas: a promessa ao usuário, as entradas (e o que não pode usar), as saídas (incluindo como sinaliza incerteza ou recusa) e os limites (modos de falha esperados e o que você não vai suportar ainda).

Escolha métricas e guardrails antes de construir. Uma métrica deve refletir valor do usuário (conclusão de tarefa, menos edições, tempo salvo). Outra deve proteger o usuário (taxa de alucinações em um conjunto de teste realista, taxa de violações de política, tentativas de ação insegura bloqueadas). Se você só monitorar acurácia, vai perder o que causa churn.

Depois, escolha um rollout de MVP que case com o risco: avaliação offline num conjunto de teste bagunçado, modo shadow, beta limitado com botão de feedback fácil e rollout gradual com kill switch.

Uma vez no ar, monitoramento faz parte do recurso. Acompanhe métricas-chave diariamente e gere alertas para picos de mau comportamento. Versione prompts e modelos, mantenha snapshots de estados funcionais e torne rollback rotina.

Se quer prototipar mais rápido, um fluxo de build baseado em chat pode validar cedo a forma do produto. Em Koder.ai, por exemplo, você pode gerar um pequeno app ao redor do recurso, adicionar tracking básico para suas métricas escolhidas e iterar na promessa do usuário enquanto testa. A velocidade ajuda, mas a disciplina é a mesma: lance só o que suas métricas e guardrails conseguem suportar.

Um teste final: você consegue explicar o comportamento do recurso a um usuário em um parágrafo, incluindo quando pode estar errado? Se não consegue, não está pronto para lançar, por melhor que a demo pareça.