O que é RAG?
RAG (Retrieval Augmented Generation) é uma arquitetura em que o LLM, antes de responder, busca informação em uma base de dados externa (documentos, manuais, FAQs) e usa o resultado como contexto pra gerar a resposta.
Explicação completa
O fluxo típico tem três etapas. Primeiro, os documentos da base são transformados em embeddings (vetores numéricos que capturam significado) e salvos em um banco vetorial. Segundo, quando o usuário faz uma pergunta, ela também vira embedding e o sistema busca os trechos mais similares na base. Terceiro, esses trechos são injetados no prompt do LLM como contexto, e o modelo responde com base neles. RAG resolve dois problemas: dar acesso a informação específica que o LLM não viu no treino (manuais internos, base de conhecimento da empresa) e reduzir alucinações em respostas factuais. É a abordagem mais comum hoje em chatbots empresariais e assistentes especializados.
Exemplo prático
Um chatbot de suporte interno: a empresa indexa toda a documentação técnica (10.000 páginas) num banco vetorial. Quando um funcionário pergunta 'como solicitar reembolso de viagem?', o sistema busca os 5 trechos mais relevantes da política, injeta no prompt do LLM e o modelo responde com base nesses trechos. O LLM nunca foi treinado com a política da empresa, mas responde como se conhecesse.
Termos relacionados
- O que é LLM?LLM (Large Language Model, ou modelo de linguagem grande) é um tipo de modelo de IA treinado em quantidades massivas de texto pra prever a próxima palavra de uma sequência, capaz de gerar e interpretar linguagem natural com qualidade alta.
- O que é Embeddings?Embeddings são representações numéricas (vetores de centenas a milhares de dimensões) que capturam o significado semântico de um conteúdo — texto, imagem, áudio — em forma comparável matematicamente.
- O que é IA Generativa?IA generativa é a categoria de modelos de machine learning que produzem conteúdo novo (texto, imagem, áudio, vídeo, código) a partir de um prompt, em vez de apenas classificar, prever ou recomendar.
- O que é Prompt Engineering?Prompt engineering é a prática de estruturar instruções (prompts) pra modelos de linguagem de forma que produzam respostas consistentes, úteis e no formato esperado.
- O que é Agente de IA?Agente de IA é um sistema em que um modelo de linguagem opera em loop, decide quais ferramentas usar (busca, APIs, código), avalia resultados intermediários e ajusta o plano até completar uma tarefa multi-etapa.
Aprenda mais
- Inteligência ArtificialInteligência artificial é o campo de sistemas que executam tarefas associadas à cognição humana. Começa por entender tipos de IA, capacidades e limites; evolui pra usar LLMs no trabalho com prompts bem construídos e construir aplicações com APIs.
- Prompt EngineeringPrompt engineering é a habilidade de escrever instruções que extraem o melhor de modelos de linguagem. Começa pela anatomia de um bom prompt e padrões reutilizáveis; evolui pra técnicas como few-shot, chain-of-thought e composição em fluxos automatizados.
Perguntas frequentes
RAG e fine-tuning são a mesma coisa?
Não. Fine-tuning re-treina o modelo com dados próprios; o conhecimento fica embutido nos pesos. RAG mantém o modelo intacto e injeta informação no momento da pergunta via busca. RAG é mais barato, mais fácil de atualizar (só atualizar a base) e mais transparente (você sabe quais documentos foram consultados). Fine-tuning ainda compensa quando precisa mudar estilo ou tom de forma permanente.
Quando RAG não funciona bem?
Quando a pergunta exige raciocínio sobre múltiplos documentos pouco conectados, quando a base é caótica ou não estruturada, ou quando os trechos relevantes são longos demais pra caber no contexto. Também falha em perguntas que exigem entendimento global da base (resumir tudo) — RAG é bom em buscar trechos, não em sintetizar bibliotecas inteiras.
RAG elimina alucinações?
Reduz drasticamente em respostas factuais, mas não elimina. O modelo ainda pode interpretar mal o contexto recuperado, misturar trechos ou inventar detalhes que parecem coerentes. Usar prompts que peçam citação explícita dos trechos e forçar o modelo a recusar quando o contexto não bastar mitiga ainda mais.
Preciso de banco vetorial pra fazer RAG?
Pra escala razoável, sim — bancos como Pinecone, Weaviate, Qdrant, pgvector (Postgres). Pra MVP ou bases pequenas, dá pra calcular embeddings em memória e buscar com numpy. A escolha depende de volume, latência exigida e infraestrutura disponível.
Quer dominar Inteligência Artificial na prática?
A IA do Souly gera um plano de estudos sob medida em poucos minutos.
Última atualização: