AIF-C01 Domínio: Aplicações de Foundation Models (28% do exame)
Resumo de estudo de aplicações de foundation models para a AIF-C01: prompt engineering, RAG, fine-tuning e SageMaker JumpStart.
Por Leonardo Chiarelli · Atualizado em 21/06/2026 · 1 min de leitura
Domínio Aplicações de Foundation Models (28% do exame)
O domínio Aplicações de Foundation Models é o maior da AIF-C01, com 28% do peso, e trata do núcleo prático da certificação: como usar, adaptar e avaliar modelos de fundação para resolver problemas reais. A prova espera que você saiba escolher entre diferentes estratégias de customização, entender como cada técnica funciona e identificar os serviços AWS corretos para cada caso.
Este domínio tem 4 subtopics: Prompt engineering, RAG e bases de conhecimento, Fine-tuning e avaliação de modelos, e SageMaker JumpStart e customização.
Subtopic 1: Prompt engineering
Prompt engineering é a técnica de construir entradas de texto para guiar o comportamento de um foundation model sem alterar seus pesos. É a forma de customização de menor custo e mais rápida de implementar, e por isso é sempre o primeiro recurso a considerar.
Técnicas que a prova cobra
Zero-shot: enviar o problema direto, sem exemplos. O modelo usa apenas o conhecimento adquirido no pré-treinamento. Funciona bem para tarefas gerais, mas pode ser impreciso em domínios especializados.
Few-shot: incluir de 2 a 5 exemplos de entrada e saída no próprio prompt antes da tarefa real. Ensina o modelo o formato e o nível de detalhe esperado sem nenhum treinamento adicional. É a técnica mais cobrada da AIF-C01 para cenários de customização rápida.
Chain-of-thought (CoT): pedir ao modelo que explique o raciocínio passo a passo antes de dar a resposta final. Melhora muito o resultado em problemas matemáticos, lógicos e de múltiplos passos. É uma técnica de prompt (não um recurso de serviço), aplicável a qualquer foundation model acessado via Amazon Bedrock.
Parâmetros de inferência: a prova também cobra os parâmetros que controlam o comportamento do modelo na geração:
- Temperature: controla aleatoriedade. Valor baixo (0 a 0,3) gera respostas mais determinísticas e factuais. Valor alto (0,7 a 1,0) gera respostas mais criativas e variadas.
- Top-P (nucleus sampling): define a massa de probabilidade acumulada considerada na geração. Top-P 0,9 restringe ao conjunto de tokens que somam 90% da probabilidade.
- Max tokens: limite de tokens na resposta. Afeta custo diretamente.
Serviços AWS envolvidos
O Amazon Bedrock é o serviço central para prompt engineering na AWS. Ele oferece acesso a múltiplos foundation models (Claude da Anthropic, Titan da Amazon, Llama da Meta, entre outros) via API unificada. O Bedrock Playground permite testar prompts interativamente no console sem escrever código.
O Amazon Q é o assistente generativo AWS construído sobre essa base. Prompts são enviados a ele via interface de chat ou API, e o serviço aplica internamente técnicas de engenharia de prompt para adaptar o comportamento ao contexto corporativo.
Pegadinhas comuns
A pegadinha mais comum neste subtopic é confundir prompt engineering com fine-tuning. A prova descreve um cenário onde o orçamento é baixo, não há dados de treinamento disponíveis e a empresa quer resultado rápido. A resposta correta é sempre prompt engineering, não fine-tuning. Fine-tuning exige dados rotulados, tempo de treinamento e custo computacional.
Outra pegadinha: questões que perguntam qual técnica usar quando um modelo produz respostas inconsistentes no formato. A resposta é few-shot (com exemplos de formato no prompt), não ajuste de temperature.
Subtopic 2: RAG e bases de conhecimento
RAG (Retrieval-Augmented Generation) é a arquitetura que combina busca em base de dados externa com geração do modelo. Em vez de depender apenas do conhecimento fixo do pré-treinamento, o modelo recebe trechos relevantes recuperados em tempo real e os usa como contexto adicional.
Como funciona o fluxo RAG
- A pergunta do usuário é convertida em um embedding (vetor numérico que representa o significado semântico).
- Esse embedding é comparado contra um banco de vetores onde o conteúdo da base de conhecimento já foi indexado.
- Os N trechos mais similares são recuperados.
- O prompt enviado ao modelo inclui esses trechos mais a pergunta original.
- O modelo gera a resposta usando o conteúdo recuperado como contexto.
O RAG resolve dois problemas centrais: alucinação (o modelo inventa fatos) e conhecimento desatualizado (modelos têm data de corte no pré-treinamento).
Serviços AWS envolvidos
Amazon Bedrock Knowledge Bases é o serviço gerenciado da AWS para RAG. Você aponta para uma fonte de dados (S3, Confluence, SharePoint, entre outras), o Bedrock processa os documentos, gera embeddings e armazena em um banco de vetores. Na inferência, o Knowledge Bases gerencia automaticamente a recuperação e a injeção no contexto. É a resposta certa quando a prova pergunta sobre RAG totalmente gerenciado na AWS.
Amazon OpenSearch Serverless com suporte a k-NN é o banco de vetores mais citado na documentação AWS como backend do Bedrock Knowledge Bases. Alternativas suportadas incluem Amazon Aurora com extensão pgvector e Pinecone.
Amazon Titan Embeddings é o modelo de embedding da AWS, usado para converter texto em vetores antes de armazenar na base. A prova pode perguntar qual modelo usar para gerar embeddings no contexto de um pipeline RAG na AWS.
Quando RAG vence fine-tuning
A prova adora questões de trade-off entre RAG e fine-tuning. A regra geral:
- Use RAG quando o conteúdo muda com frequência, quando você precisa citar a fonte, quando o volume de dados é grande e quando o orçamento é limitado.
- Use fine-tuning quando o modelo precisa aprender um estilo ou formato específico, quando a tarefa é altamente especializada e quando o conteúdo é estável.
RAG não muda os pesos do modelo, por isso é mais barato e mais rápido de atualizar. Fine-tuning muda os pesos, por isso persiste o aprendizado mas exige re-treinamento para atualizar.
Pegadinhas comuns
A pegadinha clássica do RAG é confundir a etapa de indexação (offline, feita uma vez) com a etapa de recuperação (online, feita a cada consulta). A prova pode perguntar qual etapa é mais custosa em termos de tempo: a indexação, porque processa e vetoriza toda a base de conhecimento.
Outra pegadinha: um cenário onde a empresa tem documentos PDF internos e quer que o chatbot responda com base neles. A resposta é RAG com Bedrock Knowledge Bases, não fine-tuning e não treinamento de modelo do zero.
Subtopic 3: Fine-tuning e avaliação de modelos
Fine-tuning é o processo de continuar o treinamento de um foundation model pré-existente usando um conjunto de dados específico para a tarefa. Os pesos do modelo são ajustados para que ele se especialize no domínio ou formato desejado.
Tipos de fine-tuning que a prova cobra
Fine-tuning supervisionado: você fornece pares de entrada e saída esperada. O modelo aprende a mapear entradas para saídas no formato e estilo que você define. É o tipo mais comum e o que a AIF-C01 trata com mais profundidade.
RLHF (Reinforcement Learning from Human Feedback): usa avaliações humanas para ajustar o modelo. É como os principais modelos de linguagem são alinhados para seguir instruções. A prova não exige implementação, mas pode perguntar qual técnica é usada para alinhar o comportamento de um modelo com preferências humanas.
Instruction tuning: variante de fine-tuning supervisionado onde os exemplos são pares instrução-resposta. Melhora a capacidade do modelo de seguir instruções em linguagem natural.
Dados de treinamento para fine-tuning
A prova cobra o pipeline de dados:
- Dados precisam estar em formato estruturado (geralmente JSONL com pares prompt-completion).
- Devem ser armazenados no Amazon S3 antes do fine-tuning.
- Quanto mais exemplos e mais diversos, melhor o resultado. A AWS recomenda no mínimo algumas centenas de exemplos de qualidade para fine-tuning no Bedrock.
Avaliação de modelos
A avaliação é um subtopic explícito da AIF-C01, e as métricas aparecem tanto para modelos de linguagem quanto para modelos de ML clássico.
Métricas de geração de texto:
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation): mede sobreposição de n-gramas entre o texto gerado e um texto de referência. Muito usado para avaliação de sumarização.
- BLEU (Bilingual Evaluation Understudy): mede precisão de n-gramas. Clássico para tradução automática.
- BERTScore: usa embeddings para calcular similaridade semântica, capturando sinônimos e paráfrases que ROUGE e BLEU ignoram.
- Perplexidade: mede o quão "surpreso" o modelo fica com um texto. Quanto mais baixa, mais fluente o modelo considera aquele texto.
Avaliação humana: em muitos casos, especialmente para qualidade percebida, a avaliação humana ainda é o padrão-ouro. A prova pode perguntar quando usar avaliação automática versus humana.
Serviços AWS para fine-tuning
Amazon Bedrock suporta fine-tuning de alguns modelos (como Amazon Titan) direto no serviço, com dados no S3. O processo é gerenciado e não exige provisionamento de infraestrutura.
Amazon SageMaker é a plataforma completa para fine-tuning de modelos customizados, incluindo instâncias GPU, jobs de treinamento gerenciados e integração com MLflow para rastreamento de experimentos.
Pegadinhas comuns
A pegadinha mais frequente é usar fine-tuning quando RAG seria suficiente. A prova descreve um cenário com documentos corporativos que mudam mensalmente. Fine-tuning exigiria re-treinar o modelo a cada atualização, o que é caro. RAG, com reindexação da base, é a escolha correta.
Outra pegadinha: confundir temperatura com qualidade do fine-tuning. Temperature é parâmetro de inferência, não de treinamento.
Subtopic 4: SageMaker JumpStart e customização
O Amazon SageMaker JumpStart é o hub de modelos e soluções de ML pré-construídas dentro do SageMaker. Ele oferece modelos de foundation e modelos de ML clássico que podem ser deployados com um clique ou usados como ponto de partida para fine-tuning.
O que o SageMaker JumpStart oferece
Modelos prontos para deploy: você seleciona um modelo (como Llama, Falcon ou modelos da Hugging Face), clica em "Deploy" e o JumpStart provisiona um SageMaker endpoint com o modelo servindo inferência. Não é preciso configurar instância, container ou código de serving.
Fine-tuning com dados próprios: o JumpStart permite fine-tuning de modelos selecionados apontando para dados no S3. O job de treinamento é gerenciado, com instâncias GPU alocadas automaticamente.
Foundation models curados: diferente do Bedrock (que acessa modelos via API de terceiros), o JumpStart faz o deploy do modelo na sua própria conta AWS. Isso significa que os pesos ficam na sua infraestrutura, o que é relevante para requisitos de privacidade e compliance onde os dados não podem sair da conta.
Diferença central: Bedrock vs JumpStart
A AIF-C01 cobra explicitamente essa distinção:
| Aspecto | Amazon Bedrock | SageMaker JumpStart | |---|---|---| | Infraestrutura | Gerenciada pela AWS | Na sua conta AWS | | Acesso ao modelo | Via API (pesos ocultos) | Modelo deployado na sua conta | | Privacidade dos dados | Dados processados pelo provedor | Dados ficam na sua conta | | Customização | Fine-tuning para modelos suportados | Fine-tuning amplo com container próprio | | Caso de uso típico | App generativa rápida, múltiplos modelos | Compliance estrito, controle total |
A questão típica da prova: uma empresa de saúde precisa que os dados dos pacientes não saiam da conta AWS. Qual serviço usar? SageMaker JumpStart (modelo na conta) ou Bedrock com VPC privada e endpoint privado. Bedrock também suporta isolamento de rede via VPC endpoints, então a resposta depende do nível de detalhe do enunciado.
Outros serviços de customização cobrados
Amazon SageMaker Canvas: ferramenta no-code para criar modelos de ML sem programação. Voltado para analistas de negócio, não engenheiros. A prova pode perguntar qual serviço usar quando o usuário não sabe programar e precisa criar um modelo preditivo.
Amazon SageMaker Autopilot: AutoML gerenciado. Você carrega os dados, define o target e o Autopilot treina, avalia e seleciona o melhor modelo automaticamente.
Amazon Bedrock Agents: permite que o modelo execute ações além de gerar texto, chamando APIs externas e executando passos encadeados de forma autônoma. Relevante para casos de uso de automação e workflows de IA.
Pegadinhas comuns
A confusão mais frequente é entre JumpStart e Bedrock. A prova descreve um cenário onde a empresa quer um modelo de linguagem e tem requisito de que "os pesos do modelo fiquem na conta da empresa". A resposta é JumpStart, não Bedrock (no Bedrock, os pesos ficam com o provedor do modelo).
Outra pegadinha: confundir SageMaker JumpStart com SageMaker Studio. O Studio é o IDE integrado do SageMaker; o JumpStart é o hub de modelos dentro do Studio.
O que a prova cobra neste domínio
Com 28% do peso, este domínio tem aproximadamente 14 das 50 questões pontuadas da prova (o exame tem 65 questões no total, das quais 15 não contam para o score). A distribuição típica:
- Prompt engineering (especialmente few-shot e parâmetros de inferência): 3 a 4 questões
- RAG e Bedrock Knowledge Bases (incluindo comparação com fine-tuning): 4 a 5 questões
- Fine-tuning, avaliação e métricas (ROUGE, BLEU, dados de treinamento): 3 a 4 questões
- JumpStart e diferenciação de serviços: 2 a 3 questões
Os cenários de trade-off (quando usar RAG vs fine-tuning, Bedrock vs JumpStart) são o coração deste domínio. A prova raramente pergunta definições isoladas. Ela descreve uma situação e pede a abordagem mais adequada considerando custo, tempo de implementação, privacidade e frequência de atualização do conteúdo.
Resumo de serviços por caso de uso
| Necessidade | Serviço AWS | |---|---| | Testar prompts sem código | Amazon Bedrock Playground | | RAG gerenciado com documentos S3 | Bedrock Knowledge Bases | | Fine-tuning de modelo na sua conta | SageMaker JumpStart | | Fine-tuning via API sem infraestrutura | Amazon Bedrock (modelos suportados) | | ML no-code para analistas | SageMaker Canvas | | Modelo que executa ações e chama APIs | Bedrock Agents | | Embedding para base vetorial | Amazon Titan Embeddings |
Leia também
- AIF-C01 Domínio: Fundamentos de IA Generativa (24% do exame)
- AIF-C01 Domínio: Diretrizes para IA Responsável (14% do exame)
- AWS AI Practitioner (AIF-C01) em português: guia completo
Pronto para praticar?
Questões no estilo real da AIF-C01, em PT-BR, cobrindo todos os subtopics deste domínio. Identifique suas fraquezas antes da prova.