AIF-C01 Domínio: Fundamentos de IA Generativa (24% do exame)
Resumo de estudo de IA generativa para a AIF-C01: foundation models, LLMs, tokens, embeddings e Amazon Bedrock.
Por Leonardo Chiarelli · Atualizado em 21/06/2026 · 1 min de leitura
O que cobre este domínio
O domínio Fundamentos de IA Generativa representa 24% da AWS AIF-C01, o segundo maior peso do exame. É o domínio mais diferenciador da certificação: separa quem entende IA generativa de verdade de quem apenas ouviu falar. A prova AIF-C01 tem 65 questões, duração de 90 minutos, nota de corte 700 de 1000 e custa USD 100.
O domínio tem três subtopics oficiais:
- Foundation models e LLMs (o que são, como funcionam, trade-offs de uso)
- Tokens, embeddings e inferência (vocabulário técnico que a prova cobra diretamente)
- Amazon Bedrock e Amazon Q (os dois serviços AWS centrais para IA generativa)
Este guia cobre cada um na profundidade que a prova exige.
Foundation models e LLMs
O que é um foundation model
Um foundation model (FM) é um modelo de IA treinado em volumes massivos de dados não rotulados usando aprendizado auto-supervisionado. O resultado é um modelo que aprende representações gerais da linguagem, imagens ou código, podendo ser adaptado para dezenas de tarefas sem retreinamento completo.
A característica central do foundation model é o aprendizado de transferência: o modelo pré-treinado carrega conhecimento que pode ser transferido para tarefas específicas com custo de adaptação muito menor do que treinar do zero.
Um Large Language Model (LLM) é um tipo de foundation model focado em linguagem. Exemplos: Claude (Anthropic), Titan (Amazon), Llama (Meta), Mistral. São treinados para prever o próximo token em sequências de texto e, a partir disso, desenvolvem capacidade de raciocínio, sumarização, tradução, geração de código e resposta a perguntas.
Modos de uso de um foundation model
A prova cobra a diferença entre três abordagens:
Uso via API (inferência direta): você envia um prompt ao modelo e recebe a resposta. É o modo mais simples. Não há ajuste do modelo, não há dados de treinamento novos. Ideal para casos de uso genéricos onde o modelo de base já é suficiente.
Prompt engineering: ainda sem tocar no modelo, você ajusta a forma como o prompt é construído para guiar o output. Técnicas como few-shot (exemplos no prompt), chain-of-thought (pedir raciocínio passo a passo) e role prompting (instruir o modelo a assumir um papel) caem diretamente na prova.
Fine-tuning: você ajusta os pesos do modelo com dados específicos do seu domínio. Mais caro computacionalmente, mas necessário quando o modelo base não alcança a qualidade desejada para o caso de uso. No ecossistema AWS, o fine-tuning de modelos no Bedrock é feito via console ou API, usando dados em S3.
RAG (Retrieval-Augmented Generation): em vez de ajustar o modelo, você complementa o prompt com contexto buscado de uma base de conhecimento externa. O modelo recebe a pergunta mais os trechos relevantes e responde com base neles. Resolve o problema de informação fora do período de treinamento sem precisar de fine-tuning.
Diferenças que a prova cobra
A AIF-C01 gosta de cenários do tipo "a empresa quer X, qual abordagem é mais adequada?". As respostas corretas seguem este padrão:
- Precisa de respostas sobre documentos internos recentes: RAG (não fine-tuning, que é caro e não resolve busca dinâmica).
- Precisa de tom e vocabulário do domínio (ex.: textos jurídicos, relatórios médicos): fine-tuning.
- Quer testar rapidamente sem custo extra: prompt engineering.
- Quer expor um modelo a usuários finais via interface gerenciada: Amazon Bedrock (ver abaixo).
Tokens, embeddings e inferência
Tokens
Um token é a unidade mínima de processamento de um LLM. Não é uma palavra completa. Dependendo do tokenizador, uma palavra pode ser um, dois ou mais tokens. Em inglês, a heurística comum é que 1 token equivale a aproximadamente 0,75 palavras. Em português, a relação tende a ser um pouco menos eficiente (mais tokens por palavra) porque os tokenizadores são geralmente treinados com predominância de inglês.
O que a prova cobra sobre tokens:
- Janela de contexto (context window): é o número máximo de tokens que o modelo processa em uma única chamada, somando prompt de entrada e saída gerada. Modelos com janela maior conseguem processar documentos mais longos ou históricos de conversa mais extensos.
- Custo de inferência: cobrança geralmente por tokens de entrada e tokens de saída. Na AWS, os modelos no Bedrock seguem esse modelo de precificação por chamada.
- Truncamento: quando o contexto ultrapassa a janela, parte do conteúdo é descartada. A prova pode perguntar qual é o comportamento esperado quando o contexto excede o limite.
Embeddings
Embeddings são representações numéricas (vetores) de textos, imagens ou outros conteúdos. A propriedade central: textos com significado semelhante produzem vetores com alta similaridade (medida por distância coseno ou produto escalar no espaço vetorial).
Por que isso importa para a prova:
- Embeddings são a base do RAG: você converte documentos em vetores, armazena em um banco vetorial, e na consulta compara o vetor da pergunta com os vetores dos documentos para recuperar os mais relevantes.
- Na AWS, o modelo Amazon Titan Embeddings (disponível via Bedrock) gera embeddings de texto. O Amazon OpenSearch Service com KNN e o Amazon Aurora pgvector são opções de banco vetorial para armazenar e consultar esses vetores.
- A prova pode perguntar sobre a arquitetura de uma solução RAG e cobrar qual componente gera os embeddings versus qual armazena e consulta.
Inferência
Inferência é o processo de usar um modelo já treinado para gerar uma resposta dado um input. Parâmetros de inferência que a AIF-C01 cobra:
- Temperature: controla a aleatoriedade do output. Temperature 0 torna o modelo determinístico (sempre escolhe o token mais provável). Temperature alta aumenta a criatividade e variabilidade. Para tarefas factuais (extração de dados, classificação), temperatura baixa. Para geração criativa, temperatura mais alta.
- Top-P (nucleus sampling): define o conjunto de tokens candidatos considerando os de maior probabilidade acumulada até o percentil P. Complementa a temperatura no controle do comportamento do modelo.
- Max tokens: limite superior de tokens gerados na resposta. Controla custo e tamanho do output.
A prova costuma apresentar um cenário e perguntar qual ajuste de parâmetro resolve o problema. Regra prática: respostas inconsistentes ou muito criativas demais apontam para temperatura alta; respostas cortadas abruptamente apontam para max tokens baixo.
Amazon Bedrock e Amazon Q
Amazon Bedrock
O Amazon Bedrock é o serviço gerenciado da AWS para acesso a foundation models via API, sem necessidade de provisionar ou gerenciar infraestrutura de ML. É o serviço central do domínio e o que mais cai na prova.
Características que a AIF-C01 cobra:
Modelo serverless: você não sobe instâncias, não configura clusters. Faz uma chamada de API, o Bedrock roteia para o modelo selecionado e retorna a resposta. Cobrança por tokens consumidos.
Multi-provedor: o Bedrock oferece modelos de vários provedores dentro de uma única API:
- Anthropic: família Claude (Claude Instant, Claude, Claude 3 e variantes Haiku, Sonnet, Opus)
- Amazon: Titan Text, Titan Embeddings, Titan Image Generator
- Meta: Llama 2 e Llama 3
- Mistral AI: Mistral e Mixtral
- AI21 Labs: Jurassic
- Cohere: Command e Embed
- Stability AI: Stable Diffusion (geração de imagem)
Knowledgebases for Amazon Bedrock: funcionalidade nativa de RAG. Você conecta uma fonte de dados (S3, Confluence, SharePoint, Salesforce), o Bedrock indexa automaticamente em um banco vetorial gerenciado (Amazon OpenSearch Serverless ou outros), e você consulta via API de recuperação. A prova cobra a diferença entre implementar RAG manualmente versus usar Knowledgebases.
Agents for Amazon Bedrock: permite criar agentes que planejam e executam tarefas de múltiplos passos, chamando ferramentas externas (APIs, bancos de dados) de forma autônoma. A prova pode perguntar sobre o conceito de agente versus chamada direta ao modelo.
Fine-tuning no Bedrock: você pode ajustar modelos Titan e outros com dados próprios armazenados no S3. O processo cria uma versão customizada do modelo acessível apenas na sua conta.
Guardrails for Amazon Bedrock: filtros de conteúdo configuráveis para bloquear categorias de saída indesejada (violência, ódio, informações de identificação pessoal). A prova coloca Guardrails como a resposta correta para cenários de controle de output em produção.
Segurança: os dados de chamadas ao Bedrock não são usados para treinar os modelos de base. O acesso é controlado por IAM. O tráfego pode ser mantido dentro da rede AWS via VPC endpoints.
Amazon Q
Amazon Q é o assistente de IA generativa da AWS, construído sobre o Bedrock. Tem dois produtos principais que a prova diferencia:
Amazon Q Business: assistente para uso corporativo. Conecta-se a fontes de dados da empresa (SharePoint, S3, bancos de dados, Jira, Confluence) e responde perguntas com base no conteúdo indexado. Controle de acesso respeitando as permissões do usuário que faz a pergunta. É essencialmente um RAG gerenciado para uso empresarial.
Amazon Q Developer: assistente de desenvolvimento de software. Integrado ao IDE (VS Code, JetBrains), ao console AWS e ao CLI. Responde perguntas sobre código, gera e completa código, explica recursos AWS, ajuda a diagnosticar erros em CloudWatch. Inclui a funcionalidade de transformação de código para migração automatizada (ex.: Java 8 para Java 17).
A distinção que a prova cobra: Q Business é para acesso a conhecimento corporativo interno; Q Developer é para produtividade de engenharia de software.
O que a prova cobra e as pegadinhas
Cenários clássicos de questão
Cenário 1: "Uma empresa quer que funcionários façam perguntas sobre documentos internos atualizados semanalmente, sem retreinar o modelo." Resposta: Amazon Q Business (ou Knowledgebases do Bedrock com RAG). Não é fine-tuning, porque os documentos mudam com frequência e fine-tuning é para padrões estáveis de domínio.
Cenário 2: "Uma empresa quer bloquear geração de conteúdo com informações pessoais em respostas do chatbot." Resposta: Guardrails for Amazon Bedrock. Não é prompt engineering, que não garante bloqueio consistente.
Cenário 3: "Uma equipe de dev quer sugestões de código inline no VS Code usando AWS." Resposta: Amazon Q Developer. Não é Bedrock direto, que é API de inferência sem integração nativa com IDE.
Cenário 4: "O modelo retorna respostas diferentes a cada execução do mesmo prompt." Causa provável: temperature alta. Solução: reduzir temperature.
Pegadinhas comuns
Foundation model vs ML model tradicional: a prova pode apresentar alternativas que misturam os dois. Foundation models são pré-treinados em dados massivos e generalistas. Modelos ML tradicionais (XGBoost, regressão logística) são treinados com dados rotulados para uma tarefa específica. A questão vai definir o contexto e esperar que você identifique o tipo certo.
RAG vs fine-tuning: a confusão mais comum. RAG resolve acesso a informação atualizada ou privada sem tocar no modelo. Fine-tuning resolve adaptação de estilo, tom e vocabulário de domínio. Se a questão fala em "dados que mudam" ou "documentos internos", RAG. Se fala em "estilo de escrita da empresa" ou "terminologia técnica específica", fine-tuning.
Amazon Q vs Amazon Bedrock: Bedrock é a API de acesso a foundation models. Q é um produto construído sobre o Bedrock para casos de uso específicos (assistente corporativo e assistente de dev). A prova vai testar se você sabe que Q não é substituto de Bedrock, mas uma camada de produto acima dele.
Janela de contexto vs memória persistente: LLMs não têm memória entre chamadas de API. A janela de contexto é só o que está na chamada atual. Para manter histórico de conversa, você precisa enviar as mensagens anteriores no prompt a cada chamada. A prova pode perguntar por que o modelo "esqueceu" algo dito anteriormente e a resposta é que a chamada não incluiu o histórico.
Como estudar este domínio
A cobertura é conceitual, não técnica de implementação. Você não precisa saber escrever código Python para chamar o Bedrock, mas precisa saber o que cada serviço faz, quando usar RAG versus fine-tuning, e o que os parâmetros de inferência controlam.
Flashcards úteis para fixar:
- Foundation model: pré-treinado em dados massivos, adaptável para múltiplas tarefas.
- Token: unidade de processamento do LLM; janela de contexto limita o total por chamada.
- Embedding: vetor numérico de texto; base do RAG para busca por similaridade.
- Temperature 0: output determinístico. Temperature alta: output variado.
- Bedrock: API multi-provedor para FMs, sem gerenciar infraestrutura.
- Knowledgebases: RAG gerenciado dentro do Bedrock.
- Guardrails: filtros de conteúdo configuráveis no Bedrock.
- Q Business: assistente corporativo com acesso a dados internos.
- Q Developer: assistente de código e produtividade de engenharia.
Leia também
- AWS AI Practitioner (AIF-C01) em português: guia completo
- AIF-C01 Domínio: Fundamentos de IA e ML (20% do exame)
- AIF-C01 Domínio: Aplicações de Foundation Models (28% do exame)
- Glossário AWS em PT-BR
Pronto para testar o que aprendeu?
Simulado com questões reais do estilo AIF-C01, loop de flashcard nos seus erros e revisão espaçada. 7 dias grátis.