- RAG = recupera fragmentos de tu documentación y los pasa al modelo. Bueno para: información que cambia, trazabilidad con citas obligatorias, corpus grande, sector regulado.
- Fine-tuning = reentrenas el modelo con tus datos. Bueno para: estilo de marca fijo, tareas muy específicas con categorías propias, reducir coste a alto volumen (> 1.000 consultas/día).
- Combinarlos: posible y útil en sistemas maduros, no en el primer asistente. La complejidad operacional se dobla.
- Antes de elegir, pregunta si el problema necesita IA. Para buscar en datos estructurados, una base de datos bien indexada gana siempre.
- Datos en Europa: viable con Claude vía AWS Bedrock Frankfurt (eu-central-1), disponible para Claude 4.5/4.6/4.7 desde 2025, con DPA europeo y sin uso para entrenamiento. Mistral y modelos open-source autohospedados son opciones igualmente válidas.
Este artículo es el pillar del cluster IA aplicada de Ignira. Para un caso vertical concreto, ver Automatizar la entrada de facturas con IA en pymes. Para entender qué stack de IA mantiene los datos en Europa, Datos en Europa: alternativas RGPD a Stripe, AWS y OpenAI en 2026.
El malentendido habitual
"Quiero un asistente que sepa de mi empresa." Lo que el cliente imagina es ChatGPT que mágicamente ha leído todos sus contratos, manuales, emails y políticas. Lo que en realidad pide puede resolverse por dos caminos muy distintos, y mezclar los dos es la receta para gastar el doble y entregar el triple de complejidad.
Veamos cuándo gana cada uno.
Qué es RAG y qué es fine-tuning, sin academicismo
RAG (Retrieval-Augmented Generation)
El modelo (Claude, GPT, Llama, lo que sea) no se modifica. Cuando llega una pregunta:
- Se buscan fragmentos relevantes en tu base documental (un índice de embeddings tipo pgvector, Qdrant, Pinecone, Weaviate).
- Esos fragmentos se inyectan en el prompt junto a la pregunta.
- El modelo responde usando ese contexto, idealmente citando los fragmentos.
Es el equivalente a meter al modelo una chuleta justo antes del examen. La chuleta se actualiza cada vez que tú cambias tus documentos: sin entrenar nada, sin reentrenar nada.
Fine-tuning
El modelo sí se modifica. Se le presentan ejemplos (pares pregunta-respuesta, conversaciones, o tareas) y se ajustan sus pesos para que en el futuro responda como tú quieres. El conocimiento queda dentro del modelo: ya no hace falta pasarle la chuleta.
Hay variantes (LoRA, QLoRA, full fine-tuning, instruction-tuning) que cambian el coste y la flexibilidad, pero el principio es el mismo: modificas el modelo.
La tabla de decisión
| Dimensión | RAG | Fine-tuning |
|---|---|---|
| Frecuencia de cambio de los datos | Alta: actualizas el índice y listo | Baja: cada cambio relevante implica reentrenar |
| Trazabilidad / citas a la fuente | Nativa (los fragmentos vienen con metadata) | Difícil (el conocimiento está disuelto en los pesos) |
| Coste inicial | Bajo: implementación + embeddings | Medio-alto: dataset etiquetado + GPU/coste de training |
| Coste por consulta | Más alto (contexto largo paga más tokens) | Más bajo (no necesita contexto extenso) |
| Latencia | Más alta (retrieval + generación) | Más baja (solo generación) |
| Adaptación de estilo / formato | Limitada (vía system prompt) | Excelente (estilo embebido en los pesos) |
| Riesgo de alucinación | Bajo si fuerzas "responde solo desde el contexto" | Medio-alto (el modelo no distingue entrenamiento de realidad) |
| Datos sensibles | Quedan fuera del modelo | Quedan dentro del modelo (cuidado con IP y RGPD) |
| Mantenibilidad operacional | Alta: actualizar índice es operación simple | Media: reentrenar y desplegar requiere disciplina |
| Buen ajuste a | Asistentes de documentación, soporte, búsqueda | Clasificación, extracción, asistentes con tono fijo |
Casos reales · qué usar y por qué
Para un caso vertical paralelo concreto (extracción de datos de facturas de proveedor en pyme), el flujo completo (captura, extracción IA, validación contra pedidos, registro en ERP) está en Automatizar la entrada de facturas con IA en pymes en 2026.
Caso A · Asistente para un despacho de abogados
Necesidad: responder consultas internas sobre 8.000 dictámenes históricos, citando siempre el dictamen de origen.
Ganador: RAG.
- Los dictámenes se añaden continuamente; reentrenar cada mes es absurdo.
- La citación es obligatoria: sin ella, el asistente no se adopta. RAG nativamente devuelve los fragmentos que sustentan la respuesta.
- Si el modelo no encuentra la respuesta, debe decir "no lo sé" en lugar de inventar (lo que un asistente fine-tuned haría con más frecuencia).
Caso B · Clasificador de tickets de soporte en 14 categorías propias
Necesidad: clasificar 3.000 tickets/día en categorías internas que ningún modelo público conoce.
Ganador: fine-tuning.
- El conjunto de categorías es estable.
- A 3.000 consultas/día, ahorrar 500-1.000 tokens por consulta vía contexto reducido se nota en factura.
- No hace falta "explicar" la clasificación con citas: el negocio quiere la etiqueta correcta y ya.
Caso C · Asistente que responde con el tono de marca
Necesidad: chatbot público que responda con el tono editorial de la marca, sobre catálogo y políticas.
Ganador: combinación.
- Fine-tuning ligero (LoRA) para fijar el tono.
- RAG sobre catálogo y políticas para no alucinar productos ni precios.
Importante: la complejidad operacional sube. Hay que mantener dos artefactos (modelo fine-tuned + índice RAG) y un pipeline de evaluación que mida ambos.
Caso D · Búsqueda interna sobre tabla de productos con 40.000 SKUs
Necesidad: encontrar el producto correcto a partir de descripciones aproximadas en lenguaje natural ("la junta tórica de 12 mm para presión alta").
Ganador: ni uno ni otro.
- Un buscador vectorial puro (sin LLM) ya resuelve el emparejamiento.
- Para la mayoría de consultas, una combinación de búsqueda léxica (BM25) + filtro estructurado es más rápida, más barata y no requiere generación.
- El LLM sobra. Lo difícil aquí es admitirlo.
Costes reales en España 2026
Lo que vemos en proyectos con clientes españoles de tamaño mediano (estimaciones de mercado, no nuestras tarifas exclusivas):
Asistente RAG empresarial pequeño-mediano (corpus < 5.000 documentos, < 1.000 consultas/día):
- Implementación: 2.000-8.000 € según complejidad y conexiones con sistemas internos.
- API del modelo (Claude Haiku/Sonnet o equivalentes): 50-300 €/mes.
- Infraestructura (pgvector + worker + storage): 30-100 €/mes.
- Operación y monitorización: 200-800 €/mes según SLA.
Total año uno: 4.500-15.000 €.
Fine-tuning sobre modelo open-source (Llama 3.1, Mistral, Qwen):
- Preparación del dataset: 1.000-4.000 € (esto suele subestimarse).
- Coste de training: 200-1.500 € por ronda (1-3 rondas habituales).
- Hosting del modelo (GPU dedicada o serverless): 200-1.500 €/mes.
- Operación: similar al RAG.
Total año uno: 5.000-25.000 €.
Fine-tuning suele ser más caro de operar porque mantener una GPU encendida no es gratis. Solo se amortiza con volumen alto o con un caso donde la latencia importa mucho (call center en tiempo real, por ejemplo).
Datos en Europa: lo que cambia en 2026
Para asistentes empresariales con datos sensibles (legal, salud, banca, RRHH), la cuestión RGPD pesa más que la técnica:
- Claude vía AWS Bedrock Frankfurt (
eu-central-1): Claude 4.5 Haiku/Sonnet/Opus, Claude 4.6 Sonnet/Opus y Claude Opus 4.7 disponibles desde 2025 con residencia europea, DPA firmable y sin uso para entrenamiento. Es la opción de referencia en sectores regulados para RAG sin training. - Mistral (Francia): modelos vía API La Plateforme con residencia europea, vía Azure AI Foundry o autohospedados desde pesos publicados. Mistral Large 2, Medium, Small y Codestral. Calidad cercana a GPT-4o-mini / Claude Haiku para la mayoría de casos.
- Modelos open-source autohospedados (Llama 3.1, Qwen, DeepSeek, Phi): control total, datos nunca salen del servidor. Mejor opción para fine-tuning con datos sensibles. Coste de operación más alto (GPU encendida).
- OpenAI Enterprise con residencia europea: posible, requiere contrato Enterprise. Versiones gratuita y Plus de ChatGPT NO cumplen RGPD para datos personales.
- Modelos hospedados en EEUU sin DPA específico: descartar para datos personales bajo RGPD.
Anthropic anunció en su página de cumplimiento regional que la API directa europea (api.eu.anthropic.com) y el soporte de Microsoft Foundry EU están "Coming 2026". Mientras tanto, AWS Bedrock Frankfurt sigue siendo la vía estándar para Claude con residencia europea.
Cubrimos el contexto completo en Datos en Europa: alternativas a Stripe, AWS y OpenAI.
El error caro: empezar por fine-tuning
El patrón habitual cuando una empresa tiene presupuesto y prisa: contratar fine-tuning porque "suena más serio". A los 3 meses descubren que:
- Los datos cambian (catálogo, normativa, FAQs) y reentrenar cada mes es operacionalmente inviable.
- El modelo alucina porque "ha aprendido" datos antiguos que ya no son válidos.
- Sin citas a la fuente, el equipo cliente no confía en las respuestas.
- La factura de GPU pesa más de lo previsto.
El 80-90% de los proyectos de asistente empresarial empiezan correctamente con RAG. Fine-tuning entra en una segunda iteración si la evaluación lo justifica.
Cómo arrancar bien (sea RAG o fine-tuning)
Independientemente de la técnica, los proyectos que entregan valor empiezan igual:
- Define el caso de uso en una frase. Si no puedes, todavía no estás listo para implementar.
- Define "golden questions": 20-30 preguntas reales del equipo cliente con la respuesta correcta. Sin esto no hay forma de evaluar.
- Decide la métrica de éxito: porcentaje de respuestas correctas según el cliente, no según el modelo. Una grounded answer rate (respuestas con sustento documental) por encima del 85% es el umbral habitual para producción.
- Mide el coste por consulta antes de escalar. Si tu asistente cuesta 0,05 € por pregunta y vas a tener 2.000 al día, son 36.000 € al año. ¿Compensa?
- Plan de "no lo sé": cuándo el sistema admite que no tiene la respuesta. Sin esto, el sistema alucina y se pierde la confianza del equipo.
Para empezar
Si tu empresa tiene documentación que el equipo consulta a diario, un asistente RAG bien hecho es uno de los proyectos con mejor retorno de los que entregamos. El servicio de IA y automatizaciones cubre desde la primera versión hasta operación, con datos en infraestructura europea por defecto (Claude vía AWS Bedrock Frankfurt o modelos open-source autohospedados).
Para un caso vertical concreto y muy frecuente (automatización de facturas con IA en pymes), ver el spoke específico: Automatizar la entrada de facturas con IA en pymes en 2026.
Reserva una llamada de 15 minutos si quieres validar si tu caso encaja con RAG, fine-tuning o ninguno de los dos.

