¿Cuándo conviene RAG sobre fine-tuning?

RAG conviene cuando los datos cambian con frecuencia, necesitas trazabilidad (citas a la fuente), el corpus es grande y no quieres pagar entrenamientos repetidos. Es lo que se usa en la gran mayoría de asistentes empresariales sobre documentación interna: contratos, manuales, jurisprudencia, historiales clínicos, FAQs internas, políticas que cambian. Para sector regulado (legal, salud, banca) la citación obligatoria a la fuente hace RAG casi obligatorio.

¿Cuándo conviene fine-tuning?

Fine-tuning conviene cuando necesitas que el modelo adopte un estilo específico (tono de marca, formato de respuesta estricto), realice una tarea muy particular que el prompt no consigue (clasificación con categorías propias, extracción estructurada de datos), o reduzcas latencia y coste a alto volumen evitando ventanas de contexto largas. Por debajo de ~1.000 consultas/día rara vez compensa frente a RAG con un buen prompt.

¿Se pueden combinar RAG y fine-tuning?

Sí, y es habitual en sistemas maduros: fine-tuning para enseñar estilo y formato, RAG para inyectar el conocimiento dinámico. La complejidad operacional se dobla (mantener dos artefactos, modelo y índice, además del pipeline de evaluación): solo merece la pena cuando ya tienes un asistente RAG funcionando y has identificado un cuello de botella concreto que fine-tuning resuelve.

¿Cuánto cuesta un asistente RAG vs un fine-tuning?

Asistente RAG empresarial pequeño-medio: implementación 2.000-8.000 €, operación 50-300 €/mes en API + 30-100 €/mes infraestructura. Fine-tuning sobre modelo open-source (Llama 3.1, Mistral, Qwen): preparación dataset 1.000-4.000 €, training 200-1.500 € por ronda, hosting de la GPU 200-1.500 €/mes. Fine-tuning suele ser más caro de operar porque mantener GPU encendida no es gratis: solo se amortiza con volumen alto o latencia crítica.

¿Mis datos salen de Europa con estas técnicas?

Depende del modelo. Con Claude vía AWS Bedrock Frankfurt (eu-central-1), Claude 4.5/4.6/4.7 están disponibles con residencia europea de datos y DPA firmable, no se usan para entrenamiento. Con Mistral (modelo y empresa francesa) tampoco salen del EEE. Con modelos open-source autohospedados (Llama 3.1, Qwen, DeepSeek) los datos no salen del servidor. Con OpenAI los datos viajan a EEUU salvo configuración Enterprise con residencia europea: las versiones gratuita y Plus de ChatGPT NO cumplen RGPD para datos personales. Cubrimos el mapa completo en la guía de Datos en Europa.

¿Cuándo NO usar ni RAG ni fine-tuning?

Cuando el problema no requiere lenguaje natural. Si lo que necesitas es buscar en una tabla, filtrar registros, calcular agregados o emparejar productos por especificaciones, una base de datos con buscador (Algolia, Meilisearch, Elasticsearch) o un buscador vectorial puro es más barato, más rápido y no alucina. La IA no es siempre la respuesta: a veces es solo la pregunta de moda. Empieza preguntando si el problema necesita lenguaje natural en la salida.

RAG vs fine-tuning: cuándo usar cada uno en asistentes IA de empresa

Q: ¿Qué es RAG y qué es fine-tuning?

RAG (Retrieval-Augmented Generation) es una técnica que recupera fragmentos relevantes de una base documental y los pasa al modelo como contexto antes de responder. El modelo no se modifica: se le mete una 'chuleta' justo antes del examen. Fine-tuning es reentrenar el modelo con tus datos para que los 'aprenda' en sus pesos internos. RAG actualiza información sin reentrenar; fine-tuning enseña al modelo un estilo o tarea específica. Las dos son técnicas complementarias, no excluyentes.

RAG = recupera fragmentos de tu documentación y los pasa al modelo. Bueno para: información que cambia, trazabilidad con citas obligatorias, corpus grande, sector regulado.
Fine-tuning = reentrenas el modelo con tus datos. Bueno para: estilo de marca fijo, tareas muy específicas con categorías propias, reducir coste a alto volumen (> 1.000 consultas/día).
Combinarlos: posible y útil en sistemas maduros, no en el primer asistente. La complejidad operacional se dobla.
Antes de elegir, pregunta si el problema necesita IA. Para buscar en datos estructurados, una base de datos bien indexada gana siempre.
Datos en Europa: viable con Claude vía AWS Bedrock Frankfurt (eu-central-1), con residencia europea, DPA y sin uso para entrenamiento. Mistral y modelos open-source autohospedados son opciones igualmente válidas.

Este artículo es el marco de decisión: cuándo usar RAG y cuándo fine-tuning. Para un caso concreto y muy habitual, ver Automatizar la entrada de facturas con IA en pymes. Y para saber qué stack de IA mantiene los datos en Europa, Datos en Europa: alternativas RGPD a Stripe, AWS y OpenAI en 2026.

El malentendido habitual

"Quiero un asistente que sepa de mi empresa." Lo que el cliente imagina es ChatGPT que mágicamente ha leído todos sus contratos, manuales, emails y políticas. Lo que en realidad pide puede resolverse por dos caminos muy distintos, y mezclar los dos es la receta para gastar el doble y entregar el triple de complejidad.

Veamos cuándo gana cada uno.

Qué es RAG y qué es fine-tuning, sin academicismo

RAG (Retrieval-Augmented Generation)

El modelo (Claude, GPT, Llama, lo que sea) no se modifica. Cuando llega una pregunta:

Se buscan fragmentos relevantes en tu base documental (un índice de embeddings tipo pgvector, Qdrant, Pinecone, Weaviate).
Esos fragmentos se inyectan en el prompt junto a la pregunta.
El modelo responde usando ese contexto, idealmente citando los fragmentos.

Es el equivalente a meter al modelo una chuleta justo antes del examen. La chuleta se actualiza cada vez que tú cambias tus documentos: sin entrenar nada, sin reentrenar nada.

Fine-tuning

El modelo sí se modifica. Se le presentan ejemplos (pares pregunta-respuesta, conversaciones, o tareas) y se ajustan sus pesos para que en el futuro responda como tú quieres. El conocimiento queda dentro del modelo: ya no hace falta pasarle la chuleta.

Hay variantes (LoRA, QLoRA, full fine-tuning, instruction-tuning) que cambian el coste y la flexibilidad, pero el principio es el mismo: modificas el modelo.

La tabla de decisión

Dimensión	RAG	Fine-tuning
Frecuencia de cambio de los datos	Alta: actualizas el índice y listo	Baja: cada cambio relevante implica reentrenar
Trazabilidad / citas a la fuente	Nativa (los fragmentos vienen con metadata)	Difícil (el conocimiento está disuelto en los pesos)
Coste inicial	Bajo: implementación + embeddings	Medio-alto: dataset etiquetado + GPU/coste de training
Coste por consulta	Más alto (contexto largo paga más tokens)	Más bajo (no necesita contexto extenso)
Latencia	Más alta (retrieval + generación)	Más baja (solo generación)
Adaptación de estilo / formato	Limitada (vía system prompt)	Excelente (estilo embebido en los pesos)
Riesgo de alucinación	Bajo si fuerzas "responde solo desde el contexto"	Medio-alto (el modelo no distingue entrenamiento de realidad)
Datos sensibles	Quedan fuera del modelo	Quedan dentro del modelo (cuidado con IP y RGPD)
Mantenibilidad operacional	Alta: actualizar índice es operación simple	Media: reentrenar y desplegar requiere disciplina
Buen ajuste a	Asistentes de documentación, soporte, búsqueda	Clasificación, extracción, asistentes con tono fijo

Casos reales · qué usar y por qué

Para un caso vertical paralelo concreto (extracción de datos de facturas de proveedor en pyme), el flujo completo (captura, extracción IA, validación contra pedidos, registro en ERP) está en Automatizar la entrada de facturas con IA en pymes en 2026.

Caso A · Asistente para un despacho de abogados

Necesidad: responder consultas internas sobre 8.000 dictámenes históricos, citando siempre el dictamen de origen.

Ganador: RAG.

Los dictámenes se añaden continuamente; reentrenar cada mes es absurdo.
La citación es obligatoria: sin ella, el asistente no se adopta. RAG nativamente devuelve los fragmentos que sustentan la respuesta.
Si el modelo no encuentra la respuesta, debe decir "no lo sé" en lugar de inventar (lo que un asistente fine-tuned haría con más frecuencia).

Caso B · Clasificador de tickets de soporte en 14 categorías propias

Necesidad: clasificar 3.000 tickets/día en categorías internas que ningún modelo público conoce.

Ganador: fine-tuning.

El conjunto de categorías es estable.
A 3.000 consultas/día, ahorrar 500-1.000 tokens por consulta vía contexto reducido se nota en factura.
No hace falta "explicar" la clasificación con citas: el negocio quiere la etiqueta correcta y ya.

Caso C · Asistente que responde con el tono de marca

Necesidad: chatbot público que responda con el tono editorial de la marca, sobre catálogo y políticas.

Ganador: combinación.

Fine-tuning ligero (LoRA) para fijar el tono.
RAG sobre catálogo y políticas para no alucinar productos ni precios.

Importante: la complejidad operacional sube. Hay que mantener dos artefactos (modelo fine-tuned + índice RAG) y un pipeline de evaluación que mida ambos.

Caso D · Búsqueda interna sobre tabla de productos con 40.000 SKUs

Necesidad: encontrar el producto correcto a partir de descripciones aproximadas en lenguaje natural ("la junta tórica de 12 mm para presión alta").

Ganador: ni uno ni otro.

Un buscador vectorial puro (sin LLM) ya resuelve el emparejamiento.
Para la mayoría de consultas, una combinación de búsqueda léxica (BM25) + filtro estructurado es más rápida, más barata y no requiere generación.
El LLM sobra. Lo difícil aquí es admitirlo.

Costes reales en España 2026

Lo que vemos en proyectos con clientes españoles de tamaño mediano (estimaciones de mercado, no nuestras tarifas exclusivas):

Asistente RAG empresarial pequeño-mediano (corpus < 5.000 documentos, < 1.000 consultas/día):

Implementación: 2.000-8.000 € según complejidad y conexiones con sistemas internos.
API del modelo (Claude Haiku/Sonnet o equivalentes): 50-300 €/mes.
Infraestructura (pgvector + worker + storage): 30-100 €/mes.
Operación y monitorización: 200-800 €/mes según SLA.

Total año uno: 4.500-15.000 €.

Fine-tuning sobre modelo open-source (Llama 3.1, Mistral, Qwen):

Preparación del dataset: 1.000-4.000 € (esto suele subestimarse).
Coste de training: 200-1.500 € por ronda (1-3 rondas habituales).
Hosting del modelo (GPU dedicada o serverless): 200-1.500 €/mes.
Operación: similar al RAG.

Total año uno: 5.000-25.000 €.

Fine-tuning suele ser más caro de operar porque mantener una GPU encendida no es gratis. Solo se amortiza con volumen alto o con un caso donde la latencia importa mucho (call center en tiempo real, por ejemplo).

Datos en Europa: lo que cambia en 2026

Para asistentes empresariales con datos sensibles (legal, salud, banca, RRHH), la cuestión RGPD pesa más que la técnica:

Claude vía AWS Bedrock Frankfurt (eu-central-1): las versiones recientes de Claude (4.5, 4.6, 4.7 y posteriores) disponibles con residencia europea (in-region o vía perfil de inferencia de la UE), DPA firmable y sin uso para entrenamiento. Es la opción de referencia en sectores regulados para RAG sin training.
Mistral (Francia): modelos vía API La Plateforme con residencia europea, vía Azure AI Foundry o autohospedados desde pesos publicados. La familia Mistral (Large, Medium, Small) y Codestral. Los modelos pequeños rondan a GPT-4o-mini / Claude Haiku; el grande juega en gama alta.
Modelos open-source autohospedados (Llama 3.1, Qwen, DeepSeek, Phi): control total, datos nunca salen del servidor. Mejor opción para fine-tuning con datos sensibles. Coste de operación más alto (GPU encendida).
OpenAI Enterprise con residencia europea: posible, requiere contrato Enterprise. Versiones gratuita y Plus de ChatGPT NO cumplen RGPD para datos personales.
Modelos hospedados en EEUU sin DPA específico: descartar para datos personales bajo RGPD.

Anthropic anunció en su página de cumplimiento regional que la API directa europea (api.eu.anthropic.com) y el soporte de Microsoft Foundry EU están "Coming 2026". Mientras tanto, AWS Bedrock Frankfurt sigue siendo la vía estándar para Claude con residencia europea.

Cubrimos el contexto completo en Datos en Europa: alternativas a Stripe, AWS y OpenAI.

El error caro: empezar por fine-tuning

El patrón habitual cuando una empresa tiene presupuesto y prisa: contratar fine-tuning porque "suena más serio". A los 3 meses descubren que:

Los datos cambian (catálogo, normativa, FAQs) y reentrenar cada mes es operacionalmente inviable.
El modelo alucina porque "ha aprendido" datos antiguos que ya no son válidos.
Sin citas a la fuente, el equipo cliente no confía en las respuestas.
La factura de GPU pesa más de lo previsto.

La gran mayoría de los proyectos de asistente empresarial empiezan correctamente con RAG. Fine-tuning entra en una segunda iteración si la evaluación lo justifica.

Cómo arrancar bien (sea RAG o fine-tuning)

Independientemente de la técnica, los proyectos que entregan valor empiezan igual:

Define el caso de uso en una frase. Si no puedes, todavía no estás listo para implementar.
Define "golden questions": 20-30 preguntas reales del equipo cliente con la respuesta correcta. Sin esto no hay forma de evaluar.
Decide la métrica de éxito: porcentaje de respuestas correctas según el cliente, no según el modelo. Una grounded answer rate (respuestas con sustento documental) por encima del 85% es el umbral habitual para producción.
Mide el coste por consulta antes de escalar. Si tu asistente cuesta 0,05 € por pregunta y vas a tener 2.000 al día, son 36.000 € al año. ¿Compensa?
Plan de "no lo sé": cuándo el sistema admite que no tiene la respuesta. Sin esto, el sistema alucina y se pierde la confianza del equipo.

Para empezar

Si tu empresa tiene documentación que el equipo consulta a diario, un asistente RAG bien hecho es uno de los proyectos con mejor retorno de los que entregamos. El servicio de IA y automatizaciones cubre desde la primera versión hasta operación, con datos en infraestructura europea por defecto (Claude vía AWS Bedrock Frankfurt o modelos open-source autohospedados).

Para un caso concreto y muy frecuente (automatización de facturas con IA en pymes), lo desarrollamos en detalle en Automatizar la entrada de facturas con IA en pymes en 2026.

Reserva una llamada corta si quieres validar si tu caso encaja con RAG, fine-tuning o ninguno de los dos.