Qué es el ajuste por instrucciones explicado fácil
El ajuste por instrucciones hace que los modelos de IA sigan órdenes en lenguaje natural. Descubre cómo funciona y por qué cambia todo en la práctica.

Si alguna vez le has pedido a ChatGPT que responda como experto, que use un tono formal o que resuma un texto en cinco puntos, y lo ha hecho bien, es porque el modelo pasó por algo llamado ajuste por instrucciones. Sin esa etapa de entrenamiento, la IA respondería de formas mucho más impredecibles y literales.

Es uno de los conceptos que más influye en la experiencia cotidiana con modelos de lenguaje, y muy poca gente lo conoce por nombre. Te lo explico sin rodeos.

De dónde viene el problema

Los modelos de lenguaje grandes, en su forma original, aprenden a predecir la siguiente palabra dado un texto. Solo eso. Si les dices «¿Cuál es la capital de Perú?», un modelo sin ajuste podría responder con más preguntas similares, porque eso es lo que sigue en un texto típico de cuestionario. No responde, continúa el patrón.

Esto funciona bien para autocompletar texto, pero es bastante inútil si lo que quieres es un asistente que entienda instrucciones y las ejecute. Ahí entra el ajuste por instrucciones, conocido en inglés como instruction tuning o instruction fine-tuning.

Cómo funciona el ajuste por instrucciones

El proceso tiene dos componentes principales:

Primero, se construye un conjunto de datos especial. No son textos genéricos de internet, sino pares de instrucción y respuesta correcta. Por ejemplo: la instrucción es «resume este artículo en tres puntos» y la respuesta es exactamente eso, bien hecha. Se generan decenas o cientos de miles de estos pares.

Segundo, el modelo ya entrenado se vuelve a entrenar con esos pares. Aprende que cuando recibe una instrucción, la respuesta esperada tiene una forma específica: útil, directa, ajustada a lo pedido.

El resultado es un modelo que sigue instrucciones de manera mucho más confiable. La diferencia entre GPT-3 base y ChatGPT fue, en gran parte, este paso.

RLHF: el complemento humano

La mayoría de los modelos modernos no se quedan solo con el ajuste por instrucciones básico. Añaden una capa llamada RLHF (Reinforcement Learning from Human Feedback, o aprendizaje por refuerzo con retroalimentación humana).

Aquí, personas reales evalúan distintas respuestas del modelo y las ordenan de mejor a peor. Con esas evaluaciones se entrena un modelo de recompensa, y ese modelo de recompensa guía al modelo de lenguaje para que produzca respuestas que los humanos prefieren.

Es un proceso costoso y laborioso. Requiere muchas horas de trabajo humano especializado. Pero hace que el modelo sea más útil, más seguro y menos propenso a inventar información o responder de forma dañina.

Por qué importa esto para quien usa IA en su trabajo

Entender el ajuste por instrucciones tiene implicaciones prácticas directas:

  • Explica por qué los modelos responden mejor a instrucciones claras y específicas. El modelo fue entrenado con instrucciones así.
  • Explica por qué algunos modelos son mejores siguiendo órdenes complejas que otros. Tienen más o mejor ajuste por instrucciones.
  • Explica por qué los modelos a veces parecen demasiado complacientes: el ajuste los entrenó para dar respuestas que los humanos aprueban, y los humanos tienden a aprobar respuestas que concuerdan con lo que querían escuchar.
  • Explica por qué un buen prompt importa. Cuanto más se parece tu instrucción a los pares de entrenamiento del modelo, mejor responde.

La diferencia entre modelos base y modelos ajustados

Hay una distinción que vale la pena marcar. Los modelos base son los que terminan el preentrenamiento sobre texto masivo de internet, libros y otras fuentes. Son capaces, pero no muy manejables. Los modelos ajustados son los que pasaron por instruction tuning y RLHF.

La mayoría de las interfaces que usa la gente común, como ChatGPT, Claude o Gemini, son modelos ajustados. Si alguien tuviera acceso a un modelo base puro y le pidiera que resuma un texto, la respuesta podría ser cualquier cosa, desde un resumen correcto hasta más texto que continúa el artículo original.

Las empresas que desarrollan IA guardan los modelos base para uso técnico e investigación. Lo que se distribuye al público general es casi siempre la versión ajustada.

El ajuste por instrucciones no es permanente ni universal

Un detalle que la gente asume sin cuestionarlo: el ajuste no enseña al modelo a hacer cosas que no sabía hacer. Solo mejora su capacidad de ejecutar instrucciones sobre lo que ya sabe.

Si el modelo no tiene conocimiento sobre un tema específico porque no estuvo en su entrenamiento original, el ajuste por instrucciones no cambia eso. El modelo seguirá respondiendo con información incorrecta o inventada sobre ese tema, ahora simplemente con más fluidez y confianza.

Esto es importante para cualquier empresa peruana que use IA para atención al cliente: si el modelo no conoce los productos específicos de tu negocio, el ajuste por instrucciones no lo va a subsanar. Para eso existen otras técnicas, como el acceso a bases de conocimiento externas o el fine-tuning personalizado.

Casos de uso reales en negocios pequeños

Una ferretería en San Isidro puede usar ChatGPT para responder consultas simples de clientes. El modelo responde bien porque fue ajustado por instrucciones para entender preguntas en lenguaje natural y dar respuestas útiles. Pero si le preguntan por el stock de un producto específico o el precio de una marca que el modelo no conoce, va a alucinar o decir que no sabe.

Saber esto permite diseñar mejor el uso de IA en tu operación. Las tareas donde el ajuste por instrucciones brilla son redacción, resumen, clasificación, traducción y razonamiento sobre información que ya le das al modelo. Las tareas donde falla son las que requieren conocimiento específico y actualizado de tu negocio.

Si te interesa explorar cómo integrar IA de forma útil en tu empresa, en freelo.pe trabajamos esas soluciones con equipos peruanos de distintos rubros.

Preguntas frecuentes

¿El ajuste por instrucciones es lo mismo que el fine-tuning?

Son conceptos relacionados pero no idénticos. El fine-tuning es el proceso general de reentrenar un modelo con datos específicos. El ajuste por instrucciones es un tipo particular de fine-tuning donde los datos son pares de instrucción y respuesta. Todo ajuste por instrucciones es un tipo de fine-tuning, pero no todo fine-tuning es ajuste por instrucciones.

¿Puedo hacer ajuste por instrucciones en mi propio modelo?

Sí, técnicamente es posible. Plataformas como OpenAI, Google y otros permiten fine-tuning sobre sus modelos base. Requiere preparar un conjunto de datos de entrenamiento con pares de instrucción y respuesta, y tiene costo en función del tamaño del modelo y los datos. Para la mayoría de las pymes peruanas, usar prompts bien construidos da resultados suficientes sin ese costo.

¿Por qué los modelos ajustados a veces se niegan a responder ciertas preguntas?

El ajuste por instrucciones incluye entrenamiento de seguridad. Durante el RLHF, los evaluadores humanos penalizaron respuestas que generaban contenido dañino, falso o inapropiado. El modelo aprendió a rechazar ese tipo de solicitudes. Es un efecto buscado deliberadamente, aunque a veces resulte demasiado conservador en casos inofensivos.

¿Los modelos de código abierto también tienen ajuste por instrucciones?

Sí, muchos. Llama de Meta, Mistral y otros modelos abiertos tienen versiones ajustadas por instrucciones. Suelen identificarse con sufijos como Instruct o Chat en el nombre. Los modelos base sin ajuste también están disponibles para desarrolladores que quieran personalizar el proceso ellos mismos.

¿Qué diferencia hay entre un prompt de sistema y el ajuste por instrucciones?

El prompt de sistema es una instrucción que el usuario o desarrollador da al modelo en cada sesión para definir su rol o comportamiento. El ajuste por instrucciones es cambios permanentes en los pesos del modelo a través del entrenamiento. Uno es temporal y externo, el otro es estructural e interno al modelo.

Responsable: Otorongo Negro E.I.R.L. (KOM) | RUC 20604716595 | Derechos ARCOP: legal@kom.pe · Política de Privacidad

Estamos listos para construir algo increíble contigo.

Envíanos un mensaje

Completa el formulario y uno de nuestros especialistas se pondrá en contacto contigo en menos de 24 horas.

Síguenos

codigo yape otorongo negro eirl - Diseño de páginas web en Lima - Perú