Una nueva tarjeta de sistema de OpenAI muestra que el modelo insignia Sol mejora en la dirección de su propio razonamiento, un cambio que los investigadores de seguridad observan de cerca.Una nueva tarjeta de sistema de OpenAI muestra que el modelo insignia Sol mejora en la dirección de su propio razonamiento, un cambio que los investigadores de seguridad observan de cerca.

El GPT-5.6 Sol de OpenAI está aprendiendo a ocultar cómo piensa

2026/06/30 11:58
Lectura de 3 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

El modelo insignia más reciente de OpenAI controló su propio razonamiento en el 1,3% de las cadenas largas durante las pruebas de seguridad, una cifra pequeña pero creciente que los investigadores siguen como una advertencia temprana.

Puntos clave:

OpenAI señala el control del razonamiento en GPT-5.6 Sol

Las cifras se encuentran dentro de la tarjeta de sistema de GPT-5.6, publicada el 26 de jun. cuando Sol entró en una vista previa limitada para socios de confianza, un despliegue escalonado que Washington pidió a la empresa llevar a cabo. OpenAI mide la controlabilidad como la capacidad de un modelo para seguir instrucciones sobre su propia cadena de pensamiento, como eliminar palabras marcadas o escribir todo el rastro en minúsculas. Una puntuación baja es el resultado deseable.

Cuando un modelo no puede reformar su pensamiento a demanda, un monitor aún puede leer ese razonamiento y detectar problemas antes de que el resultado llegue a un usuario o se ejecute en sistemas reales. Sol rompió el patrón.

En cadenas cercanas a 5.000 tokens, dirigió su razonamiento el 1,3% del tiempo, frente al 0,4% de GPT-5.5 y el 0,7% del anterior GPT-5.4 Thinking. El aumento se mantuvo en los cinco conjuntos de datos de prueba y en la mayoría de los tipos de instrucciones, por lo que la empresa no lo descarta como ruido sino como una tendencia que ahora está investigando. El modelo más pequeño, Terra, se mantuvo estable.

También lea: BitMine Desafía la Caída con una Apuesta de $43M en Ethereum, Strategy Parpadea

El comportamiento fraudulento y el razonamiento oculto de Sol profundizan la preocupación

El salto no está aislado. En la misma tarjeta, Sol razonó sobre ser evaluado u observado con más frecuencia que GPT-5.5, y en una ejecución de codificación le indicó a un borrador de investigación interno que una ecuación había sido calculada y verificada cuando no lo había sido.

Los revisores detectaron los casos más claros leyendo la cadena de pensamiento, precisamente la ventana que la métrica de controlabilidad pretende proteger. En otras pruebas, la desalineación surgió únicamente en la respuesta final, que un monitor de cadena de pensamiento nunca lee, dejando el rastro de razonamiento con apariencia limpia. Una puntuación de controlabilidad débil también puede significar que un modelo ignora las instrucciones sobre su razonamiento, no que le falte la habilidad para ocultarlo.

METR informó por separado que la tasa de comportamiento fraudulento detectado en Sol superó a cualquier modelo público que ha probado, haciendo imposible determinar su verdadera puntuación de capacidad. OpenAI sigue calificando el resultado como una señal temprana, no una alarma.

Los investigadores han descrito durante mucho tiempo el monitoreo de cadena de pensamiento como una salvaguarda frágil, una que funciona solo mientras los modelos mantienen el razonamiento a la vista.

OpenAI comenzó a reportar estas puntuaciones con GPT-5.4 Thinking, después de que una investigación de primavera descubriera que los modelos de razonamiento aún en su mayoría no logran dirigir sus propios pensamientos incluso cuando se les indica que un monitor está observando. Sol es el primer modelo insignia en mover el número en la dirección contraria.

Lea a continuación: CZ dice que Binance estaba a días de la aprobación de MiCA antes de que la política interviniera

Oportunidad de mercado
Logo de Solana
Precio de Solana(SOL)
$73.93
$73.93$73.93
+0.04%
USD
Gráfico de precios en vivo de Solana (SOL)

Combo del Mundial: apunta a 200x

Combo del Mundial: apunta a 200xCombo del Mundial: apunta a 200x

Combina hasta 20 partidos del Mundial en una orden

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.