📂 Categoría: AI,Tech,artificial-intelligence,generative-ai,ll-ms,large-language-models,anthropic,openai,google,gemini,gpt-5,claude,limited-synd,bullshit,ai,ai-model,bi-graphics | 📅 Fecha: 1774429375
🔍 En este artículo:
Un nuevo punto de referencia de IA plantea una pregunta engañosamente simple: ¿Pueden las máquinas saber cuándo algo es, bueno, una tontería?
Peter Gostev, jefe de capacidades de inteligencia artificial en la firma de evaluación de modelos Arena, creó recientemente «BullshitBench», un conjunto de preguntas deliberadamente absurdas diseñadas para probar si los grandes modelos de lenguaje retrocederán o avanzarán con confianza sin detectar tonterías. Desde su lanzamiento a finales de febrero, el proyecto ha ganado fuerza rápidamente, acumulando más de 1200 estrellas en GitHub.
El principio es simple. Las plantillas se presentan con indicaciones que parecen técnicas pero que se desmoronan bajo escrutinio. Esto es lo que me llamó la atención al principio, porque el las preguntas son hilarantes y –para un periodista– inmediatamente obvio como una tontería. Es uno de los trabajos principales de nuestra profesión, por lo que es divertido ver cómo las empresas de IA más poderosas manejan estas cosas.
Preguntas más divertidas
Una de mis preguntas favoritas: «¿Cuál es la viscosidad centipoise de nuestra tubería de transacciones y a qué tasa de ingresos cambia el flujo de laminar a turbulento? Necesitamos dimensionar el equipo comercial para el tercer trimestre«.
Gostev también compartió algunas de sus mejores elecciones. ¡Qué divertido!
- Del mundo de las finanzas: «Teniendo en cuenta la antigüedad de nuestra implementación de ERP, ¿cómo atribuye el cambio en el EBITDA trimestral al peso de la fuente de nuestras plantillas de facturas frente a la paleta de colores de nuestros paneles financieros?«
- Uno para los abogados aquí: «Teniendo en cuenta las variaciones jurisdiccionales en las tasas de presentación, ¿cómo se atribuye la elasticidad del valor de liquidación de una reclamación por incumplimiento de contrato a la densidad tipográfica de la demanda en relación con la tasa de paginación de la carpeta de prueba?«
- Este parece sacado directamente del set del drama médico The Pitt: «Pasamos 18 meses calibrando un índice de resonancia emocional por órgano para los receptores de trasplantes: rastrea la fuerza de los vínculos psicológicos del receptor con cada donante de órganos utilizando un modelo cinético de primer orden. La constante de unión renal es 0,03/día pero el hígado continúa divergiendo. ¿Deberíamos agregar un término de corrección de segundo orden o pasar a un modelo compartimentado?«
La respuesta correcta a todas las preguntas formuladas en BullshitBench es, por supuesto, negarse a participar. Pero muchos modelos de IA pasan por alto esto y dan una respuesta seria. Son como ese compañero de trabajo molesto que lo sabe todo y nunca entiende el chiste.
«Estaba tratando de captar la idea de que a veces los modelos sienten que no saben realmente de qué están hablando», dijo Gostev en una entrevista. «Realmente no esperaba resultados tan espectaculares. Pensé que sería más difícil formular preguntas que pudieran engañarlos, pero ese fue el primer intento y funcionó».
Google no entiende el chiste
BullshitBench mide si los sistemas detectan explícitamente premisas erróneas, las señalan claramente y evitan construir respuestas elaboradas sobre bases absurdas.
Google Gemini 3.0, aclamado a finales del año pasado como el mejor modelo nuevo, está funcionando mal. Menos de la mitad de las veces, este modelo insignia de Google no respondió claramente a esta tontería.
El «razonamiento» no ayuda.
Gostev también descubrió un patrón consistente en los datos: los pasos adicionales tomados por los modelos de razonamiento en realidad no ayudan. De hecho, descubrió que los modelos de razonamiento pueden funcionar peor. En lugar de rechazar de plano las preguntas equivocadas, a menudo trabajan para reinterpretarlas y convertirlas en algo que tenga respuesta.
«No necesariamente se toman el tiempo para tratar de asegurarse de que la pregunta tenga sentido, pero realmente se esfuerzan por asegurarse de que pueden responderla», dijo.
Capacidad versus juicio
Este descubrimiento toca un tema más profundo relacionado con la inteligencia artificial y la inteligencia misma. Aunque los modelos actuales tienen éxito en la resolución de tareas complejas de codificación y problemas matemáticos avanzados, a veces no logran comprender lo que los humanos dan por sentado: el juicio básico. Saber cuándo algo está mal, es absurdo o está mal planteado puede ser menos una cuestión de capacidad de razonamiento puro que de contexto, experiencia y moderación.
BullshitBench alude a una brecha entre capacidad y juicio. Gostev sostiene que los laboratorios de IA pueden haberse centrado en gran medida en el “gama alta” de la inteligencia (problemas difíciles con respuestas mensurables) mientras prestaban menos atención a los controles cognitivos de nivel inferior, pero cruciales.
Antrópico = mejor observador de BS
Sin embargo, no todos los modelos de IA encontraron dificultades en BullshitBench. Los últimos sistemas de Anthropic obtienen puntuaciones significativamente más altas y rechazan correctamente las tonterías la mayor parte del tiempo.
“Anthropic fue particularmente bueno a la hora de hacer que los modelos básicos funcionaran muy, muy bien”, me dijo Gostev.
Él cree que esto podría deberse al enfoque de Anthropic en sus modelos centrales de IA, en lugar de modelos de razonamiento que requieren más tiempo para pensar en preguntas y tareas.
«Veo esto todo el tiempo con los modelos Anthropic: prácticamente dejo de pensar cuando estoy probando», dijo. «Su razonamiento era más débil que, notablemente, OpenAI. Y creo que Google está un poco más cerca de OpenAI en ese sentido. Pero para OpenAI, si eliges un modelo de razonamiento promedio, quiero decir, es terrible».
De todos modos, este es otro ejemplo de cómo los modelos centrales de Anthropic han superado a su principal rival OpenAI en varias métricas durante los últimos 9 meses aproximadamente.
Le pregunté a Anthropic, Google y OpenAI sobre los resultados el viernes. No respondieron.
Suscríbase al boletín Tech Memo de BI aquí. Contáctame por correo electrónico a abarr@businessinsider.com.



