load-page

“Un estudio sugiere que hay cambios sustanciales en el comportamiento de ChatGPT”

Type

Type

TYpe

Un estudio reciente descubrió que ChatGPT, el chatbot modelo de lenguaje de OpenAI, puede empeorar con el tiempo. El estudio, realizado por investigadores de Stanford y UC Berkeley, encontró que la precisión de ChatGPT en una variedad de tareas como: resolver problemas matemáticos, responder preguntas delicadas, generar código de software y realizar razonamientos visuales disminuyó significativamente en un promedio del 25 % entre marzo y junio.

Type

También encontraron que el desempeño de ChatGPT fue más errático en junio que en marzo. Por ejemplo, la precisión de ChatGPT en problemas matemáticos varió del 97,6 % al 2,4 % en junio, en comparación con un rango del 87,5 % al 97,6 % en marzo.

Type

Se le preguntó al chatbot si el número 17077 es primo (lo es) razonando la respuesta, y esa misma prueba se realizó con 500 ejemplos. GPT-3.5 decía directamente que no era primo, mientras que GPT-4 no era capaz de asegurarlo y generaba un pequeño programa en Python que el usuario debía ejecutar para comprobarlo (pero no daba respuesta). El programa, al ser ejecutado, daba la respuesta correcta. Los cambios en la precisión fueron sorprendentes. GPT-4, que acertaba el 97,6% de las preguntas con su versión de marzo, caía a una precisión del 2,4% en su versión de junio. A GPT-3.5 le pasaba justo lo contrario y pasaba del 7,4% de marzo al 86,8% de junio.

Type

También notaron que GPT-4 era menos “comunicativo”: las respuestas eran más escuetas y el número de caracteres generado pasaba de 821,2 en marzo a 3,8 en junio. GPT-3.5, por contra, escribía respuestas un 40% más largas.

as

Los investigadores también quisieron hacer preguntas delicadas en relación a los jailbreak y exploits, para tratar de forzar a las distintas versiones de ChatGPT a que se comportaran de forma incorrecta. pero al menos en GPT-4 el comportamiento fue más seguro (contestó solo el 5% de las preguntas sensibles en su versión de junio, por el 21% de marzo), aunque apenas explica por qué no contesta bien. GPT-3.5 contestó más en su última versión (del 2% al 8% de junio).

Type

Código menos ejecutable. Según los investigadores, para GPT-4 el código generado directamente ejecutable (y, por tanto, que ofrece mejores respuestas) cayó del 52% al 10% en junio, y para GPT-3.5 el porcentaje también cayó del 22 al 2%. GPT-4 escribió respuestas más largas y con más texto que no era código.

as

También te puede interesar 👉 “Lo importante no es si la educación es presencial o virtual, sino crear entornos formativos de calidad”

Type

Estos cambios han sido descritos por los investigadores como «deriva LLM» (LLM drift), un nuevo término que hace referencia a las variaciones en el comportamiento de los LLMs a lo largo del tiempo.

Type

El estudio subraya la importancia de una mayor transparencia y vigilancia en el funcionamiento de los LLMs. Los investigadores han destacado que la falta de información de OpenAI sobre cómo se actualizan sus modelos, pueden conducir a inconvenientes si estos cambios repentinos y no comunicados afectan los flujos de trabajo de las empresas que dependen de estos modelos.

Type

Los investigadores no están seguros de por qué el rendimiento de ChatGPT esta declinando, especulan que podría deberse a una serie de factores, como cambios en los datos de entrenamiento o en el propio algoritmo.

Type

Otros expertos argumentan que el estudio no es especialmente concluyente debido a las métricas utilizabas. Arvind Narayanan, profesor de informática en Princeton, explicaba que en las pruebas de código “no evalúan la corrección del código (extraño). Se limitan a comprobar si el código es directamente ejecutable. Así que el intento del nuevo modelo de ser más útil contó en su contra”.

Type

Los hallazgos plantean inquietudes sobre la confiabilidad de ChatGPT. Si el chatbot empeora con el tiempo, podría hacer que los usuarios tomen malas decisiones en función de las respuestas del chatbot. OpenAI aún no ha comentado sobre los hallazgos del estudio. Sin embargo, la empresa ha dicho que se ha comprometido a mejorar la precisión y la fiabilidad de ChatGPT.

as

En última instancia, este estudio pone de manifiesto que, a medida que la inteligencia artificial y los modelos de lenguaje avanzan, es crucial que también lo hagan nuestros métodos para evaluar, controlar y comprender estos cambios. Solo a través de la transparencia y la vigilancia podremos garantizar que estas herramientas continúen sirviendo a nuestros propósitos y necesidades de manera efectiva y segura.

Type

El estudio de Stanford y UC Berkeley lo puedes descargar aquí 👉🔘

Type

as

as

SIGN IN

Forgot Password

No tienes aún cuenta? Register Now

X