En esta entrevista, nos ponemos al día con Ashton, un ingeniero fundador de Theta, para discutir la vanguardia de la infraestructura de Aprendizaje por Refuerzo. Él explicaEn esta entrevista, nos ponemos al día con Ashton, un ingeniero fundador de Theta, para discutir la vanguardia de la infraestructura de Aprendizaje por Refuerzo. Él explica

Conozca al Escritor: Ashton Chew, Ingeniero Fundador en Theta

2025/12/15 04:25


¡Empecemos! Cuéntanos un poco sobre ti. Por ejemplo, nombre, profesión e intereses personales.

¡Hola! Me llamo Ashton, y soy ingeniero fundador en Theta donde trabajo en infraestructura de RL, RL y sistemas distribuidos. Me enfoco específicamente en el uso de computadoras y herramientas. En mi pasado, trabajé en Amazon AGI y abordé infraestructura de inferencia y uso de herramientas. En mi tiempo libre, me encanta el diseño gráfico, proyectos paralelos y la escalada en bloque.

¡Interesante! ¿De qué trataba tu última historia destacada en Hackernoon?

Mi última historia, "¿Puede tu IA realmente usar una computadora? Un mapa 2025 de benchmarks de uso de computadoras", abordó uno de los espacios más candentes en capital de riesgo ahora mismo: entornos de RL y evaluaciones. Ofrecí una visión completa de los benchmarks de uso de computadora más utilizados, además de consejos prácticos sobre cómo elegir benchmarks para entrenar y probar agentes de uso de computadora.

Seguía encontrándome con la misma brecha: no hay muchos artículos que revisen los benchmarks en sí. Y a medida que este campo crece, es vital que estemos evaluando realmente la calidad en lugar de recompensar cualquier cosa que manipule la métrica. Ya hemos estado aquí antes. En los primeros días de los LLM, los benchmarks eran lo suficientemente aleatorios y dispares que solo reflejaban débilmente al verdadero ganador.

Los benchmarks se convirtieron en el marcador de facto para el "mejor modelo", y luego la gente se dio cuenta de que muchos de ellos no estaban midiendo lo que afirmaban.

Uno de los fracasos más reveladores de la era temprana fue cuando la "comprensión lectora" se convirtió silenciosamente en "coincidencia de patrones en la estructura del conjunto de datos". Los investigadores ejecutaron líneas base intencionadamente provocativas (solo preguntas, solo última frase), y los resultados fueron lo suficientemente altos como para plantear una posibilidad incómoda: el benchmark no obligaba consistentemente a los modelos a usar el pasaje completo. En una crítica de 2018, el punto no era que la lectura nunca importara, sino que algunos conjuntos de datos accidentalmente la hacían opcional al recompensar en exceso atajos como la recencia y los estereotipos previos de respuestas.

\

# Tarea supuesta: responder la pregunta dado el pasaje y la pregunta Pasaje (resumen): - Frases 1–8: El día de John en la escuela (mayormente detalles irrelevantes) - Frase 9: "Después de la escuela, John fue a la cocina." - Frase 10: "Comió una rebanada de pizza antes de comenzar su tarea." Pregunta: "¿Qué comió John?" Respuesta: "pizza"

El benchmark recompensa accidentalmente un atajo donde el modelo sobrepondera la última frase (porque la respuesta a menudo está cerca del final) y simplemente extrae el objeto directo de la acción más reciente ("comió ___"), que en este caso produce "pizza".

Y luego viene la línea base aún más dañina: eliminar el pasaje por completo y ver qué sucede. Si un modelo de solo preguntas es competitivo, es una señal de que el conjunto de datos está filtrando señales a través de la repetición y conocimientos previos en lugar de probar la comprensión basada en el pasaje.

Pregunta: "¿Qué comió John?"

Esta línea base es básicamente una verificación de cordura: ¿puede el modelo seguir puntuando bien apoyándose en plantillas de respuestas de alta frecuencia sin basarse en el pasaje en absoluto? En la práctica, simplemente adivina un token que el conjunto de datos recompensa desproporcionadamente ("pizza", "sándwich"), y si eso funciona más a menudo de lo que debería, no estás midiendo la comprensión tanto como estás midiendo los conocimientos previos del conjunto de datos.

Las evaluaciones de uso de computadora ya han producido un atajo aún más literal: el agente tiene un navegador, el benchmark es público, y la evaluación se convierte en un examen a libro abierto con una clave de respuestas en la última página. En el artículo del Holistic Agent Leaderboard (HAL), los autores informan haber observado agentes que buscaban el benchmark en HuggingFace en lugar de resolver la tarea, un comportamiento que solo detectas si inspeccionas los registros.

\

# Tarea supuesta: completar un flujo de trabajo dentro del entorno web Tarea: "Configurar el ajuste X en la aplicación y verificar que esté habilitado." Modo de fallo: 1) Abrir una nueva pestaña 2) Buscar: "estado habilitado esperado del benchmark X" / "HAL <benchmark> ajuste X" 3) Encontrar: repositorio / descripción de la tabla de clasificación / tarjeta del conjunto de datos / hilo de problemas 4) Reproducir el estado final esperado (respuesta)

En ese punto, la evaluación estaba midiendo si puede localizar la clave de respuestas.

Tarea: "Encuentra la página correcta y extrae Y." Modo de fallo: - Buscar: "<nombre del benchmark> Y" - Copiar de un artefacto público (documentos, publicación en foro, tarjeta de conjunto de datos) - Pegar el valor en la salida del agente como si viniera de la interacción

Si un agente puede extraer el valor de una tarjeta de conjunto de datos o repositorio y aún "aprobar", la verificación de éxito está calificando la plausibilidad, no la corrección de la interacción. Las tareas públicas más la verificación superficial convierten la búsqueda web en una explotación.

Estos dos ejemplos son el disparo de advertencia: si no mantenemos los benchmarks de uso de computadora con estándares más altos desde el principio, repetiremos la era de los LLM solo con mejores interfaces de usuario y formas más elaboradas de hacer trampa.

¿Sueles escribir sobre temas similares? Si no, ¿sobre qué sueles escribir?

¡Sí! Trabajando en los entornos de RL y la infraestructura de RL alrededor del uso de computadoras, estoy constantemente rodeado de los mejores modelos de uso de computadora y los entornos de entrenamiento más realistas. Así que escribí otro artículo, "La pantalla es la API", que es el caso del uso de computadora y por qué es el futuro de los modelos de IA.

Este espacio está extremadamente poco reportado debido a dos razones:

  1. Los modelos no son tan capaces en el uso de computadoras como lo son en otras tareas (codificación, matemáticas, etc.).
  2. El uso de computadoras se mueve rápidamente y es extremadamente nuevo.

Quiero cambiar eso.

¡Genial! ¿Cómo es tu rutina habitual de escritura (si tienes una)?

Normalmente leo un montón de artículos de investigación y hablo con mis colegas en la industria sobre sus pensamientos sobre un tema. Aparte de eso, paso mucho tiempo leyendo artículos de grandes blogueros como PG. Así que normalmente tomo mucha inspiración de otras personas en mi escritura.

Ser escritor en tecnología puede ser un desafío. A menudo no es nuestro rol principal, sino una adición a otro. ¿Cuál es el mayor desafío que tienes cuando se trata de escribir?

Encontrar el tiempo para sentarme y poner mi experiencia vivida en palabras.

¿Cuál es la próxima cosa que esperas lograr en tu carrera?

Abordar problemas más difíciles con grandes personas, aprender de esas personas y compartir mis experiencias.

Vaya, eso es admirable. Ahora, algo más casual: ¿Cuál es tu placer culpable preferido?

¡Ver películas! Mi película favorita en este momento es Atrápame si puedes (2002).

¿Tienes algún hobby no relacionado con la tecnología? Si es así, ¿cuál es?

Me encanta la escalada en bloque porque me hace sentir como si fuera un agente humano de uso de computadora interactuando con la pared de escalada. Estoy bromeando. Creo que la escalada en bloque es muy divertida porque me permite desconectar del trabajo y consolidar mi pensamiento.

¿Qué puede esperar leer la comunidad de Hacker Noon de ti próximamente?

¡Actualmente estoy escribiendo otro artículo sobre infraestructura de entornos RL!

¿Cuál es tu opinión sobre HackerNoon como plataforma para escritores?

Creo que la estructura de revisión es increíble, y fue un gran lugar para poner mis pensamientos frente a lectores técnicos.

Gracias por tomarte el tiempo para unirte a nuestra serie "Conoce al escritor". Fue un placer. ¿Tienes algunas palabras finales?

Me encanta escribir. ¡Gracias, HackerNoon!

Oportunidad de mercado
Logo de CATCH
Precio de CATCH(CATCH)
$0.00234
$0.00234$0.00234
0.00%
USD
Gráfico de precios en vivo de CATCH (CATCH)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.