În acest interviu, discutăm cu Ashton, un inginer fondator la Theta, despre tehnologia de ultimă oră în infrastructura de Învățare prin Consolidare. El explicăÎn acest interviu, discutăm cu Ashton, un inginer fondator la Theta, despre tehnologia de ultimă oră în infrastructura de Învățare prin Consolidare. El explică

Cunoaște-l pe scriitor: Ashton Chew, Inginer Fondator la Theta

2025/12/15 04:25


Să începem! Spune-ne câte ceva despre tine. De exemplu, nume, profesie și interese personale.

Salut! Numele meu este Ashton și sunt inginer fondator la Theta, unde lucrez pe infrastructura RL, RL și sisteme distribuite. Mă concentrez în special pe utilizarea computerului și utilizarea instrumentelor. În trecut, am lucrat la Amazon AGI și m-am ocupat de infrastructura de inferență și utilizare a instrumentelor. În timpul liber, îmi place design-ul grafic, proiectele secundare și bouldering-ul.

Interesant! Despre ce a fost ultimul tău articol de top de pe Hackernoon?

Cel mai recent articol al meu, "Poate AI-ul tău să folosească cu adevărat un computer? O hartă din 2025 a criteriilor de referință pentru utilizarea computerului", a atins unul dintre cele mai fierbinți domenii din VC în prezent: mediile RL și evaluările. Am oferit o prezentare cuprinzătoare a celor mai utilizate criterii de referință pentru utilizarea computerului, plus sfaturi practice despre cum să alegi criterii pentru instruirea și testarea agenților de utilizare a computerului.

Am continuat să întâlnesc aceeași lacună: nu există multe articole care să analizeze criteriile de referință în sine. Și pe măsură ce acest domeniu crește, este vital să evaluăm cu adevărat calitatea în loc să recompensăm orice se întâmplă să manipuleze metrica. Am mai fost aici înainte. În primele zile ale LLM-urilor, criteriile de referință erau suficient de aleatorii și disparate încât reflectau doar slab adevăratul câștigător.

Criteriile de referință au devenit tabela de scor de facto pentru "cel mai bun model", iar apoi oamenii și-au dat seama că multe dintre ele nu măsurau ceea ce pretindeau.

Unul dintre cele mai revelatoare eșecuri din era timpurie a fost când "înțelegerea lecturii" a devenit în tăcere "potrivirea de tipare pe structura setului de date". Cercetătorii au rulat linii de bază intenționat provocatoare (doar întrebarea, doar ultima propoziție), iar rezultatele au fost suficient de ridicate pentru a ridica o posibilitate inconfortabilă: criteriul de referință nu forța în mod consecvent modelele să folosească întregul pasaj. Într-o critică din 2018, ideea nu era că citirea nu contează niciodată, ci că unele seturi de date au făcut-o accidental opțională prin recompensarea excesivă a scurtăturilor precum recența și stereotipurile răspunsurilor anterioare.

\

# Sarcina presupusă: răspunde la întrebare pe baza pasajului și a întrebării Pasaj (rezumat): - Propozițiile 1-8: Ziua lui John la școală (detalii în mare parte irelevante) - Propoziția 9: "După școală, John a mers la bucătărie." - Propoziția 10: "A mâncat o felie de pizza înainte de a-și începe temele." Întrebare: "Ce a mâncat John?" Răspuns: "pizza"

Criteriul de referință recompensează accidental o scurtătură în care modelul supraponderează ultima propoziție (deoarece răspunsul este adesea aproape de sfârșit) și extrage pur și simplu obiectul direct al celei mai recente acțiuni ("a mâncat ___"), care în acest caz dă "pizza".

Și apoi vine linia de bază și mai dăunătoare: elimină complet pasajul și vezi ce se întâmplă. Dacă un model bazat doar pe întrebare este competitiv, este un semn că setul de date scurge semnal prin repetiție și cunoștințe anterioare, mai degrabă decât să testeze înțelegerea bazată pe pasaj.

Întrebare: "Ce a mâncat John?"

Această linie de bază este practic o verificare a raționalității: poate modelul să obțină în continuare un scor bun bazându-se pe șabloane de răspuns cu frecvență ridicată fără a se baza deloc pe pasaj? În practică, ghicește pur și simplu un token pe care setul de date îl recompensează disproporționat ("pizza", "sandwich"), și dacă asta funcționează mai des decât ar trebui, nu măsori atât de mult înțelegerea, cât măsori cunoștințele anterioare ale setului de date.

Evaluările de utilizare a computerului au produs deja o scurtătură și mai literală: agentul are un browser, criteriul de referință este public, iar evaluarea se transformă într-un examen cu carte deschisă cu un răspuns cheie pe ultima pagină. În lucrarea Holistic Agent Leaderboard (HAL), autorii raportează că au observat agenți care au căutat criteriul de referință pe HuggingFace în loc să rezolve sarcina, un comportament pe care îl prinzi doar dacă inspectezi jurnalele.

\

# Sarcina presupusă: completează un flux de lucru în mediul web Sarcină: "Configurează setarea X în aplicație și verifică dacă este activată." Mod de eșec: 1) Deschide un tab nou 2) Caută: "starea așteptată activată a criteriului de referință X" / "HAL <criteriu de referință> setarea X" 3) Găsește: repo / descriere clasament / card set de date / fir de discuție 4) Reproduce starea finală așteptată (răspuns)

În acel moment, evaluarea măsura dacă poate localiza cheia de răspuns.

Sarcină: "Găsește pagina corectă și extrage Y." Mod de eșec: - Caută: "<numele criteriului de referință> Y" - Copiază dintr-un artefact public (documente, postare pe forum, card set de date) - Lipește valoarea în ieșirea agentului ca și cum ar proveni din interacțiune

Dacă un agent poate extrage valoarea dintr-un card de set de date sau repo și totuși "trece", verificarea succesului evaluează plauzibilitatea, nu corectitudinea interacțiunii. Sarcinile publice plus verificarea superficială transformă căutarea web într-un exploit.

Aceste două exemple sunt semnalul de avertizare: dacă nu ținem criteriile de referință pentru utilizarea computerului la standarde mai înalte de la început, vom repeta era LLM doar cu interfețe mai bune și modalități mai elaborate de a trișa.

Scrii de obicei despre subiecte similare? Dacă nu, despre ce scrii de obicei?

Da! Lucrând la mediile RL și infrastructura RL în jurul utilizării computerului, sunt constant înconjurat de cele mai bune modele de utilizare a computerului și cele mai realiste medii de instruire. Așa că am scris un alt articol, "Ecranul este API-ul", care este argumentul pentru utilizarea computerului și de ce este viitorul modelelor AI.

Acest spațiu este extrem de subraportat din două motive:

  1. Modelele nu sunt la fel de capabile în utilizarea computerului precum sunt în alte sarcini (codare, matematică etc.).
  2. Utilizarea computerului se mișcă rapid și este extrem de nouă.

Vreau să schimb asta.

Excelent! Cum arată rutina ta obișnuită de scris (dacă ai una)

De obicei citesc o mulțime de lucrări de cercetare și vorbesc cu colegii mei din industrie despre gândurile lor pe un subiect. În afară de asta, petrec mult timp citind articole de bloggeri grozavi ca PG. Deci, de obicei, preiau multă inspirație de la alți oameni în scrierile mele.

A fi scriitor în tehnologie poate fi o provocare. Adesea nu este rolul nostru principal, ci o adăugare la un altul. Care este cea mai mare provocare pe care o ai când vine vorba de scris?

Să găsesc timpul să mă așez și să-mi transform experiența trăită în cuvinte.

Care este următorul lucru pe care speri să-l realizezi în cariera ta?

Să abordez probleme mai dificile cu oameni grozavi, să învăț de la acei oameni și să-mi împărtășesc experiențele.

Wow, asta e admirabil. Acum, ceva mai casual: Care este plăcerea ta vinovată preferată?

Vizionarea filmelor! Filmul meu preferat în prezent este Catch Me If You Can (2002).

Ai un hobby care nu are legătură cu tehnologia? Dacă da, care este acesta?

Îmi place bouldering-ul pentru că mă face să mă simt ca un agent uman de utilizare a computerului care interacționează cu peretele de cățărare. Glumesc. Cred că bouldering-ul este foarte distractiv pentru că îmi permite să-mi iau mintea de la muncă și să-mi consolidez gândirea.

Ce poate aștepta comunitatea Hacker Noon să citească de la tine în continuare?

În prezent scriu un alt articol despre infrastructura mediului RL!

Care este opinia ta despre HackerNoon ca platformă pentru scriitori?

Cred că structura de recenzii este grozavă și a fost un loc excelent pentru mine pentru a-mi pune gândurile în fața cititorilor tehnici.

Mulțumim că ți-ai luat timpul pentru a te alătura seriei noastre "Cunoaște scriitorul". A fost o plăcere. Ai cuvinte de încheiere?

Îmi place să scriu. Mulțumesc, HackerNoon!

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează service@support.mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.

Poate îți place și