In diesem Interview sprechen wir mit Ashton, einem Gründungsingenieur bei Theta, über die neuesten Entwicklungen in der Reinforcement-Learning-Infrastruktur. Er erklärtIn diesem Interview sprechen wir mit Ashton, einem Gründungsingenieur bei Theta, über die neuesten Entwicklungen in der Reinforcement-Learning-Infrastruktur. Er erklärt

Lernen Sie den Autor kennen: Ashton Chew, Gründungsingenieur bei Theta



Fangen wir an! Erzählen Sie uns ein wenig über sich selbst. Zum Beispiel Name, Beruf und persönliche Interessen.

Hey! Mein Name ist Ashton, und ich bin ein Gründungsingenieur bei Theta, wo ich an RL-Infrastruktur, RL und verteilte Ledger-Technologien arbeite. Ich konzentriere mich speziell auf Computer-Nutzung und Tool-Nutzung. In meiner Vergangenheit habe ich bei Amazon AGI gearbeitet und mich mit Inferenz- und Tool-Nutzungs-Infrastruktur beschäftigt. In meiner Freizeit liebe ich Grafikdesign, Nebenprojekte und Bouldern.

Interessant! Worum ging es in Ihrer neuesten Hackernoon Top Story?

Meine neueste Geschichte, "Kann Ihre KI tatsächlich einen Computer benutzen? Eine Karte der Computer-Nutzungs-Benchmarks für 2025", befasste sich mit einem der heißesten Bereiche im VC-Bereich: RL-Umgebungen und Evaluierungen. Ich gab einen umfassenden Überblick über die am häufigsten verwendeten Computer-Nutzungs-Benchmarks sowie praktische Ratschläge zur Auswahl von Benchmarks für das Training und Testen von Computer-Nutzungs-Agenten.

Ich stieß immer wieder auf dieselbe Lücke: Es gibt nicht viele Artikel, die die Benchmarks selbst überprüfen. Und während dieses Feld wächst, ist es entscheidend, dass wir tatsächlich die Qualität bewerten, anstatt alles zu belohnen, was zufällig die Metrik manipuliert. Wir waren schon einmal hier. In den frühen Tagen der LLMs waren Benchmarks zufällig und unterschiedlich genug, dass sie den tatsächlichen Gewinner nur schwach widerspiegelten.

Benchmarks wurden zur De-facto-Anzeigetafel für das "beste Modell", und dann erkannten die Leute, dass viele von ihnen nicht das maßen, was sie behaupteten.

Eines der aufschlussreichsten Versagen der frühen Ära war, als "Leseverständnis" leise zu "Mustererkennung auf Datensatzstruktur" wurde. Forscher führten absichtlich provokative Baselines durch (nur Frage, nur letzter Satz), und die Ergebnisse waren hoch genug, um eine unbequeme Möglichkeit aufzuwerfen: Der Benchmark zwang die Modelle nicht konsequent dazu, den gesamten Abschnitt zu verwenden. In einer Kritik von 2018 ging es nicht darum, dass Lesen nie wichtig ist, sondern dass einige Datensätze es versehentlich optional machten, indem sie Abkürzungen wie Aktualität und stereotypisierte Antwortvorannahmen überbelohnten.

\

# Angenommene Aufgabe: Beantworte die Frage anhand des Abschnitts und der Frage Abschnitt (Zusammenfassung): - Sätze 1-8: Johns Tag in der Schule (meist irrelevante Details) - Satz 9: "Nach der Schule ging John in die Küche." - Satz 10: "Er aß ein Stück Pizza, bevor er mit seinen Hausaufgaben begann." Frage: "Was hat John gegessen?" Antwort: "Pizza"

Der Benchmark belohnt versehentlich eine Abkürzung, bei der das Modell den letzten Satz übergewichtet (weil die Antwort oft am Ende steht) und einfach das direkte Objekt der letzten Aktion extrahiert ("aß ___"), was in diesem Fall "Pizza" ergibt.

Und dann kommt die noch schädlichere Baseline: Entferne den Abschnitt vollständig und sieh, was passiert. Wenn ein Modell, das nur die Frage erhält, wettbewerbsfähig ist, ist das ein Zeichen dafür, dass der Datensatz durch Wiederholung und Vorannahmen Signal durchsickern lässt, anstatt das auf dem Abschnitt basierende Verständnis zu testen.

Frage: "Was hat John gegessen?"

Diese Baseline ist im Grunde ein Realitätscheck: Kann das Modell immer noch gut abschneiden, indem es sich auf hochfrequente Antwortvorlagen stützt, ohne sich überhaupt auf den Abschnitt zu beziehen? In der Praxis rät es einfach ein Token, das der Datensatz unverhältnismäßig belohnt ("Pizza", "Sandwich"), und wenn das öfter funktioniert als es sollte, misst man nicht so sehr das Verständnis, sondern die Vorannahmen des Datensatzes.

Computer-Nutzungs-Evaluierungen haben bereits eine noch wörtlichere Abkürzung hervorgebracht: Der Agent hat einen Browser, der Benchmark ist öffentlich, und die Bewertung wird zu einer Open-Book-Prüfung mit einem Lösungsschlüssel auf der letzten Seite. Im Holistic Agent Leaderboard (HAL)-Paper berichten die Autoren, dass sie Agenten beobachtet haben, die nach dem Benchmark auf HuggingFace suchten, anstatt die Aufgabe zu lösen, ein Verhalten, das man nur erkennt, wenn man die Logs überprüft.

\

# Angenommene Aufgabe: Einen Workflow in der Webumgebung abschließen Aufgabe: "Konfiguriere Einstellung X in der App und überprüfe, ob sie aktiviert ist." Fehlermodus: 1) Öffne einen neuen Tab 2) Suche nach: "Benchmark X erwarteter aktivierter Zustand" / "HAL <Benchmark> Einstellung X" 3) Finde: Repo / Leaderboard-Beschreibung / Datensatzkarte / Issue-Thread 4) Reproduziere den erwarteten Endzustand (Antwort)

An diesem Punkt maß die Bewertung, ob der Lösungsschlüssel gefunden werden kann.

Aufgabe: "Finde die richtige Seite und extrahiere Y." Fehlermodus: - Suche: "<Benchmark-Name> Y" - Kopiere aus einem öffentlichen Artefakt (Dokumente, Forumsbeitrag, Datensatzkarte) - Füge den Wert in die Agentenausgabe ein, als ob er aus der Interaktion stammen würde

Wenn ein Agent den Wert aus einer Datensatzkarte oder einem Repo ziehen und trotzdem "bestehen" kann, bewertet die Erfolgsprüfung die Plausibilität, nicht die Interaktionskorrektheit. Öffentliche Aufgaben plus oberflächliche Überprüfung machen die Websuche zu einem Exploit.

Diese beiden Beispiele sind der Warnschuss: Wenn wir Computer-Nutzungs-Benchmarks nicht frühzeitig höheren Standards unterwerfen, werden wir die LLM-Ära wiederholen, nur mit besseren Benutzeroberflächen und ausgefeilteren Möglichkeiten zu betrügen.

Schreiben Sie normalerweise über ähnliche Themen? Wenn nicht, worüber schreiben Sie normalerweise?

Ja! Da ich an den RL-Umgebungen und der RL-Infrastruktur rund um die Computer-Nutzung arbeite, bin ich ständig von den besten Computer-Nutzungsmodellen und den realistischsten Trainingsumgebungen umgeben. Also habe ich einen weiteren Artikel geschrieben, "Der Bildschirm ist die API", der für die Computer-Nutzung plädiert und erklärt, warum sie die Zukunft der KI-Modelle ist.

Dieser Bereich wird aus zwei Gründen extrem wenig berichtet:

  1. Modelle sind in der Computer-Nutzung nicht so leistungsfähig wie bei anderen Aufgaben (Programmieren, Mathematik usw.).
  2. Computer-Nutzung entwickelt sich schnell und ist extrem neu.

Ich möchte das ändern.

Großartig! Wie sieht Ihre übliche Schreibroutine aus (falls Sie eine haben)

Ich lese normalerweise eine Menge Forschungspapiere und spreche mit meinen Kollegen in der Branche über ihre Gedanken zu einem Thema. Ansonsten verbringe ich viel Zeit damit, Artikel von großartigen Bloggern wie PG zu lesen. Also lasse ich mich in meinem Schreiben normalerweise von vielen anderen Menschen inspirieren.

Als Autor im Technologiebereich zu arbeiten, kann eine Herausforderung sein. Es ist oft nicht unsere Hauptrolle, sondern eine Ergänzung zu einer anderen. Was ist Ihre größte Herausforderung beim Schreiben?

Die Zeit zu finden, mich hinzusetzen und meine gelebte Erfahrung in Worte zu fassen.

Was ist das Nächste, was Sie in Ihrer Karriere erreichen möchten?

Schwierigere Probleme mit großartigen Menschen anzugehen, von diesen Menschen zu lernen und meine Erfahrungen zu teilen.

Wow, das ist bewundernswert. Nun etwas Ungezwungeneres: Was ist Ihr Guilty Pleasure?

Filme schauen! Mein Lieblingsfilm ist derzeit Catch Me If You Can (2002).

Haben Sie ein nicht-technikbezogenes Hobby? Wenn ja, welches?

Ich liebe Bouldern, weil es mich fühlen lässt, als wäre ich ein menschlicher Computer-Nutzungs-Agent, der mit der Kletterwand interagiert. Ich scherze. Ich finde Bouldern macht viel Spaß, weil es mir erlaubt, meinen Kopf von der Arbeit freizubekommen und mein Denken zu konsolidieren.

Was kann die Hacker Noon-Community als Nächstes von Ihnen lesen?

Ich schreibe gerade einen weiteren Artikel über RL-Umgebungsinfrastruktur!

Was ist Ihre Meinung zu HackerNoon als Plattform für Autoren?

Ich finde die Überprüfungsstruktur großartig, und es war ein toller Ort, um meine Gedanken vor technischen Lesern zu präsentieren.

Vielen Dank, dass Sie sich die Zeit genommen haben, an unserer "Meet the writer"-Serie teilzunehmen. Es war ein Vergnügen. Haben Sie noch abschließende Worte?

Ich liebe das Schreiben. Danke, HackerNoon!

Marktchance
CATCH Logo
CATCH Kurs(CATCH)
$0.001429
$0.001429$0.001429
+7.68%
USD
CATCH (CATCH) Echtzeit-Preis-Diagramm
Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an service@support.mexc.com um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.

Das könnte Ihnen auch gefallen

Präsident hofft auf Neuanfang : USA heben strenge Syrien-Sanktionen komplett auf

Präsident hofft auf Neuanfang : USA heben strenge Syrien-Sanktionen komplett auf

Unter der Schreckensherrschaft der Assad-Regierung verhängen viele Länder harte Sanktionen gegen Syrien. Seit dem Sturz bemüht sich Übergangspräsident al-Schara
Teilen
N-tv2025/12/20 18:25
Analyst sagt 'Uptober'-Rallye für BTC voraus, unabhängig von der FOMC-Entscheidung

Analyst sagt 'Uptober'-Rallye für BTC voraus, unabhängig von der FOMC-Entscheidung

Der Beitrag "Analyst sagt 'Uptober'-Rally für BTC voraus, unabhängig von der FOMC-Entscheidung" erschien auf BitcoinEthereumNews.com. Bitcoin wurde am 17. September um 14:04 UTC bei 116.236 $ gehandelt, etwa 1% höher als in den letzten 24 Stunden, und hielt sich über einem wichtigen Niveau, während die Märkte auf die Bekanntgabe der Federal Reserve-Politik warten. Kommentare der Analysten Dean Crypto Trades bemerkte auf X, dass Bitcoin nur etwa 7% über seinem lokalen Höchststand nach der Wahl liegt, während der S&P 500 im gleichen Zeitraum um 9% gestiegen ist und Gold um 36% in die Höhe geschnellt ist. Er sagte, Bitcoin sei stärker komprimiert als diese Vermögenswerte, was es wahrscheinlich macht, dass es die nächste größere Bewegung anführen wird, obwohl es vor einer weiteren Ausdehnung ein "niedrigeres Hoch" bilden könnte. Er fügte hinzu, dass Ether einsteigen könnte, sobald es die 5.000 $-Marke durchbricht und in die Preisfindung eintritt. Lark Davis verwies auf Bitcoins Geschichte rund um die September-FOMC-Sitzungen und sagte, dass jede September-Entscheidung seit 2020 – außer während des Bärenmarktes 2022 – einer starken Rally vorausgegangen sei. Er betonte, dass das Muster weniger mit der Zinsentscheidung der Fed selbst zu tun hat, sondern mehr mit saisonalen Dynamiken, und argumentierte, dass Bitcoin in dieser Zeit, die in den "Uptober" führt, zu gedeihen pflegt. CoinDesk Research's technische Analyse Laut dem technischen Analysemodell von CoinDesk Research stieg Bitcoin während des Analysezeitraums vom 16.-17. September um etwa 0,9%, von 115.461 $ auf 116.520 $. BTC erreichte am 17. September um 07:00 UTC ein Sitzungshoch von 117.317 $, bevor es konsolidierte. Nach diesem Höchststand testete Bitcoin mehrmals den Bereich von 116.400 $-116.600 $ und bestätigte ihn als kurzfristige Unterstützungszone. In der letzten Stunde der Sitzung, zwischen 11:39 und 12:38 UTC, versuchte BTC einen Ausbruch: Die Preise bewegten sich eng zwischen 116.351 $ und 116.376 $, bevor sie um 12:34 bei höherem Volumen auf 116.551 $ stiegen. Dies bestätigte ein Konsolidierungs-Ausbruchsmuster, obwohl die Gewinne bescheiden waren. Insgesamt bleibt Bitcoin fest über 116.000 $, mit Unterstützung um 116.400 $ und Widerstand nahe 117.300 $. Neueste 24-Stunden- und Ein-Monats-Diagrammanalyse Das neueste 24-Stunden-CoinDesk-Datendiagramm, das um 14:04 UTC am...
Teilen
BitcoinEthereumNews2025/09/18 12:42
So wählen Sie 2026 eine lizenzierte Krypto-Wettseite aus

So wählen Sie 2026 eine lizenzierte Krypto-Wettseite aus

Erfahren Sie, wie Sie 2026 eine lizenzierte Krypto-Wettseite auswählen. Zu den wichtigsten Faktoren gehören Regulierung, Sicherheit, Auszahlungen, Transparenz und zuverlässige Krypto-Sportwetten.
Teilen
Cryptodaily2025/12/20 17:57