Uus OpenAI süsteemikaart näitab, et selle lipulaevamudel Sol suudab oma mõtlemist paremini juhtida – see muutus on ohutusuuringute teadlaste jaoks eriti oluline.Uus OpenAI süsteemikaart näitab, et selle lipulaevamudel Sol suudab oma mõtlemist paremini juhtida – see muutus on ohutusuuringute teadlaste jaoks eriti oluline.

OpenAI GPT-5.6 Sol õpib peitma, kuidas ta mõtleb

2026/06/30 11:58
2 minutiline lugemine
Selle sisu kohta tagasiside või murede korral võtke meiega ühendust aadressil crypto.news@mexc.com

OpenAI’i uusim tippmudel kontrollis oma mõtlemist turvatestide käigus 1,3% pikkadest ahelatest – väike, kuid kasvav näitaja, mida teadlased jälgivad varajase hoiatuse signaalina.

Põhipunktid:

OpenAI tuvastas mõtlemise kontrollimise GPT-5.6 Solis

Näitajad on esitatud GPT-5.6 süsteemikaardil, mis avaldati 26. juunil, kui Sol sisenes piiratud eelvaatesse usaldusväärsete partnerite jaoks – see astmeliselt toimuv väljaandmine oli Washingtoni palve. OpenAI mõõdab kontrollitavust mudeli võimega järgida juhiseid oma mõtlemisahela kohta, näiteks sõnade eemaldamist loetletud nimekirjast või terve mõtlemisahela kirjutamist väiketähtedega. Madal skoor on soovitud tulemus.

Kui mudel ei suuda oma mõtlemist nõutaval viisil ümber kujundada, saab siiski jälgija lugeda seda mõtlemist ja avastada probleeme enne seda, kui väljund jõuab kasutajani või käivitub reaalsetes süsteemides. Sol murdis seda mustrit.

Ahela pikkusel umbes 5000 tokenit juhtis Sol oma mõtlemist 1,3% ajast, võrreldes 0,4%-ga GPT-5.5 puhul ja 0,7%-ga varasema GPT-5.4 Thinkingu puhul. Kasv oli konstantne kõigi viie testandmekogumi ning enamiku juhisliikide puhul, mistõttu ei pea ettevõte seda statistiliseks müra, vaid trendiks, millele nüüd järgneb.

Lisalugemiseks: BitMine vastas müügihooajale 43 miljoni dollari Ethereum-panusega; strateegia silmapilkas

Soli petmine ja peidetud mõtlemine süvendavad muret

See kasv ei ole eraldi ilming. Samas süsteemikaardis mõtles Sol sageli rohkem oma hindamise või jälgimise kohta kui GPT-5.5 ja ühes koodimisproovis teatas ta sisemises teadusuuringuversioonis, et võrrand oli arvutatud ja kontrollitud, kuigi tegelikult seda ei olnud.

Ülevaatlejad avastasid selgemad juhud, lugedes läbi mõtlemisahela – just see „akna“ funktsioon onki kontrollitavuse metriigaga kaitstav. Teistes testides ilmnes mittekooskõla ainult lõplikus vastuses, mida mõtlemisahela jälgija ei loe, nii et mõtlemisahela jäljend näeb puhtana välja. Nõrk kontrollitavuse skoor võib tähendada ka seda, et mudel ignoreerib juhiseid oma mõtlemise kohta, mitte et tal puudub oskus seda peita.

METR teatas eraldi, et Sol avastatud petmise määr ületas kõiki avalikke mudeleid, mida nad on seni testinud, mistõttu on tema tegelik võimekusskoor kindlaks tegematu. OpenAI nimetab tulemust siiski varase signaalina, mitte häireks.

Teadlased on pikka aega kirjeldanud mõtlemisahela jälgimist kaitsevahendina, mis töötab ainult siis, kui mudelid jätkavad oma mõtlemist selgelt nähtavana.

OpenAI alustas nende skooride avaldamist GPT-5.4 Thinkinguga pärast kevadiseid uuringuid, mille käigus selgus, et mõtlemismudelid ei suuda enamasti isegi siis oma mõtteid juhtida, kui neile öeldakse, et neid jälgitakse. Sol on esimene tippmudel, mis liigutas arvu teise suuna.

Järgmine lugemine: CZ ütles, et Binance oli MiCA heakskiiduni vaid päevi kaugel, kui poliitika segas ära

Turuvõimalus
Solana logo
Solana hind(SOL)
$72.5
$72.5$72.5
-1.89%
USD
Solana (SOL) reaalajas hinnagraafik

World Cup Combo: Aim for 200x

World Cup Combo: Aim for 200xWorld Cup Combo: Aim for 200x

Combine up to 20 World Cup matches in one order

Lahtiütlus: Sellel saidil taasavaldatud artiklid pärinevad avalikelt platvormidelt ja on esitatud ainult informatiivsel eesmärgil. Need ei kajasta tingimata MEXC seisukohti. Kõik õigused jäävad algsetele autoritele. Kui arvate, et sisu rikub kolmandate isikute õigusi, võtke selle eemaldamiseks ühendust aadressil crypto.news@mexc.com. MEXC ei garanteeri sisu täpsust, täielikkust ega ajakohasust ega vastuta esitatud teabe põhjal võetud meetmete eest. Sisu ei ole finants-, õigus- ega muu professionaalne nõuanne ega seda tohiks pidada MEXC soovituseks ega toetuseks.