Postitus „Qwen 3.5 Omni: Alibaba tehisintellekti mudel oskab nüüd kuulata, vaadata ja kloonida sinu häält“ ilmus saidil BitcoinEthereumNews.com. Lühidalt öeldes toob Alibaba Qwen 3.5 OmniPostitus „Qwen 3.5 Omni: Alibaba tehisintellekti mudel oskab nüüd kuulata, vaadata ja kloonida sinu häält“ ilmus saidil BitcoinEthereumNews.com. Lühidalt öeldes toob Alibaba Qwen 3.5 Omni

Qwen 3.5 Omni: Alibaba AI-mudel oskab nüüd kuulata, vaadata ja kloonida sinu häält

2026/03/31 04:07
4 minutiline lugemine
Selle sisu kohta tagasiside või murede korral võtke meiega ühendust aadressil crypto.news@mexc.com

Lühidalt

  • Alibaba Qwen 3.5 Omni toob tõeliselt reaalajas omnimodaalse AI tehnoloogia piirile.
  • Omane heli- ja visuaalne töötlemine ületab kiiruses ja koherentsuses kokkupõimitud multimodaalsed torujuhtmed.
  • Hääle kloonimine, semantiline katkestus ja vibe-koodimine näitavad liikuva suuna poole täielikult interaktiivsete AI-agentide poole.

Alibaba just laskis oma seni kõige ambiitsioonikama AI-uuenduse.

Firma Qwen-tiim avaldas pühapäeval Qwen 3.5 Omni – uue versiooni oma „omnimodaalsest“ AI-st, mis töötleb samaaegselt teksti, pilte, heli ja videot ning vastab reaalajas 36 keeles, seades oma mudeli samasse võistlusklassi praegu saadaval olevate viimase põlvkonna AI alusmudelitega.

„Omni“ ei ole siin lihtsalt turunduslik müra. Enamik AI-mudeleid, millega sa kokku puutud, on peamiselt tekst-sisse/tekst-välja süsteemid. Mõned töötleb pilte, mõned hääli. Qwen 3.5 Omni töötleb neid kõiki omaette, samaaegselt ja ilma vajaduseta kõike kolmandate osapoolte tööriistade kaudu tekstiks teisendada.

Uus mudel on saadaval kolmes suuruses – Plus, Flash ja Light – kõik toetavad väikest (tänapäevaste standardite järgi) 256 000 tokenit mahutavat kontekstiaknaid. Seda on õpetatud üle 100 miljoni tunni heli- ja visuaalset andmestikku – selline skaala seab selle teistest konkurentidest eraldi kaalusklassi.

Qwen 3.5 Omni on areng Qwen 3 Omni Flash’ist, mille Alibaba eelmise omnimodaalse mudeli avaldas detsembris 2025. See versioon juba muljetas oma võimega töödelda videoid ja heli samaaegselt – see suutis käsitleda pildiredigeerimise juhiseid, mis kombinatsioonis mitme visuaalse sisendiga olid konkurentidel võimatuks – ning vooges esile helivastuseid viivitusega vaid 234 millisekundit.

See oli ka esimene mudel, mis proovis alternatiivi Google NotebookLM-ile. Midagi õnnestus, kuid kvaliteet ei olnud Google’i pakkumisega võrreldav.

Qwen 3.5 Omni võtab kõik eelnevad funktsioonid ja lisab pikema kontekstiakna, parema mõtlemisvõime, palju laiemat keelebiblioteki ja reaalajas interaktsioonifunktsioone, mida eelmine põlvkond ei pakkunud.

Peamine uuendus on see, mis juhtub siis, kui sa sellega tegelikult räägid. Qwen3.5-Omni toetab nüüd semantilist katkestust: see suudab eristada, kas sa ütled keskel lauset „uh-huh“ või soovid tegelikult sisse rääkida, seega ei peatu see igal ajal mõtlemisel, kui taustal keegi köhib, muutes suulise interaktsiooni sujuvamaks.

Uus tehnikanimi ARIA (Adaptive Rate Interleave Alignment ehk kohanduvate kiiruste vahepaigutuse joondus) parandab ka subtiilset, kuid püsivat tüütust: AI-süsteemid, mis hägustavad numbreid või haruldasi sõnu helilugemisel. ARIA dünaamiliselt sünkroniseerib teksti ja kõnet, et tagada loomulik ja täpne väljund.

Siis on veel hääle kloonimine. Kasutajad saavad üles laadida häälenäidise ja mudel võtab selle hääle oma vastustes kasutusele – see funktsioon seab Qweni otse konkurentsiasendisse ElevenLabs’i ja muude spetsialiseeritud hääle tööriistadega. Me ei saanud seda funktsiooni aga testida, kuna see on hetkel saadaval ainult API kaudu.

Multilingvaalsete hääle stabiilsuse testides ületas Qwen3.5 Omni-Plus ElevenLabs’i, GPT-Audio ja Minimax’i 20 keeles. Mudel toetab nüüd ka reaalajas veebisotsingut, mis tähendab, et see saab vastata küsimustele täiendavatest uudistest või elus turuandmetest ilma et peaks tegema ettepanekut, et ta neid juba teab.

Tiim rõhutab ka seda, mida nad nimetavad „Audio-Visual Vibe Coding’iks“ – mudel saab vaadata ekraanisalvestust või videot koodimisülesandest ja kirjutada funktsionaalset koodi täpselt selle põhjal, mida ta näeb ja kuuleb, ilma et oleks vaja mingit tekstilist päringut. See on väike eelvaade sellest, kuidas AI-assistentid võivad lõpuks sinu töövoos töötada, mitte lihtsalt selle kõrval.

Selleks, et mõista, mida „omnimodaalne“ praktikas tegelikult tähendab, teeme kiire testi: me andsime nii Qwen3.5-Omni kui ka ChatGPT 5.4-le („mõtlemise“ režiimis) sama YouTube Shorti – Dastan Presidenti (Dastan on Decrypti emafirma) ja komentaaor Farokhi arutelu uute uudiste kohta. Qwen 3.5 Omni töötleb videod omaette ja annab umbes ühe minuti pärast täieliku analüüsi: kes räägib, millest räägitakse ja mõtestatud kommentaari teemast oma teadmiste põhjal.

ChatGPT 5.4, mis ei ole omnimodaalne, pidas endaga hakkama sellest, mida ta sai. See ekstraktis videost kaadreid, läks need läbi nägemismudeliga, kasutas Whisperi heli transkribeerimiseks ja OCR-tööriista sümbolitesse põimitud alatekstide lugemiseks – kolm eraldi protsessi, mida kokku põimiti, et ligikaudu imiteerida seda, mida Qwen3.5-Omni teeb ühes läbimängus. Tulemus võttis üheksa minutit ja see on ideaalsetes tingimustes: hästi valgustatud video, puhas heli ja põimitud alatekstid. Reaalmaailmas pole sisu sageli kõigi kolme omadusega.

Meie kiiretes testides mitmesuguste sisenditega hakkas mudel samuti probleemita toimetama päringutega hispaania, portugali ja inglise keeles – vahetades keeli vestluse keskel ilma konteksti kaotamata.

Standardsete testide põhjal ületas Qwen 3.5 Omni Plus Gemini 3.1 Pro-d üldise heli mõistmisel, mõtlemisel ja tõlgendamisel ning oli sellele võrdväärne heli- ja visuaalsete andmete mõistmisel. Kõne äratundmine hõlmab nüüd 113 keelt ja murdeid – eelmise põlvkonna 19 asemel.

See on Alibaba teine suur AI-väljalaske viieks nädalaks. Veebruaris laskis firma välja Qwen 3.5 – teksti ja piltide mudeli, mis ületas või võrdnes piiritaguste mudelitega mõtlemise ja koodimise testides – see on osa sarjast, mis hõlmab ka Qwen Deep Researchi ja tööriistade komplekti, mis konkurreeerib OpenAI ja Google’iga. Qwen 3.5 Omni laiendab seda momentumit täielikult multimodaalsesse valdkonda, just sel ajal, mil iga suur AI-labor võistleb süsteemide loomisel, mis suudavad käsitleda inimkommunikatsiooni kogu spektrit – mitte ainult sõnu ekraanil.

Mudel on kohe saadaval Alibaba Cloudi API kaudu ning seda saab testida otse Qwen Chat’is või Hugging Face’i veebipõhisel demo-versioonil.

Daily Debrief Newsletter

Alusta iga päeva ülevalt praegustest tähtsaimatest uudistest ning originaalartiklitest, podcast’ist, videote ja muust.

Allikas: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Turuvõimalus
Confidential Layer logo
Confidential Layer hind(CLONE)
$0.004956
$0.004956$0.004956
-0.22%
USD
Confidential Layer (CLONE) reaalajas hinnagraafik
Lahtiütlus: Sellel saidil taasavaldatud artiklid pärinevad avalikelt platvormidelt ja on esitatud ainult informatiivsel eesmärgil. Need ei kajasta tingimata MEXC seisukohti. Kõik õigused jäävad algsetele autoritele. Kui arvate, et sisu rikub kolmandate isikute õigusi, võtke selle eemaldamiseks ühendust aadressil crypto.news@mexc.com. MEXC ei garanteeri sisu täpsust, täielikkust ega ajakohasust ega vastuta esitatud teabe põhjal võetud meetmete eest. Sisu ei ole finants-, õigus- ega muu professionaalne nõuanne ega seda tohiks pidada MEXC soovituseks ega toetuseks.

$30,000 in PRL + 15,000 USDT

$30,000 in PRL + 15,000 USDT$30,000 in PRL + 15,000 USDT

Deposit & trade PRL to boost your rewards!