Qwen 3.5 Omni: Το μοντέλο τεχνητής νοημοσύνης της Alibaba μπορεί πλέον να ακούει, να παρακολουθεί και να κλωνοποιεί τη φωνή σας

Εν συντομία

Το Qwen 3.5 Omni της Alibaba φέρνει πραγματική πολυτροπική τεχνητή νοημοσύνη σε πραγματικό χρόνο στον ανταγωνισμό αιχμής.
Η εγγενής επεξεργασία ήχου-εικόνας ξεπερνά τις συρραμμένες πολυτροπικές διαδικασίες σε ταχύτητα και συνοχή.
Η κλωνοποίηση φωνής, η σημασιολογική διακοπή και η κωδικοποίηση με βάση το ύφος σηματοδοτούν μια στροφή προς πλήρως διαδραστικούς πράκτορες τεχνητής νοημοσύνης.

Η Alibaba μόλις παρουσίασε την πιο φιλόδοξη αναβάθμιση τεχνητής νοημοσύνης μέχρι τώρα.

Η ομάδα Qwen της εταιρείας κυκλοφόρησε το Qwen 3.5 Omni την Κυριακή, μια νέα έκδοση της «πολυτροπικής» τεχνητής νοημοσύνης της που επεξεργάζεται ταυτόχρονα κείμενο, εικόνες, ήχο και βίντεο, και απαντά σε πραγματικό χρόνο σε 36 γλώσσες, τοποθετώντας το μοντέλο της στο ίδιο πεδίο μάχης με τα τελευταία υπερσύγχρονα θεμελιώδη μοντέλα τεχνητής νοημοσύνης που είναι διαθέσιμα σήμερα.

Το «Omni» δεν είναι απλώς μια διαφημιστική λέξη εδώ. Τα περισσότερα μοντέλα τεχνητής νοημοσύνης με τα οποία αλληλεπιδράτε είναι κυρίως συστήματα κειμένου εισόδου-εξόδου. Μερικά χειρίζονται εικόνες, μερικά χειρίζονται φωνή. Το Qwen 3.5 Omni τα χειρίζεται όλα εγγενώς, ταυτόχρονα, χωρίς την ανάγκη μετατροπής όλων σε κείμενο μέσω εργαλείων τρίτων.

Το νέο μοντέλο διατίθεται σε τρία μεγέθη—Plus, Flash και Light—όλα υποστηρίζοντας ένα μικρό (με τα σημερινά δεδομένα) παράθυρο πλαισίου 256.000 tokens. Εκπαιδεύτηκε σε πάνω από 100 εκατομμύρια ώρες οπτικοακουστικών δεδομένων—μια κλίμακα που το τοποθετεί σε διαφορετική κατηγορία βάρους από τους περισσότερους ανταγωνιστές.

Το Qwen 3.5 Omni είναι μια εξέλιξη του Qwen 3 Omni Flash, του προηγούμενου πολυτροπικού μοντέλου της Alibaba που κυκλοφόρησε τον Δεκέμβριο του 2025. Αυτή η έκδοση είχε ήδη εντυπωσιάσει με την ικανότητά της να επεξεργάζεται βίντεο και ήχο ταυτόχρονα—μπορούσε να χειριστεί οδηγίες επεξεργασίας εικόνας συνδυάζοντας πολλαπλές οπτικές εισόδους με τρόπους που οι ανταγωνιστές δεν μπορούσαν—και μετέδιδε φωνητικές απαντήσεις με καθυστέρηση μόλις 234 χιλιοστά του δευτερολέπτου.

Ήταν επίσης το πρώτο μοντέλο που δοκίμασε μια εναλλακτική λύση στο NotebookLM της Google. Πέτυχε κάτι, αλλά η ποιότητα δεν ήταν στο ίδιο επίπεδο με την προσφορά της Google.

Το Qwen 3.5 Omni παίρνει όλα αυτά και προσθέτει ένα μεγαλύτερο παράθυρο πλαισίου, καλύτερη συλλογιστική, μια πολύ ευρύτερη βιβλιοθήκη γλωσσών και ένα σύνολο χαρακτηριστικών διάδρασης σε πραγματικό χρόνο που η προηγούμενη γενιά δεν είχε.

Η κύρια αναβάθμιση είναι αυτό που συμβαίνει όταν πραγματικά μιλάτε σε αυτό. Το Qwen3.5-Omni υποστηρίζει πλέον σημασιολογική διακοπή: Μπορεί να διακρίνει τη διαφορά μεταξύ του να λέτε «α-χα» στη μέση της πρότασης και του να θέλετε πραγματικά να παρέμβετε, οπότε δεν θα σταματά στη μέση της σκέψης κάθε φορά που κάποιος βήχει στο παρασκήνιο, κάνοντας την προφορική αλληλεπίδραση πιο ομαλή.

Μια νέα τεχνική που ονομάζεται ARIA, σύντομο για Adaptive Rate Interleave Alignment, επιλύει επίσης ένα λεπτό αλλά επίμονο ενοχλητικό ζήτημα: συστήματα τεχνητής νοημοσύνης που παραμορφώνουν αριθμούς ή ασυνήθιστες λέξεις όταν διαβάζουν δυνατά. Το ARIA συγχρονίζει δυναμικά το κείμενο και την ομιλία για να διατηρεί την έξοδο φυσική και ακριβή.

Στη συνέχεια υπάρχει η κλωνοποίηση φωνής. Οι χρήστες μπορούν να ανεβάσουν ένα δείγμα φωνής και να αναλάβει το μοντέλο αυτή τη φωνή στις απαντήσεις του, ένα χαρακτηριστικό που θέτει το Qwen σε άμεσο ανταγωνισμό με το ElevenLabs και άλλα ειδικά εργαλεία φωνής. Δεν μπορέσαμε να έχουμε πρόσβαση σε αυτό το χαρακτηριστικό, ωστόσο, επειδή αυτό είναι ένα χαρακτηριστικό που, τουλάχιστον προς το παρόν, είναι διαθέσιμο μόνο μέσω API.

Σε πολυγλωσσικά σημεία αναφοράς σταθερότητας φωνής, το Qwen3.5 Omni-Plus ξεπέρασε τα ElevenLabs, GPT-Audio και Minimax σε 20 γλώσσες. Το μοντέλο υποστηρίζει πλέον επίσης αναζήτηση στον ιστό σε πραγματικό χρόνο, που σημαίνει ότι μπορεί να απαντήσει σε ερωτήσεις σχετικά με έκτακτα νέα ή ζωντανά δεδομένα αγοράς χωρίς να προσποιείται ότι το γνωρίζει ήδη.

Η ομάδα επισημαίνει επίσης αυτό που αποκαλούν «Οπτικοακουστική Κωδικοποίηση Ύφους», το μοντέλο μπορεί να παρακολουθήσει μια εγγραφή οθόνης ή βίντεο μιας εργασίας κωδικοποίησης και να γράψει λειτουργικό κώδικα βασισμένο αποκλειστικά σε αυτό που βλέπει και ακούει, χωρίς να απαιτείται κειμενική εντολή. Είναι μια μικρή προεπισκόπηση του πώς οι βοηθοί τεχνητής νοημοσύνης μπορεί τελικά να λειτουργήσουν μέσα στη ροή εργασιών σας αντί να είναι δίπλα της.

Για να κατανοήσουμε τι σημαίνει πραγματικά «πολυτροπικό» στην πράξη, εκτελέσαμε μια γρήγορη δοκιμή: Τροφοδοτήσαμε τόσο το Qwen3.5-Omni όσο και το ChatGPT 5.4 σε λειτουργία «σκέψης» με το ίδιο YouTube Short—ένα απόσπασμα του Προέδρου του Dastan (το Dastan είναι η μητρική εταιρεία του Decrypt) και του σχολιαστή Farokh που συζητούν έκτακτα νέα. Το Qwen 3.5 Omni επεξεργάστηκε το βίντεο εγγενώς και επέστρεψε μια πλήρη ανάλυση σε περίπου ένα λεπτό: ποιος μιλούσε, τι συζητούσαν και ένα ουσιαστικό σχόλιο για το θέμα με βάση τη δική του γνώση της θεματικής περιοχής.

Το ChatGPT 5.4, που δεν είναι πολυτροπικό, έπρεπε να διαχειριστεί ό,τι πήρε. Εξήγαγε καρέ από το βίντεο, τα πέρασε μέσα από ένα μοντέλο όρασης, χρησιμοποίησε το Whisper για να μεταγράψει τον ήχο και εφάρμοσε ένα εργαλείο OCR για να διαβάσει ενσωματωμένους υπότιτλους—τρεις ξεχωριστές διαδικασίες συρραμμένες μαζί για να προσεγγίσουν αυτό που το Qwen3.5-Omni κάνει σε μία μόνο πάσα. Το αποτέλεσμα πήρε εννέα λεπτά, και αυτό υπό ιδανικές συνθήκες: ένα καλά φωτισμένο βίντεο με καθαρό ήχο και ενσωματωμένους υπότιτλους. Το περιεχόμενο του πραγματικού κόσμου σπάνια προσφέρει και τα τρία.

Στις γρήγορες δοκιμές μας σε πολλαπλές εισόδους, το μοντέλο χειρίστηκε επίσης εντολές στα Ισπανικά, Πορτογαλικά και Αγγλικά χωρίς πρόβλημα—αλλάζοντας γλώσσες στη μέση της συνομιλίας χωρίς να χάνει το πλαίσιο.

Σε τυπικά σημεία αναφοράς, το Qwen 3.5 Omni Plus υπερείχε του Gemini 3.1 Pro στη γενική κατανόηση ήχου, συλλογιστική και εργασίες μετάφρασης, και το εξίσωσε στην οπτικοακουστική κατανόηση. Η αναγνώριση ομιλίας καλύπτει πλέον 113 γλώσσες και διαλέκτους—από 19 στην προηγούμενη γενιά.

Αυτή είναι η δεύτερη μεγάλη κυκλοφορία τεχνητής νοημοσύνης της Alibaba σε έξι εβδομάδες. Τον Φεβρουάριο, λάνσαρε το Qwen 3.5, ένα μοντέλο κειμένου και όρασης που εξίσωσε ή ξεπέρασε τα μοντέλα αιχμής σε σημεία αναφοράς συλλογιστικής και κωδικοποίησης—μέρος μιας σειράς που περιλάμβανε επίσης το Qwen Deep Research και μια σειρά εργαλείων που ανταγωνίζονται το OpenAI και την Google. Το Qwen 3.5 Omni επεκτείνει αυτή τη δυναμική σε πλήρη πολυτροπική επικράτεια, σε μια εποχή που κάθε μεγάλο εργαστήριο τεχνητής νοημοσύνης ανταγωνίζεται να κατασκευάσει συστήματα που χειρίζονται όλο το φάσμα της ανθρώπινης επικοινωνίας—όχι μόνο λέξεις σε μια οθόνη.

Το μοντέλο είναι διαθέσιμο τώρα μέσω του API του Alibaba Cloud και μπορεί να δοκιμαστεί απευθείας στο Qwen Chat ή μέσω της διαδικτυακής επίδειξης του Hugging Face.

Ενημερωτικό Δελτίο Daily Debrief

Ξεκινήστε κάθε μέρα με τις κορυφαίες ειδήσεις αυτή τη στιγμή, συν πρωτότυπα χαρακτηριστικά, ένα podcast, βίντεο και πολλά άλλα.

Πηγή: https://decrypt.co/362742/alibaba-qwen-omni-major-upgrade-review

Qwen 3.5 Omni: Το μοντέλο τεχνητής νοημοσύνης της Alibaba μπορεί πλέον να ακούει, να παρακολουθεί και να κλωνοποιεί τη φωνή σας

Εν συντομία

Ενημερωτικό Δελτίο Daily Debrief

Μπορεί επίσης να σας αρέσει

Η Anthropic AI Αναφέρεται να Ανακαλύπτει Πάνω από 10.000 Κρίσιμες Ευπάθειες Λογισμικού

Το Καλύτερο SMM Panel το 2026 – Γιατί το SMMWIZ Είναι Αξιόπιστο από Μεταπωλητές & Δημιουργούς

Η Μανία των Ethereum ETF Ανεβάζει το ETH Πάνω από τα $2.100 Καθώς τα Ιδρύματα Ξεκινούν Αθόρυβη Στροφή

Νέες τάσεις

Τα StablR USD και Euro Tokens Χάνουν την Αγκύρωσή τους Μετά από Επίθεση Πολλών Εκατομμυρίων Δολαρίων

Έξυπνες Λειτουργίες: Πώς τα Μοντέλα "As-a-Service" Αναδομούν τις Επιχειρηματικές Βάσεις το 2026

Πέρα από το κλίμα: γεφυρώνοντας το χάσμα ανάπτυξης της Αφρικής με ευφυή υποδομή

Η μετοχή της NuScale Power (SMR) εκτοξεύεται μετά τη συνεργασία με την Amazon — Επίκειται σημαντική απόφαση χρηματοδότησης

Η διαφημιστική εκστρατεία για το AI στον αυτοκινητοβιομηχανία ξεπερνά τα κέρδη καθώς τα κόστη υιοθέτησης πλήττουν

Ζωντανά νέα 24/7

Crypto Prices