Together AI twierdzi, że ma najszybszy stos mowy na tekst dzięki Parakeet v3

Felix Pinkston
29 maja 2026 22:48

Together AI przedstawia swój najszybszy stos ASR, wykorzystując NVIDIA Parakeet v3 i Whisper do transkrypcji w czasie rzeczywistym z niskim opóźnieniem. Szczegóły dotyczące technologii i wpływu na rynek.

Together AI ogłosiło, że posiada najszybszy na świecie stos do zamiany mowy na tekst (ASR), zdolny do transkrypcji 20 godzin mowy w czasie krótszym niż 10 sekund. Przełom ten wykorzystuje NVIDIA Parakeet-TDT 0.6B v3 oraz Whisper Large v3 firmy OpenAI, oba zoptymalizowane pod kątem aplikacji wymagających niskiego opóźnienia i wysokiej przepustowości. Ten rozwój może znacząco przyspieszyć systemy głosowej sztucznej inteligencji działające w czasie rzeczywistym, co jest kluczowym obszarem zainteresowania firmy w miarę skalowania infrastruktury.

Istota osiągnięcia Together AI polega na traktowaniu ASR jako kompleksowego problemu systemowego, a nie skupianiu się wyłącznie na inferencji GPU. To holistyczne podejście eliminuje wąskie gardła w obszarach przetwarzania wstępnego, wykonywania na GPU, zarządzania pamięcią i sieci. Na przykład innowacje takie jak strojenie profili TensorRT, warunkowe grafy CUDA i ścieżki danych zero-copy drastycznie zmniejszyły opóźnienia w całym stosie.

Wyróżniającą się optymalizacją jest pętla dekodera w Parakeet v3. Przenosząc logikę warunkową z CPU na GPU, Together AI wyeliminowało kosztowne opóźnienia synchronizacji, co zaowocowało 2–3-krotnym przyspieszeniem dekodowania. Podobnie, zastosowanie pamięci współdzielonej i wejścia/wyjścia opartego na zdarzeniach do strumieniowej transkrypcji zminimalizowało narzut, zapewniając wysoką przepustowość i niski jitter w aplikacjach czasu rzeczywistego.

Parakeet v3, wielojęzyczny model ASR wytrenowany na 1,7 miliona godzin audio, stanowi ogromny skok w stosunku do swojego poprzednika. Obsługuje teraz 25 języków europejskich, zawiera automatyczne wykrywanie języka i zachowuje wiodącą w branży wydajność dla transkrypcji w języku angielskim. Platforma Together AI integruje również Whisper Large v3 dla obciążeń produkcyjnych, tworząc solidny ekosystem dla deweloperów budujących aplikacje sterowane głosem.

Odpowiedź na potrzeby rynku

To ogłoszenie pozycjonuje Together AI jako poważnego konkurenta na rynku ASR, szczególnie w przypadkach użycia w czasie rzeczywistym i strumieniowania. W przeciwieństwie do tradycyjnych systemów ASR opartych na izolowanych potokach, Together AI oferuje modularny stos, w którym zamiana mowy na tekst (STT), rozumienie języka naturalnego (NLU) i zamiana tekstu na mowę (TTS) mogą działać spójnie na tej samej infrastrukturze. Zmniejsza to opóźnienia i pozwala deweloperom na inspekcję i manipulowanie pośrednimi wynikami, co jest kluczowym wyróżnikiem dla agentów głosowych działających w czasie rzeczywistym.

Niedawne partnerstwa podkreślają strategię firmy polegającą na budowaniu otwartego, komponowalnego ekosystemu. W kwietniu 2026 roku Deepgram zintegrował swoje modele ASR bezpośrednio z platformą Together AI, umożliwiając deweloperom łączenie wyspecjalizowanych modeli mowy z infrastrukturą Together AI. Ta elastyczność jest coraz cenniejsza, gdy obciążenia AI zmierzają ku zunifikowanym architekturom, łączącym możliwości mowy, języka i multimodalne.

Wpływ na branżę i inwestorów

Postępy Together AI zbiegają się z doniesieniami, że firma zamierza pozyskać kapitał przy wycenie 7,5 miliarda dolarów, według raportów z marca 2026 roku. Zainteresowanie inwestorów odzwierciedla rosnące zapotrzebowanie na wysokowydajną infrastrukturę inferencji, szczególnie dla systemów głosowej i multimodalnej sztucznej inteligencji. Mając ponad 450 000 deweloperów i 200 modeli open-source już obsługiwanych na swojej platformie, Together AI jest dobrze przygotowane do wykorzystania tego impetu.

Konkurenci, tacy jak Deepgram i Google, nadal dominują w segmentach rynku ASR, ale skupienie Together AI na hostingu otwartych modeli i wydajności w czasie rzeczywistym może zdobyć znaczący udział w rynku. Integracja technologii ASR NVIDIA jeszcze bardziej umacnia jej wiarygodność techniczną, szczególnie biorąc pod uwagę wiodącą pozycję NVIDIA w optymalizacji sprzętu i oprogramowania AI.

W miarę jak interfejsy głosowe stają się coraz bardziej integralną częścią aplikacji konsumenckich i korporacyjnych, rozwiązania ASR o niskim opóźnieniu i skalowalności, takie jak te oferowane przez Together AI, mogą na nowo zdefiniować oczekiwania użytkowników. Deweloperzy, inwestorzy i przedsiębiorstwa powinni uważnie obserwować, jak firma nadal doskonali swój stos i rozbudowuje swój ekosystem.

Źródło obrazu: Shutterstock

Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3

Together AI twierdzi, że ma najszybszy stos mowy na tekst dzięki Parakeet v3

Odpowiedź na potrzeby rynku

Wpływ na branżę i inwestorów

Możesz także polubić

Dlaczego aplikacje kryptowalutowe zaczynają wyglądać jak produkty fintech

Konferencja biznesowa Kanada–Afryka: Lagos 2026

WTI spada poniżej 93,00 USD, ponieważ porozumienie o zawieszeniu broni między Izraelem a Libanem łagodzi obawy o podaż

Popularne wiadomości

BitMine testuje strategię kapitałową Saylora, mając stratę 8 mld USD na Ethereum

Spadek Broadcom (AVGO) po wynikach pokazuje, że oczekiwania dotyczące infrastruktury AI są trudniejsze do pobicia

CFTC Porzuca 27-Letnią Politykę „Bez Zaprzeczenia", Przyznając Pozwanym Prawo do Kwestionowania Zarzutów w Ugodach

Rappler Talk: Co oznaczają bliskie stosunki Filipin i Wietnamu dla regionu Azji i Pacyfiku?

Dolar kanadyjski spada do najniższego poziomu od dwóch miesięcy, gdy różnica w polityce Fed i BoC pogłębia się, przeważając nad wsparciem ze strony ropy naftowej

Wiadomości na żywo 24/7

Ceny kryptowalut