Felix Pinkston
29 maja 2026 22:48
Together AI przedstawia swój najszybszy stos ASR, wykorzystując NVIDIA Parakeet v3 i Whisper do transkrypcji w czasie rzeczywistym z niskim opóźnieniem. Szczegóły dotyczące technologii i wpływu na rynek.
Together AI ogłosiło, że posiada najszybszy na świecie stos do zamiany mowy na tekst (ASR), zdolny do transkrypcji 20 godzin mowy w czasie krótszym niż 10 sekund. Przełom ten wykorzystuje NVIDIA Parakeet-TDT 0.6B v3 oraz Whisper Large v3 firmy OpenAI, oba zoptymalizowane pod kątem aplikacji wymagających niskiego opóźnienia i wysokiej przepustowości. Ten rozwój może znacząco przyspieszyć systemy głosowej sztucznej inteligencji działające w czasie rzeczywistym, co jest kluczowym obszarem zainteresowania firmy w miarę skalowania infrastruktury.
Istota osiągnięcia Together AI polega na traktowaniu ASR jako kompleksowego problemu systemowego, a nie skupianiu się wyłącznie na inferencji GPU. To holistyczne podejście eliminuje wąskie gardła w obszarach przetwarzania wstępnego, wykonywania na GPU, zarządzania pamięcią i sieci. Na przykład innowacje takie jak strojenie profili TensorRT, warunkowe grafy CUDA i ścieżki danych zero-copy drastycznie zmniejszyły opóźnienia w całym stosie.
Wyróżniającą się optymalizacją jest pętla dekodera w Parakeet v3. Przenosząc logikę warunkową z CPU na GPU, Together AI wyeliminowało kosztowne opóźnienia synchronizacji, co zaowocowało 2–3-krotnym przyspieszeniem dekodowania. Podobnie, zastosowanie pamięci współdzielonej i wejścia/wyjścia opartego na zdarzeniach do strumieniowej transkrypcji zminimalizowało narzut, zapewniając wysoką przepustowość i niski jitter w aplikacjach czasu rzeczywistego.
Parakeet v3, wielojęzyczny model ASR wytrenowany na 1,7 miliona godzin audio, stanowi ogromny skok w stosunku do swojego poprzednika. Obsługuje teraz 25 języków europejskich, zawiera automatyczne wykrywanie języka i zachowuje wiodącą w branży wydajność dla transkrypcji w języku angielskim. Platforma Together AI integruje również Whisper Large v3 dla obciążeń produkcyjnych, tworząc solidny ekosystem dla deweloperów budujących aplikacje sterowane głosem.
Odpowiedź na potrzeby rynku
To ogłoszenie pozycjonuje Together AI jako poważnego konkurenta na rynku ASR, szczególnie w przypadkach użycia w czasie rzeczywistym i strumieniowania. W przeciwieństwie do tradycyjnych systemów ASR opartych na izolowanych potokach, Together AI oferuje modularny stos, w którym zamiana mowy na tekst (STT), rozumienie języka naturalnego (NLU) i zamiana tekstu na mowę (TTS) mogą działać spójnie na tej samej infrastrukturze. Zmniejsza to opóźnienia i pozwala deweloperom na inspekcję i manipulowanie pośrednimi wynikami, co jest kluczowym wyróżnikiem dla agentów głosowych działających w czasie rzeczywistym.
Niedawne partnerstwa podkreślają strategię firmy polegającą na budowaniu otwartego, komponowalnego ekosystemu. W kwietniu 2026 roku Deepgram zintegrował swoje modele ASR bezpośrednio z platformą Together AI, umożliwiając deweloperom łączenie wyspecjalizowanych modeli mowy z infrastrukturą Together AI. Ta elastyczność jest coraz cenniejsza, gdy obciążenia AI zmierzają ku zunifikowanym architekturom, łączącym możliwości mowy, języka i multimodalne.
Wpływ na branżę i inwestorów
Postępy Together AI zbiegają się z doniesieniami, że firma zamierza pozyskać kapitał przy wycenie 7,5 miliarda dolarów, według raportów z marca 2026 roku. Zainteresowanie inwestorów odzwierciedla rosnące zapotrzebowanie na wysokowydajną infrastrukturę inferencji, szczególnie dla systemów głosowej i multimodalnej sztucznej inteligencji. Mając ponad 450 000 deweloperów i 200 modeli open-source już obsługiwanych na swojej platformie, Together AI jest dobrze przygotowane do wykorzystania tego impetu.
Konkurenci, tacy jak Deepgram i Google, nadal dominują w segmentach rynku ASR, ale skupienie Together AI na hostingu otwartych modeli i wydajności w czasie rzeczywistym może zdobyć znaczący udział w rynku. Integracja technologii ASR NVIDIA jeszcze bardziej umacnia jej wiarygodność techniczną, szczególnie biorąc pod uwagę wiodącą pozycję NVIDIA w optymalizacji sprzętu i oprogramowania AI.
W miarę jak interfejsy głosowe stają się coraz bardziej integralną częścią aplikacji konsumenckich i korporacyjnych, rozwiązania ASR o niskim opóźnieniu i skalowalności, takie jak te oferowane przez Together AI, mogą na nowo zdefiniować oczekiwania użytkowników. Deweloperzy, inwestorzy i przedsiębiorstwa powinni uważnie obserwować, jak firma nadal doskonali swój stos i rozbudowuje swój ekosystem.
Źródło obrazu: Shutterstock
Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3








