Felix Pinkston
2026年5月29日 22:48(UTC +8)
Together AI 發布其最快的 ASR 技術堆疊,結合 NVIDIA Parakeet V3 與 Whisper,實現即時低延遲轉錄。以下為相關技術細節及市場影響。
Together AI 宣布推出其自稱為全球最快的語音轉文字(ASR)技術堆疊,能夠在不到 10 秒內轉錄 20 小時的語音內容。此突破性進展結合了 NVIDIA 的 Parakeet-TDT 0.6B V3 與 OpenAI 的 Whisper Large V3,兩者均針對低延遲與高吞吐量應用進行了優化。隨著公司持續擴展其基礎設施,此項發展有望大幅推進即時語音 AI 系統的發展,這也是該公司重點關注的核心領域。
Together AI 成就的核心在於將 ASR 視為一個全路徑系統問題,而非僅專注於 GPU 推論。這種整體性方法解決了預處理、GPU 執行、記憶體管理及網路通訊等各環節的瓶頸。例如,TensorRT 設定檔調整、條件式 CUDA 圖形以及零複製資料路徑等創新技術,大幅降低了整個技術堆疊的延遲。
Parakeet V3 中的解碼器迴圈是一項突出的優化。Through 將條件邏輯從 CPU 移至 GPU,Together AI 消除了高成本的同步延遲,使解碼速度提升了 2 至 3 倍。同樣地,在串流轉錄中使用共享記憶體與事件式 I/O,將額外負擔降至最低,確保即時應用同時擁有高吞吐量與低抖動。
Parakeet V3 是一個以 170 萬小時音訊訓練的多語言 ASR 模型,相較前代版本實現了重大飛躍。它現已支援 25 種歐洲語言,具備自動語言偵測功能,並保留了其在英語轉錄方面業界領先的表現。Together AI 的平台亦整合了 Whisper Large V3,以應對生產規模的工作負載,為開發語音驅動應用的開發者打造了一個穩健的生態系統。
回應市場需求
此次公告將 Together AI 定位為 ASR 市場中的有力競爭者,尤其在即時與串流使用情境方面。不同於依賴孤立管線的傳統 ASR 系統,Together AI 提供一個模組化技術堆疊,讓語音轉文字(STT)、自然語言理解(NLU)與文字轉語音(TTS)能夠在同一基礎設施上協同運作。這降低了延遲,並允許開發者檢視和操控中間輸出結果,是即時語音代理的關鍵差異化優勢。
近期的合作夥伴關係凸顯了該公司建立開放、可組合生態系統的策略。2026 年 4 月,Deepgram 將其 ASR 模型直接整合至 Together AI 的平台,使開發者能夠將專業語音模型與 Together AI 的基礎設施靈活搭配組合。隨著 AI 工作負載朝向整合語音、語言及多模態能力的統一架構發展,這種靈活性的價值日益提升。
產業與投資者影響
根據 2026 年 3 月的報導,Together AI 正尋求以 75 億美元的估值募集資金,而其技術進展正是在此背景下取得的。投資者的興趣反映出市場對高效能推論基礎設施日益增長的需求,尤其是語音與多模態 AI 系統方面。Together AI 的平台已支援超過 45 萬名開發者及 200 個開源模型,具備充分條件把握此發展動能。
Deepgram 和 Google 等競爭對手仍主導著 ASR 市場的部分細分領域,但 Together AI 對開放模型託管與即時效能的專注,有望開拓出可觀的市場份額。整合 NVIDIA 的 ASR 技術進一步鞏固了其技術公信力,尤其考量到 NVIDIA 在 AI 硬體與軟體優化領域的領導地位。
隨著語音介面在消費者與企業應用中扮演日益重要的角色,像 Together AI 這樣低延遲且可擴展的 ASR 解決方案,有望重新定義用戶期望。開發者、投資者與企業均應密切關注,持續追蹤該公司優化其技術堆疊並擴展生態系統的進展。
圖片來源:Shutterstock
Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3








