Together AI 宣稱以 Parakeet v3 打造最快語音轉文字技術堆疊

Felix Pinkston
2026年5月29日 22:48（UTC +8）

Together AI 發布其最快的 ASR 技術堆疊，結合 NVIDIA Parakeet V3 與 Whisper，實現即時低延遲轉錄。以下為相關技術細節及市場影響。

Together AI 宣布推出其自稱為全球最快的語音轉文字（ASR）技術堆疊，能夠在不到 10 秒內轉錄 20 小時的語音內容。此突破性進展結合了 NVIDIA 的 Parakeet-TDT 0.6B V3 與 OpenAI 的 Whisper Large V3，兩者均針對低延遲與高吞吐量應用進行了優化。隨著公司持續擴展其基礎設施，此項發展有望大幅推進即時語音 AI 系統的發展，這也是該公司重點關注的核心領域。

Together AI 成就的核心在於將 ASR 視為一個全路徑系統問題，而非僅專注於 GPU 推論。這種整體性方法解決了預處理、GPU 執行、記憶體管理及網路通訊等各環節的瓶頸。例如，TensorRT 設定檔調整、條件式 CUDA 圖形以及零複製資料路徑等創新技術，大幅降低了整個技術堆疊的延遲。

Parakeet V3 中的解碼器迴圈是一項突出的優化。Through 將條件邏輯從 CPU 移至 GPU，Together AI 消除了高成本的同步延遲，使解碼速度提升了 2 至 3 倍。同樣地，在串流轉錄中使用共享記憶體與事件式 I/O，將額外負擔降至最低，確保即時應用同時擁有高吞吐量與低抖動。

Parakeet V3 是一個以 170 萬小時音訊訓練的多語言 ASR 模型，相較前代版本實現了重大飛躍。它現已支援 25 種歐洲語言，具備自動語言偵測功能，並保留了其在英語轉錄方面業界領先的表現。Together AI 的平台亦整合了 Whisper Large V3，以應對生產規模的工作負載，為開發語音驅動應用的開發者打造了一個穩健的生態系統。

回應市場需求

此次公告將 Together AI 定位為 ASR 市場中的有力競爭者，尤其在即時與串流使用情境方面。不同於依賴孤立管線的傳統 ASR 系統，Together AI 提供一個模組化技術堆疊，讓語音轉文字（STT）、自然語言理解（NLU）與文字轉語音（TTS）能夠在同一基礎設施上協同運作。這降低了延遲，並允許開發者檢視和操控中間輸出結果，是即時語音代理的關鍵差異化優勢。

近期的合作夥伴關係凸顯了該公司建立開放、可組合生態系統的策略。2026 年 4 月，Deepgram 將其 ASR 模型直接整合至 Together AI 的平台，使開發者能夠將專業語音模型與 Together AI 的基礎設施靈活搭配組合。隨著 AI 工作負載朝向整合語音、語言及多模態能力的統一架構發展，這種靈活性的價值日益提升。

產業與投資者影響

根據 2026 年 3 月的報導，Together AI 正尋求以 75 億美元的估值募集資金，而其技術進展正是在此背景下取得的。投資者的興趣反映出市場對高效能推論基礎設施日益增長的需求，尤其是語音與多模態 AI 系統方面。Together AI 的平台已支援超過 45 萬名開發者及 200 個開源模型，具備充分條件把握此發展動能。

Deepgram 和 Google 等競爭對手仍主導著 ASR 市場的部分細分領域，但 Together AI 對開放模型託管與即時效能的專注，有望開拓出可觀的市場份額。整合 NVIDIA 的 ASR 技術進一步鞏固了其技術公信力，尤其考量到 NVIDIA 在 AI 硬體與軟體優化領域的領導地位。

隨著語音介面在消費者與企業應用中扮演日益重要的角色，像 Together AI 這樣低延遲且可擴展的 ASR 解決方案，有望重新定義用戶期望。開發者、投資者與企業均應密切關注，持續追蹤該公司優化其技術堆疊並擴展生態系統的進展。

圖片來源：Shutterstock

Source: https://blockchain.news/news/together-ai-fastest-speech-to-text-parakeet-v3