BitcoinWorld
Brudna robota trenowania robotów: XDOF pozyskuje 70 mln USD na budowę potoków danych, których laboratoria AI desperacko potrzebują
Dwa tygodnie temu OpenAI ogłosiło wznowienie swojego programu robotyki, zamkniętego w 2021 roku — to najnowszy sygnał, że największe laboratoria AI ścigają się, by nauczyć maszyny działania w świecie fizycznym. Jednak budowanie zdolnych robotów wymaga czegoś, czego branża AI nie posiada jeszcze na wystarczającą skalę: danych treningowych odpowiadających tym, które zasilają modele językowe. Ta luka tworzy nowy rodzaj biznesu infrastrukturalnego.
W przeciwieństwie do dużych modeli językowych trenowanych na ogromnym zasobie publicznie dostępnych tekstów, roboty potrzebują danych rejestrujących fizyczne interakcje — a takich danych prawie nie ma. Filmy z YouTube i nagrania wykonywane przez pracowników gig economy mają niską jakość i trudno je powiązać ze światem fizycznym. Oto XDOF (wymawiane „ecks-doff"), startup wychodzący dziś z utajnienia, który stawia na to, że kolejnym wielkim wąskim gardłem w AI nie będą modele ani układy scalone, lecz pętla zwrotna danych niezbędna do nauczenia robotów interakcji ze światem fizycznym.
XDOF stawia sobie za cel budowę potoków danych, narzędzi do ich zbierania i systemów adnotacji, których laboratoria czołówki i firmy robotyczne nie mogą łatwo zbudować samodzielnie. Firma pozyskała 70 mln USD od Thrive Capital, Spark Capital, a16z, Lux i WndrCo. Współzałożyciel i dyrektor generalny Philippe Wu mówi, że XDOF, zatrudniające około 60 pracowników, współpracuje już z 20 klientami, w tym z kilkoma czołowymi laboratoriami AI, choć nie może ich wymienić z nazwy.
„Wszystkie czołowe laboratoria próbują rozwijać robotykę" — powiedział Wu w wywiadzie. „Widzieliśmy już, do czego prowadzi nieco spóźnione wejście w wyścig modeli językowych… nie chcesz znaleźć się w sytuacji, gdy zaczynasz zajmować się tą technologią zbyt późno, a wszyscy są w tej samej łodzi — fizyczna AI to kolejna granica."
Wu sam natknął się na ten problem jako doktorant na UC Berkeley, gdzie koncentrował się na umożliwieniu robotom uczenia się umiejętności z dużych zbiorów danych. Był jednak jeden problem. „Nie mieliśmy dużych zbiorów danych, z którymi moglibyśmy pracować" — powiedział. „Był to klasyczny problem jajka i kury — najpierw musieliśmy zebrać dane, zanim w ogóle mogliśmy zapytać, jak wytrenować model fundamentowy dla robotyki."
Wu i jego przyszły współzałożyciel XDOF i dyrektor techniczny Fred Shentu pracowali nad projektem o nazwie GELLO — niskokosztowym systemem teleoperacji, który pozwala ludzkiemu operatorowi sterować ramieniem robota w celu generowania danych treningowych. „Okazało się to bardzo wpływową pracą w dziedzinie robotyki, ponieważ wiele osób miało podobne potrzeby i wąskie gardła, i wiele zaczęło wykorzystywać ten typ urządzenia do zbierania danych" — powiedział Wu.
Dostrzegając tę szansę, Wu, Shentu i trzeci współzałożyciel oraz dyrektor operacyjny Nemo Jin uruchomili XDOF w październiku 2024 roku, by dostarczać ekosystem danych firmom rozwijającym modele robotyki. Mając świadomość, że samo dostarczanie danych może być ślepą uliczką biznesową, firma koncentruje się również na czyszczeniu danych, narzędziach i adnotacjach — tworząc samonapędzającą się pętlę zwrotną dla trenerów robotów.
Jako punkt wyjścia firma nawiązuje współpracę z laboratorium badań AI UC Berkeley, by udostępnić to, co uważa za największy kiedykolwiek zebrany zbiór wysokiej jakości danych treningowych dla robotów, nazwany ABC. Zawiera on 130 000 trajektorii danych manipulacji robotycznej, 300 godzin symulacji i 100 godzin ewaluacji. Tego rodzaju dane do wstępnego trenowania na dużą skalę nigdy wcześniej nie były dostępne dla środowiska akademickiego.
„W obszarze języka, generowania obrazów i innych dziedzin widzieliśmy, że gdy modele i dane są udostępniane, społeczność osiąga rzeczy, których niekoniecznie byś się spodziewał" — powiedział Bitcoin World David McAllister, doktorant Berkeley, który pomagał zorganizować udostępnienie. Zespół już wykorzystał dane do trenowania robotów w zadaniach benchmarkowych, takich jak składanie koszulek, spłaszczanie kartonów i wkładanie AirPodów do etui.
Firma planuje działać na trzech poziomach piramidy danych. Najbardziej wartościowy poziom to dane teleoperacji zebrane na rzeczywistym robocie wdrożonym w terenie; następny to zdalnie sterowane roboty zbierające bardziej ogólne dane, jak w przypadku GELLO; i wreszcie dane „egocentryczne" zbierane przez ludzi wykonujących codzienne czynności, do czego XDOF planuje zbudować własne czujniki noszone na ciele.
„Wybór kamery wpłynie na jakość danych — co z kolei wpłynie na działanie algorytmu śledzenia dłoni" — powiedział Wu. „Jeśli od samego początku nie zaprojektujesz sprzętu właściwie, zebrane dane mogą mieć bardzo specyficzne problemy, których nie przewidziałeś."
Firma planuje zatrudniać i szkolić armie teleoperatorów i operatorów danych egocentrycznych na całym świecie — jest to model pracochłonny, który rodzi oczywiste pytanie: dlaczego główne laboratoria nie wykonują tej pracy związanej z produkcją danych samodzielnie?
„Potrzebujesz magazynu o powierzchni setek tysięcy metrów kwadratowych z setkami robotów" — powiedział Wu. „Musisz je utrzymywać, kalibrować ich parametry fizyczne i odpowiednio szkolić operatorów." To rozbudowa wymagająca skupienia, kapitału i skali operacyjnej, którą większość laboratoriów AI woli zlecać na zewnątrz — i właśnie na tym rynku stawia XDOF.
Pojawienie się XDOF sygnalizuje szerszą zmianę w krajobrazie AI. W miarę jak czołowe laboratoria ścigają się ku fizycznej AI — robotom zdolnym do działania w nieustrukturyzowanym środowisku człowieka — wąskie gardło danych staje się równie krytyczne jak moc obliczeniowa czy architektura modelu. Firmy mogące dostarczać wiarygodne, wysokiej jakości dane treningowe do fizycznych interakcji pozycjonują się jako kluczowi dostawcy infrastruktury.
Nazwa XDOF to gra słów nawiązująca do terminu robotycznego „stopnie swobody", który opisuje liczbę niezależnych ruchów, jakie robot może wykonać. Twoje ramię, od barku do nadgarstka, ma siedem stopni swobody. Najnowszy robot humanoidalnej firmy robotycznej Figure.AI ma ich 30. Litera X w nazwie firmy oddaje jej ambicje: „Dowolne stopnie swobody, nieograniczone stopnie swobody" — mówi Wu.
Pozyskanie przez XDOF 70 mln USD i ogłoszenie wyjścia z utajnienia podkreślają rosnące uznanie w branży AI: droga do zdolnej fizycznej AI prowadzi przez infrastrukturę danych, a nie tylko lepsze modele. W miarę jak coraz więcej laboratoriów podąża śladem OpenAI, wznawiając programy robotyki, zapotrzebowanie na wysokiej jakości, fizycznie osadzone dane treningowe będzie tylko rosnąć. XDOF pozycjonuje się w centrum tego zapotrzebowania, budując potoki danych, które mogą zdecydować, które firmy odniosą sukces w wyścigu o budowę robotów mogących faktycznie działać w realnym świecie.
P1: Czym jest XDOF i czym się zajmuje?
XDOF to startup budujący potoki danych, narzędzia do ich zbierania i systemy adnotacji do trenowania robotów. Dostarcza dane treningowe ze świata fizycznego, których laboratoria AI potrzebują, by nauczyć roboty interakcji z otoczeniem.
P2: Czym dane treningowe dla robotów różnią się od danych treningowych dla modeli językowych?
Modele językowe można trenować na ogromnych ilościach tekstu dostępnego w internecie. Dane treningowe dla robotów muszą rejestrować fizyczne interakcje — takie jak chwytanie przedmiotów czy składanie ubrań — co wymaga wyspecjalizowanych metod zbierania, jak teleoperacja lub czujniki noszone na ciele.
P3: Ile środków pozyskał XDOF i kto jest inwestorem?
XDOF pozyskał 70 mln USD od Thrive Capital, Spark Capital, a16z, Lux i WndrCo. Firma zatrudnia około 60 pracowników i współpracuje już z 20 klientami, w tym z kilkoma czołowymi laboratoriami AI.
Ten artykuł Brudna robota trenowania robotów: XDOF pozyskuje 70 mln USD na budowę potoków danych, których laboratoria AI desperacko potrzebują pojawił się po raz pierwszy na BitcoinWorld.
