昔日的華為天才少年“稚暉君”,又站到了聚光燈下。
3月10日,智元機器人正式發(fā)布了全球首個通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡稱GO-1),這標志著具身智能向通用化、開放化、智能化方向快速邁進。
在生成式AI遭遇邊際效益遞減的當下,具身智能正成為AI技術突破物理世界的關鍵路徑。該模型通過首創(chuàng)ViLLA架構,整合多模態(tài)大模型與混合專家系統(tǒng),使機器人僅需千條以內(nèi)的視頻數(shù)據(jù),即可掌握擦拭、倒水等復雜動作,訓練成本驟降。
這項突破不僅實現(xiàn)了“一腦多形”的跨本體遷移能力,更通過持續(xù)進化的數(shù)據(jù)回流系統(tǒng),讓家庭服務機器人,首次具備了通過日常交互積累物理經(jīng)驗的可能。
“我們公司使命是運用通用機器人來創(chuàng)造無限生產(chǎn)力,機器人只有硬件本體,那肯定是不夠的。將來,AI能力一定是區(qū)分整個機器人產(chǎn)品競爭力的核心環(huán)節(jié)。就像今天的新能源車、手機一樣,硬件供應鏈也會高度整合,在最后比拼的一定是AI能力?!敝窃匣锶?、具身業(yè)務部總裁、研究院執(zhí)行院長姚卯青在當日的溝通會對21世紀經(jīng)濟報道等媒體直言,如果機器人沒有自主作業(yè)能力,價值是非常有限的。
這個大模型已部署到智元研發(fā)的多款機器人本體中。他透露,具身智能的AI研發(fā)是公司的戰(zhàn)略級投入。
截止到目前,智元機器人已完成了天使輪、A輪、A1輪等多輪融資,其創(chuàng)始人“稚暉君”彭志輝于1993年出生,畢業(yè)于電子科技大學信通學院。2020年,他以“華為天才少年計劃”加入華為。
2022年離職開啟創(chuàng)業(yè)后,彭志輝創(chuàng)辦的智元機器人已經(jīng)率先在行業(yè)內(nèi)完成了機器人大規(guī)模量產(chǎn),再用百萬級別的數(shù)據(jù),進行大模型自主研發(fā)。姚卯青表示,在五年后的未來,物理AI能夠真正落地家庭場景。隨著模型的不斷升級優(yōu)化,機器人被帶回家后,人們可以自己進行視教,而不是通過數(shù)據(jù)采集。
機器人做家務可期
讓AI在虛擬世界生成完美圖片容易,但在現(xiàn)實世界中,教機器人穩(wěn)定抓取雞蛋卻很難。因此,當宇樹機器人扭著秧歌在蛇年春晚亮相后,瞬間成為智能硬件新晉頂流。
過去的小模型之所以只能停留在實驗室而無法走到公眾面前,是因為它們無法通過對大規(guī)模圖文和視頻的學習,來構建通用的場景感知和指令理解。
“每一個新場景下的新動作,都需要大量的數(shù)據(jù)學習,而且成功率不高,不同形態(tài)之間的機器人也無法共享數(shù)據(jù)?!敝窃呱硌芯恐行某罩魅稳螐V輝坦言,這種反差揭示了AI發(fā)展的深層矛盾:當數(shù)字世界的智能水平逼近人類時,物理世界的笨拙機械臂仍需要工程師逐行輸入預設指令代碼。
這些現(xiàn)實局限,倒逼著機器人領域技術路線的革新。
智元機器人公布的GO-1基座大模型,展示了突破物理智能瓶頸的全新路徑。這個集成了ViLLA架構的4D世界模型,能夠?qū)〞r間在內(nèi)的整個物理世界囊括其中,可以實現(xiàn)小樣本泛化。
任廣輝舉例表示,拿海綿布擦拭有污漬的桌子這一動作,機器人僅需要150條數(shù)據(jù)就能學會;對于倒水這一相對復雜的動作,僅需1000條左右,而沒有搭載GO-1模型的機器人,則需要一萬甚至五萬條數(shù)據(jù)?!斑@就降低了一到兩個數(shù)量級的采集時間和成本。更重要的是,GO-1模型同一套算法可同時應用于雙足、輪式、機械臂等不同形態(tài)的機器人。”
從性能來看,GO-1相比已有模型成功率大幅領先,平均成功率提高了32%。經(jīng)實驗發(fā)現(xiàn),在倒水、清理桌面、補充飲料等任務中表現(xiàn)相對突出。
因此,家庭場景的突破更令人期待。未來,機器人能通過日常交互積累物理經(jīng)驗:當掃地機器人第10次撞到桌腿時,它不再重復錯誤,而是建立空間記憶模型;照料老人的陪護機器人,則通過長期觀察學會預防跌倒的預判能力。
這種持續(xù)學習機制,正在打破服務機器人“智能不足”的發(fā)展瓶頸。
談及人們普遍關心的家庭機器人,姚卯青表示機器人進入家庭涉及行業(yè)安全標準,伴隨技術發(fā)展,從推進到落地需要五年左右的時間,定價估計在三十萬元以上,“學習倒咖啡這一個動作,訓練軟件的成本可以在萬元之內(nèi)解決,但這并不包含機器人本體的硬件成本?!?/p>
物理AI聚焦多場景
物理AI在未來可以覆蓋工業(yè)、商業(yè)、家庭等全方位社會場景,但短期內(nèi),智元會聚焦于工業(yè)場景,并且已有試點項目在工廠落地。
“數(shù)據(jù)是模型的燃料。” 姚卯青強調(diào),數(shù)據(jù)回流系統(tǒng)保證了GO-1模型的“持續(xù)進化”特性。有人工審核參與的數(shù)據(jù)回流系統(tǒng),會把錯誤場景或錯誤動作的數(shù)據(jù)上報,以確保數(shù)據(jù)集的質(zhì)量,后續(xù)再加入到模型訓練當中。
一直以來,工業(yè)場景對數(shù)據(jù)的要求較高,在互聯(lián)網(wǎng)上也很難獲取。同時,工業(yè)場景動作成功率對應門檻也相對較高。但在工業(yè)方面,對數(shù)據(jù)成本的容忍度也更高,人們更加關心最終的落地效果。在模型訓練時,幾萬條甚至幾十萬條數(shù)據(jù)都是可以接受的程度。
此外,開源生態(tài)建設也成為破局關鍵。姚卯青表示,AgiBot World開源項目兩周之內(nèi),一直占據(jù)榜首第一的位置,所獲好評量,遠超Google旗下的類似數(shù)據(jù)集。這種協(xié)作模式大幅降低了行業(yè)合作成本與準入門檻。
“生成式AI 的發(fā)展是有明確的產(chǎn)業(yè)分工的,像數(shù)據(jù)的采集標注、審核甚至是數(shù)據(jù)的交易都有一些平臺性的機構出現(xiàn),那么在機器人領域,我認為這也是有機會的?!币γ啾硎?,如果每一家都來自己建設場地、投入設備,是一個重復造輪子、重復投資的行為。長期來看的話,可以由個別的幾家企業(yè)來集中承擔公共平臺的職責。
針對近日市場上定價9.9萬機器人所引發(fā)的熱度與討論,姚卯青認為當前階段,機器人領域應該以價值為導向,而非低價競爭?!拔覀儗I研發(fā)的戰(zhàn)略級投入是非常堅定的。智能化今年已經(jīng)開始規(guī)?;慨a(chǎn)和交付,相關研發(fā)投入可以較好地被分攤掉,不會被顯著地轉(zhuǎn)移到終端售價上?!?/p>
信達證券認為,AI的發(fā)展從根本上推進了人形機器人和自動駕駛等端側的發(fā)展。Grok3/o3-mini等模型展示了對物理定律逐步深刻的理解,而Deepseek相關模型則反映了推理成本的迅速降低。
受此激勵,端側較高級別的智能落地可期,人形機器人或迎來迅速產(chǎn)業(yè)化。相較于人形機器人,工業(yè)機器人早已在汽車、光伏、物流等多個行業(yè)廣泛應用。
國家市場監(jiān)督管理總局數(shù)據(jù)顯示,截至2024年12月底,全國共有45.17萬家智能機器人產(chǎn)業(yè)企業(yè),注冊資本共計64445.57億元,企業(yè)數(shù)量較2020年底增長206.73%,較2023年底增長19.39%,呈穩(wěn)健上揚態(tài)勢。國家統(tǒng)計局數(shù)據(jù)顯示,2024年我國工業(yè)機器人累計產(chǎn)量達到55.6萬套,同比增長14.2%。
不過,當行業(yè)出現(xiàn)井噴之勢,洗牌也會來臨 。而AI+大模型的能力成為下一個競爭的關鍵環(huán)節(jié)。
姚卯青認為,大模型在機器人行業(yè)的應用也會經(jīng)歷一些漸進式的發(fā)展,會從一些較為容易入手、結構化場景較為明確的地方,先去進行落地探索。然后逐漸再演化到一些半結構化和半開放的任務和場景,最終真正實現(xiàn)通用人工智能AGI在物理世界的應用?!翱赡艿侥莻€時候,我們真正能走入千家萬戶,去在家庭中執(zhí)行各類開放式的指令任務。近兩年,我們還是會去集中看一些工業(yè)、服務業(yè)在商業(yè)領域的應用?!?/p>
或許,機器人真正走到我們身邊仍然需要時間,但步伐已經(jīng)在加快,行業(yè)也被拉到前所未有的高度。
對于智元機器人來說,已實現(xiàn)了年均千臺的量產(chǎn)規(guī)模,家庭場景依然是其長期目標。諸如倒茶、制作早餐之類的簡單任務,未來可能只需要幾千元成本即可實現(xiàn)。
“我們用兩年時間,走完了別人可能八年都沒有走完的路,”姚卯青堅定相信,智能化才是機器人的未來,且未來會持續(xù)投入到軟硬件一體化研發(fā)中。