| 廣西新聞網(wǎng) > 首頁欄目 > 經(jīng)濟(jì) · 生活 > 創(chuàng)新 > 正文 |
AI觀察|具身智能進(jìn)化不等人!“大腦”在爭吵 身體已開跑 |
2026年01月13日 17:53 來源:廣西云-廣西日報(bào) 記者 付瑋燁 實(shí)習(xí)生 周詩涵 羅國威 編輯:陶昌順 |
|
童話《綠野仙蹤》的“鐵皮人”、電影《機(jī)器人總動(dòng)員》的“瓦力”、漫畫《鐵臂阿童木》的“阿童木”……影視文藝作品中具有自主意識、友好能干的金屬伙伴,描繪了人類對具身智能(機(jī)器人)的美好想象。
王靖/制圖 走進(jìn)現(xiàn)實(shí),2025年沖入大眾視野的具身智能,在飛速成長中遭遇不少質(zhì)疑:功能是噱頭,沒了遙控能走多遠(yuǎn),目前還屬于昂貴的大玩具?歲序更替之際,2025智源具身Open Day圓桌論壇的思想碰撞、國家發(fā)展改革委關(guān)于具身智能產(chǎn)業(yè)的政策部署、上海財(cái)經(jīng)大學(xué)《具身智能十大觀察》報(bào)告的深度剖析等相繼展開,或?qū)臀覀兂榻z剝繭,管窺2026年具身智能行業(yè)可能迎來的質(zhì)變機(jī)遇。 數(shù)據(jù)“不夠用、不好用”,如何破題? 數(shù)據(jù)是具身智能的“燃料”,但當(dāng)前行業(yè)普遍面臨“數(shù)據(jù)稀缺”與“需求旺盛”的矛盾——想要的高質(zhì)量數(shù)據(jù)不夠多,能用的數(shù)據(jù)又未必適配需求。在2025智源具身Open Day圓桌論壇上,嘉賓們對此展開熱議。 “我們相信真實(shí)物理世界采集的數(shù)據(jù),這是模型落地的根基。”招商局集團(tuán)AI首席科學(xué)家張家興說,在數(shù)字金字塔中,以人自身為本體采集的數(shù)據(jù)成本最低、量級最大,尤其適合用于預(yù)訓(xùn)練階段,“真實(shí)場景的交互數(shù)據(jù)能精準(zhǔn)反映物理世界的規(guī)律,這是合成數(shù)據(jù)難以完全替代的”。
在柳州市北部生態(tài)新區(qū)機(jī)器人產(chǎn)業(yè)園,柳州優(yōu)必選智能科技有限公司量產(chǎn)工業(yè)人形機(jī)器人下線,它的名字叫“Walker S1”。通訊員 黎寒池 攝 這一觀點(diǎn)得到了不少嘉賓呼應(yīng),清華大學(xué)交叉信息學(xué)院助理教授、星海圖聯(lián)合創(chuàng)始人趙行認(rèn)為,數(shù)據(jù)策略需堅(jiān)守“真實(shí)性、多樣性、規(guī)模化”三大原則,“從真實(shí)機(jī)器人數(shù)據(jù)采集起步,深入各類真實(shí)場景拓展數(shù)據(jù)維度,再通過擴(kuò)大采集規(guī)模、降低采集成本實(shí)現(xiàn)量化突破,讓數(shù)據(jù)規(guī)模化反向驅(qū)動(dòng)模型進(jìn)化”。這種“場景全覆蓋+數(shù)據(jù)全維度”的采集模式,能讓機(jī)器人在訓(xùn)練中接觸到不同環(huán)境、不同任務(wù)的復(fù)雜情況,從而逐步擺脫對人工遙控的依賴。 但真實(shí)數(shù)據(jù)的采集并非處處可行,北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴將目光投向了合成數(shù)據(jù)的補(bǔ)位價(jià)值。他以人形機(jī)器人行走、靈巧手操作為例,指出這類復(fù)雜物理交互的底層控制,在仿真環(huán)境中學(xué)習(xí)效率更高,“模擬器能提供豐富的物理交互基礎(chǔ),為真實(shí)世界的數(shù)據(jù)飛輪轉(zhuǎn)動(dòng)打下基礎(chǔ),這正是合成數(shù)據(jù)的核心使命”。 上海財(cái)經(jīng)大學(xué)《具身智能十大觀察》報(bào)告通過英偉達(dá)機(jī)器人基礎(chǔ)模型研發(fā)等案例,分析了合成數(shù)據(jù)在突破真實(shí)數(shù)據(jù)采集局限上的獨(dú)特優(yōu)勢。在此背景下,2026年行業(yè)實(shí)踐的融合路徑或許是:在各類場景訓(xùn)練中,通過合成數(shù)據(jù)完成基礎(chǔ)技能搭建,再以真實(shí)數(shù)據(jù)精準(zhǔn)優(yōu)化,讓數(shù)據(jù)資源在互補(bǔ)中實(shí)現(xiàn)價(jià)值最大化。 國家發(fā)展改革委2025年11月底公布的數(shù)據(jù)顯示,我國具身智能產(chǎn)業(yè)正以超50%的增速跨越式發(fā)展,2030年將達(dá)到千億元市場規(guī)模。隨著國家支持“仿真與真機(jī)數(shù)據(jù)融合”技術(shù)攻關(guān)的推進(jìn),數(shù)據(jù)“不夠用、不好用”的困局或?qū)⒅鸩狡平狻?/p> 機(jī)器人的“大腦”會有統(tǒng)一標(biāo)準(zhǔn)嗎? 具身智能搭載的大模型,就像是機(jī)器人的智慧大腦——它決定了機(jī)器人能不能聽懂指令、判斷環(huán)境、自主做事。但目前,關(guān)于這個(gè)“大腦”的技術(shù)架構(gòu)尚未形成統(tǒng)一標(biāo)準(zhǔn),分層模型、端到端VLA(視覺—語言—?jiǎng)幼鳎┑榷喾N技術(shù)路徑尚處于“百家爭鳴”時(shí)代。 未來行業(yè)內(nèi)能否形成,或是否有必要形成統(tǒng)一的具身智能“大腦標(biāo)準(zhǔn)”?
第22屆東博會上,觀眾興致勃勃地觀看機(jī)器人格斗表演。廣西云-廣西日報(bào)記者 梁凱昌 攝 “具身智能得有自己專屬的技術(shù)架構(gòu),不能照搬大語言模型發(fā)展路徑。”張家興就此保持中立態(tài)度,“人類的智能進(jìn)化是先會動(dòng)、再能看、最后才會說話,而現(xiàn)在主流的VLA架構(gòu),相當(dāng)于在‘看’和‘動(dòng)’之間加了‘說話’這一步,不符合實(shí)際操作本質(zhì)。” 張家興舉例說,開車時(shí)我們是直接通過眼睛看路況就操控方向盤、踩剎車,并不需要先在心里把動(dòng)作描述成語言再執(zhí)行。他還透露,硅谷頭部團(tuán)隊(duì)正探索“先看后動(dòng)”或“邊看邊動(dòng)”的新架構(gòu),2026年可能會出現(xiàn)更多不一樣的技術(shù)創(chuàng)新,打破當(dāng)前單一架構(gòu)的主導(dǎo)局面。 智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐則認(rèn)為,行業(yè)最終會形成一個(gè)整合多種技術(shù)的統(tǒng)一系統(tǒng)。“VLA的大方向是對的,但不會是現(xiàn)在的樣子,它會和世界模型、強(qiáng)化學(xué)習(xí)等技術(shù)融合,既能通過世界模型預(yù)判接下來會發(fā)生什么,又借助強(qiáng)化學(xué)習(xí)在實(shí)踐中不斷優(yōu)化,再配合真實(shí)場景的數(shù)據(jù)持續(xù)升級。”他解釋說,這個(gè)統(tǒng)一系統(tǒng)不是“一刀切”的單一架構(gòu),而是“核心模塊統(tǒng)一、場景適配靈活”的生態(tài)體系。 統(tǒng)一“大腦標(biāo)準(zhǔn)”的落地需要什么條件?智源研究院院長王仲遠(yuǎn)判斷為“數(shù)據(jù)先行”。他補(bǔ)充解釋,這也是智源布局多模態(tài)世界模型的重要原因,但統(tǒng)一架構(gòu)的出現(xiàn)需要海量數(shù)據(jù)支撐,可能要等大量機(jī)器人在真實(shí)場景中累積足夠多的數(shù)據(jù)后,才會真正落地。 在統(tǒng)一架構(gòu)的具體形態(tài)上,趙行認(rèn)為:“大概率是‘大型動(dòng)作模型’,它會以動(dòng)作能力為核心,先讓機(jī)器人具備靈活運(yùn)動(dòng)的基礎(chǔ)算法,再疊加視覺感知能力,最后融入語言交互功能,就像生物進(jìn)化的自然規(guī)律。”他進(jìn)一步解釋,這種模型能實(shí)現(xiàn)“動(dòng)作—反饋—調(diào)整”的實(shí)時(shí)優(yōu)化,比如機(jī)器人抓取物體時(shí),能根據(jù)物體的輕重、形狀調(diào)整力度和姿勢,這和大語言模型“問一句答一句”的單向響應(yīng)邏輯完全不同。 結(jié)合業(yè)界學(xué)界的觀點(diǎn)不難判斷,具身智能“大腦架構(gòu)”的“百家爭鳴”不會驟然終結(jié),但或?qū)⒃?026年進(jìn)入“分歧收窄、共識凝聚”的冷靜期。 預(yù)判功能 是必需還是錦上添花? 世界模型,被業(yè)內(nèi)視為具身智能的“物理模擬器”——能在虛擬環(huán)境里推演重力、碰撞等規(guī)律,預(yù)判蘋果拋落軌跡這類環(huán)境變化,靠“提前想一步”的能力幫機(jī)器人規(guī)劃動(dòng)作。這一能力的重要性已被行業(yè)普遍認(rèn)可,但關(guān)于它是落地必需的核心功能,還是可后續(xù)補(bǔ)充的加分項(xiàng),業(yè)內(nèi)仍有不同理解。 “世界模型的預(yù)測能力是核心,但訓(xùn)練數(shù)據(jù)必須來自機(jī)器人自身。”王鶴表示,當(dāng)前通過人類行為視頻訓(xùn)練世界模型的思路存在局限,機(jī)器人與人類身體結(jié)構(gòu)差異巨大,這類數(shù)據(jù)幫助有限,只能靠大量機(jī)器人自身數(shù)據(jù)訓(xùn)練獲得。
在賀州市科技館,學(xué)生們正與機(jī)器人一起做健身操。通訊員 黎豪圖 攝 在落地節(jié)奏上,王仲遠(yuǎn)的看法更加務(wù)實(shí)。他認(rèn)為世界模型“有用但非必需”,具身智能不用等技術(shù)完美再落地,可先通過簡單的決策邏輯實(shí)現(xiàn)基礎(chǔ)功能,在實(shí)際應(yīng)用中收集數(shù)據(jù),再逐步迭代世界模型的精度,就像自動(dòng)駕駛從基礎(chǔ)輔助到高階自主的演進(jìn)過程。 加速進(jìn)化創(chuàng)始人兼CEO程昊從企業(yè)落地視角補(bǔ)充:“我們關(guān)注世界模型,核心是看中它能提前規(guī)劃多步動(dòng)作,讓落地更高效,先讓機(jī)器人‘活下來’,再用真實(shí)數(shù)據(jù)反哺模型優(yōu)化。”他以工業(yè)場景舉例,當(dāng)前不少工廠的具身機(jī)器人,雖未搭載復(fù)雜的世界模型,但通過精準(zhǔn)的視覺識別和簡單的路徑規(guī)劃,已能完成零部件搬運(yùn)、質(zhì)檢等任務(wù),創(chuàng)造了實(shí)際價(jià)值。 這種“先落地再優(yōu)化”的路徑,在其他領(lǐng)域也有成熟先例。中國科學(xué)院大學(xué)教授趙冬斌以自動(dòng)駕駛為例佐證:“自動(dòng)駕駛的發(fā)展就是先落地收集數(shù)據(jù),再通過數(shù)據(jù)迭代模型。當(dāng)各類機(jī)器人能在真實(shí)場景中邊工作邊收集數(shù)據(jù),世界模型的訓(xùn)練自然水到渠成。” 政策層面也在為技術(shù)落地保駕護(hù)航。國家發(fā)展改革委明確提出,接下來將推動(dòng)訓(xùn)練與中試平臺等基礎(chǔ)設(shè)施建設(shè),促進(jìn)技術(shù)、數(shù)據(jù)、資源的開放共享,加速具身智能體在真實(shí)場景中落地應(yīng)用。 可以預(yù)測,世界模型將加速從實(shí)驗(yàn)室技術(shù)走向場景化應(yīng)用,在工業(yè)制造、物流配送等標(biāo)準(zhǔn)化場景中率先實(shí)現(xiàn)突破。而在家庭服務(wù)等復(fù)雜場景中,世界模型或以一屋一定制的“輕量化模塊”形式逐步滲透,隨著具身智能一道,走入更多生活場景。
《廣西日報(bào)》1月14日4版版面截圖。 |
|
掃一掃在手機(jī)打開當(dāng)前頁
|
| >>更多精彩圖集推薦 |
|
|
||||||||||||||||||||||||||||||