人形機(jī)器人競(jìng)速大模型 得數(shù)據(jù)者得天下


中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-07-30





  近日,在上海2024世界人工智能大會(huì)上,人形機(jī)器人和大模型成為了兩大人氣王。


  新設(shè)的機(jī)器人專(zhuān)區(qū)里,25個(gè)人形機(jī)器人、各種靈活的機(jī)械臂、穿梭在過(guò)道中送水的機(jī)器狗,還有能夠幫你成為超能人——兩只手指頭就能搬起沙袋的外骨骼;大模型展區(qū)更是各種炫技,讀懂你的情緒、模擬你的動(dòng)作、幫你做個(gè)個(gè)性化的診療、甚至讓你直接和你喜歡的數(shù)字名人聊天,比如羅永浩……置身其間,你似乎來(lái)到了未來(lái)世界。


  據(jù)國(guó)際機(jī)器人聯(lián)合會(huì)的數(shù)據(jù)顯示,全球人形機(jī)器人的市場(chǎng)規(guī)模正以每年超過(guò)20%的速度增長(zhǎng)。預(yù)計(jì)到2025年,將達(dá)到數(shù)百億美元的規(guī)模。


  4月,首屆中國(guó)人形機(jī)器人產(chǎn)業(yè)大會(huì)發(fā)布《人形機(jī)器人產(chǎn)業(yè)研究報(bào)告》預(yù)測(cè),2024中國(guó)人形機(jī)器人市場(chǎng)規(guī)模約27.6億元(人民幣,下同);2026年達(dá)104.71億元;到2029年達(dá)到750億元,將占到世界總量的32.7%,位居世界第一,到2035年規(guī)模有望達(dá)到3000億元。


  過(guò)去,由于技術(shù)不成熟,人形機(jī)器人只能提供casebycase服務(wù),缺乏對(duì)復(fù)雜場(chǎng)景的認(rèn)知能力,應(yīng)用空間局限;同時(shí)在本體控制層,人形動(dòng)作僵硬,需按照預(yù)設(shè)好的算法運(yùn)行,不具備更智能的靈巧操作能力。


  隨著2023年大模型技術(shù)席卷而來(lái),技術(shù)進(jìn)步給人形機(jī)器人具身智能帶來(lái)了新轉(zhuǎn)折。從事AI賦能企業(yè)數(shù)字化的常信科技CEO葛林波表示,有了大模型的加持,“新”人形機(jī)器人已經(jīng)突破了上一代技術(shù)路徑的局限。它的革命性變化主要體現(xiàn)在:實(shí)現(xiàn)了更高層次的抽象理解和推理能力,大幅提升了非結(jié)構(gòu)化環(huán)境中的適應(yīng)性,使機(jī)器人具備了更接近人類(lèi)的認(rèn)知決策能力,并能實(shí)現(xiàn)跨領(lǐng)域知識(shí)遷移和自主學(xué)習(xí)。


  “人形機(jī)器人也許將是AI在演進(jìn)中最重要的應(yīng)用場(chǎng)景?!绷柙浦悄茉瑿EO祝凌云直言。


  大模型帶動(dòng)行業(yè)變革


  大模型的加入相當(dāng)于為機(jī)器人安裝了一個(gè)大腦,讓它可以對(duì)周?chē)h(huán)境做出更加深入的理解。


  達(dá)闥在上海2024世界人工智能大會(huì)上展出的人形雙足機(jī)器人XR4小紫,搭載了大模型RobotGPT。人工智能公司OpenAI與人形機(jī)器人公司FigureAI合作,推出了大模型加持的人形機(jī)器人Figure01。


  “目前,國(guó)內(nèi)許多人形機(jī)器人已經(jīng)接入大模型。據(jù)不完全統(tǒng)計(jì),截至目前,優(yōu)必選、傅立葉、智源以及北京銀河通用等企業(yè)均已載入大模型,科大訊飛人形機(jī)器人主要基于自研的星火大模型?!笨拼笥嶏w機(jī)器人首席科學(xué)家季超對(duì)中國(guó)工業(yè)報(bào)表示。


  而在3月人形機(jī)器人大賽現(xiàn)場(chǎng),中國(guó)工業(yè)報(bào)聽(tīng)到最多的一句話就是,“在大模型賦能下,人形機(jī)器人將是具身智能最佳的載體。”


  具身智能,是指在機(jī)器智能領(lǐng)域中,通過(guò)將智能算法與物理實(shí)體的感知、行動(dòng)和環(huán)境交互相結(jié)合,使機(jī)器能夠以更自然、更智能的方式與環(huán)境進(jìn)行交互和解決問(wèn)題的能力。人形機(jī)器人作為通用人工智能具象化載體,與人工智能大模型相結(jié)合,就可以感知物理世界,利用多模態(tài)感知控制自己的身體,完成復(fù)雜的任務(wù)。


  從2010年開(kāi)始至2023年具身智能熱爆發(fā),國(guó)內(nèi)人形機(jī)器人技術(shù)路徑劃分為兩個(gè)階段。


  第一階段為具體任務(wù)、單個(gè)場(chǎng)景的技術(shù)路徑階段。如針對(duì)特定園區(qū)設(shè)置運(yùn)輸線路,搬運(yùn)機(jī)器人就可在固定路徑上完成配送,穩(wěn)定性強(qiáng);多條路線下,用算法提前規(guī)劃即可。但機(jī)器人一旦脫離該設(shè)定,便無(wú)法運(yùn)轉(zhuǎn)。因此,面對(duì)新場(chǎng)景、新任務(wù),人形機(jī)器人都需要重新收集數(shù)據(jù)訓(xùn)練、設(shè)定方案和測(cè)試。


  “過(guò)去,機(jī)器人工作可能停留在‘小腦’層面,即如何讓機(jī)器人更穩(wěn)定行走,機(jī)械臂控制更靈活,這本質(zhì)上與業(yè)務(wù)流程存在較大鴻溝?!奔境瑢?duì)中國(guó)工業(yè)報(bào)解釋道,例如,過(guò)去,機(jī)器人從A點(diǎn)走到B點(diǎn),或者在流水線上抓取某些物品,但它并不了解為何要走到B點(diǎn),以及為什么要抓取物品?!叭绻麢C(jī)器人只完成這些基礎(chǔ)功能,就無(wú)法滿(mǎn)足業(yè)務(wù)場(chǎng)景的需求?!?/p>


  “如果一家電力公司發(fā)生燃?xì)庑孤┗蛴卸練怏w泄漏,而變壓器存在放電等危險(xiǎn),我們希望人形機(jī)器人可以代替人進(jìn)入有潛在風(fēng)險(xiǎn)的工作場(chǎng)景,識(shí)別并關(guān)閉閥門(mén),再打開(kāi)窗戶(hù)。我們需要將任務(wù)與實(shí)際業(yè)務(wù)流程結(jié)合,基于大模型進(jìn)行微調(diào),形成基于任務(wù)場(chǎng)景下的多模態(tài)矩陣大模型。讓機(jī)器人能夠按照我們對(duì)場(chǎng)景的理解,進(jìn)行一系列基于時(shí)間序列的穩(wěn)步操作?!奔境硎?,“大模型的加入相當(dāng)于為機(jī)器人安裝了一個(gè)大腦,讓它可以對(duì)周?chē)h(huán)境做出更加深入的理解。大模型的核心能力主要體現(xiàn)在對(duì)環(huán)境的理解和認(rèn)知推理能力顯著增強(qiáng)?!?/p>


  第二階段則是以具身智能為代表的技術(shù)路徑更強(qiáng)調(diào)泛化性,追求多場(chǎng)景適配。大模型能解決多種任務(wù),機(jī)器人可以完成單任務(wù)式交付到規(guī)模化應(yīng)用的可能。


  “過(guò)去,大家對(duì)機(jī)器人的要求是提前把事項(xiàng)預(yù)編好,執(zhí)行就可以了。但人們希望人形機(jī)器人既能是個(gè)熟練的螺絲工,同時(shí)又具備質(zhì)檢等其他工作能力,可靈活配置,最終替代工廠里的員工完成繁重、枯燥性工作,而不是替掉現(xiàn)有的重型機(jī)械臂、傳送帶等?!睒?lè)聚機(jī)器人副總裁柯真東對(duì)媒體表示。


  應(yīng)對(duì)場(chǎng)景差異化就需要泛化的大腦。對(duì)人形機(jī)器人而言,這需要實(shí)現(xiàn)兩大能力提升:一是語(yǔ)言理解能力。季超介紹,載入大模型后,機(jī)器人對(duì)于人類(lèi)下發(fā)的復(fù)雜指令或者工作過(guò)程中的復(fù)雜指令,可以做到更深入的理解和拆解。這是過(guò)去對(duì)環(huán)境的感知和行為決策方面的大幅度提升。


  二是學(xué)習(xí)能力。非結(jié)構(gòu)化的環(huán)境下,大模型加上多維傳感器,能夠?qū)W習(xí)、識(shí)辨并構(gòu)建環(huán)節(jié),在mobile(移動(dòng))、pick(抓?。?、place(搬運(yùn))三大基礎(chǔ)能力之上,讓人形機(jī)器人具備多場(chǎng)景作業(yè)的能力。


  葛林波表示,大模型在人形機(jī)器人領(lǐng)域解決了語(yǔ)言理解、場(chǎng)景認(rèn)知和動(dòng)作規(guī)劃等關(guān)鍵挑戰(zhàn),顯著提升了機(jī)器人在復(fù)雜環(huán)境中的適應(yīng)性和交互能力。在場(chǎng)景突破方面,大模型的賦能主要體現(xiàn)在提高人形機(jī)器人對(duì)新場(chǎng)景認(rèn)知的泛化能力、通過(guò)少樣本學(xué)習(xí)快速適應(yīng)新環(huán)境、增強(qiáng)對(duì)復(fù)雜動(dòng)態(tài)場(chǎng)景的理解能力,以及實(shí)現(xiàn)更高級(jí)的任務(wù)分解和規(guī)劃。


  “泛化性本質(zhì)在于,任意場(chǎng)景、任意物體、任意情形下,機(jī)器人mobile、pick、place都能成功?!北贝?銀河通用具身智能聯(lián)合實(shí)驗(yàn)室主任王鶴表示。


  數(shù)據(jù)是關(guān)鍵


  數(shù)據(jù)是人形機(jī)器人未來(lái)的靈魂。而當(dāng)下,人形機(jī)器人缺少規(guī)模化數(shù)據(jù)則是整個(gè)行業(yè)最大的痛點(diǎn)。


  作為集AI技術(shù)、軟件算法、運(yùn)動(dòng)控制、硬件結(jié)構(gòu)等為一體的移動(dòng)終端,人形機(jī)器人是目前公認(rèn)的難度系數(shù)最高的產(chǎn)品。而訓(xùn)練數(shù)據(jù)采集的難度,是橫亙?cè)谌诵螜C(jī)器人規(guī)模化落地面前的一座大山。


  在上海2024世界人工智能大會(huì)“人形機(jī)器人與具身智能發(fā)展論壇”上,不少專(zhuān)家都提道:數(shù)據(jù)是人形機(jī)器人未來(lái)的靈魂。而當(dāng)下,人形機(jī)器人缺少規(guī)?;瘮?shù)據(jù)則是整個(gè)行業(yè)最大的痛點(diǎn)。


  季超表示,由于大模型和具身智能機(jī)器人遵循ScalingLaw(尺度定律的路線,模型能力可以理解為模型的損失函數(shù),模型尺度指模型參數(shù)量、訓(xùn)練數(shù)據(jù)量、訓(xùn)練步數(shù)等。機(jī)器的訓(xùn)練學(xué)習(xí),隨著量的增加,效果提升就變得越來(lái)越緩慢,因此選擇合適的量就好),因此對(duì)數(shù)據(jù)要求較高。當(dāng)前機(jī)器人數(shù)據(jù)規(guī)模不如大模型,這類(lèi)數(shù)據(jù)獲取難度和規(guī)模積累仍然不足。但要真正實(shí)現(xiàn)具身智能落地應(yīng)用,就得要讓機(jī)器人能像人類(lèi)一樣,學(xué)習(xí)積累不同場(chǎng)景下的應(yīng)對(duì)方式,擁有“經(jīng)驗(yàn)和知識(shí)”。


  清華大學(xué)研究員蘇航認(rèn)為,業(yè)內(nèi)對(duì)人形機(jī)器人的關(guān)注從“專(zhuān)用場(chǎng)景解決具體問(wèn)題”(靈巧性)到強(qiáng)調(diào)泛化性,主要還是出于降低成本考量,“原來(lái)一個(gè)場(chǎng)景應(yīng)用一款機(jī)器人,(如果)泛化性可以做到足夠好,一個(gè)機(jī)器人就可以在十個(gè)場(chǎng)景、百個(gè)場(chǎng)景應(yīng)用,就可以實(shí)現(xiàn)規(guī)?;瘓?chǎng)景和規(guī)?;?yīng),一旦實(shí)現(xiàn)規(guī)?;?,機(jī)器人的成本就可以拉到BOM(構(gòu)建制造產(chǎn)品所需的原材料、組件、子組件等材料的詳細(xì)清單)成本之下。所以,數(shù)據(jù)驅(qū)動(dòng)的泛化性是人形機(jī)器人應(yīng)用的核心?!?/p>


  蘇航說(shuō),目前,實(shí)驗(yàn)室收集到全網(wǎng)能夠獲取的所有人形機(jī)器人的數(shù)據(jù),包括各種AI操作的數(shù)據(jù),距離泛化性要求仍差2-3個(gè)數(shù)量級(jí)。哪怕達(dá)到GPT3.5的水平也差2-3個(gè)數(shù)量級(jí)。因此,構(gòu)建數(shù)據(jù)集和訓(xùn)練場(chǎng)非常有價(jià)值,而如何結(jié)合真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)一起做這件事則非常重要。


  特斯拉擎天柱能在有限簡(jiǎn)單場(chǎng)景下進(jìn)行自主作業(yè),其核心依靠數(shù)據(jù)驅(qū)動(dòng):采集海量的優(yōu)質(zhì)數(shù)據(jù),覆蓋各類(lèi)場(chǎng)景和物體,并通過(guò)具身智能提煉泛化能力。


  目前,人形機(jī)器人公司對(duì)數(shù)據(jù)的需求可以分為三類(lèi):


  一是通過(guò)數(shù)據(jù)理解世界規(guī)律。通過(guò)大量數(shù)據(jù)學(xué)習(xí),讓機(jī)器人理解任務(wù)意圖。二是借助模擬數(shù)據(jù)學(xué)習(xí)邏輯推理和決策能力。借助模擬環(huán)境,可以讓機(jī)器人掌握各種抓取方法。三是真實(shí)場(chǎng)景的應(yīng)用數(shù)據(jù)。三類(lèi)數(shù)據(jù)不同側(cè)重點(diǎn)會(huì)影響人形機(jī)器人的精度和成功率。


  “人形機(jī)器人最終落地是多種形態(tài)的,要提前做產(chǎn)業(yè)化布局,就意味著它需要提前進(jìn)入場(chǎng)景,獲取數(shù)據(jù)、再不斷迭代,去適配場(chǎng)景的真實(shí)需求。”星動(dòng)紀(jì)元聯(lián)合創(chuàng)始人席悅對(duì)媒體表示。


  真實(shí)數(shù)據(jù)的增加有利于機(jī)器人提高智能水平。但要跨越鴻溝,真實(shí)數(shù)據(jù)需要提高多樣性和質(zhì)量,并非單純數(shù)量堆砌。


  “這一點(diǎn),人形機(jī)器人有天然的優(yōu)勢(shì),它的數(shù)據(jù)可以更直接從人類(lèi)的行為數(shù)據(jù)里獲取或者遷移過(guò)來(lái)。”中國(guó)人形機(jī)器人百人會(huì)副秘書(shū)長(zhǎng)、星動(dòng)紀(jì)元?jiǎng)?chuàng)始人、清華大學(xué)交叉信息研究院助理教授陳建宇表示。


  祝凌云也認(rèn)為,人形機(jī)器人的大模型更需要運(yùn)動(dòng)和感官的數(shù)據(jù)支持,實(shí)質(zhì)上就是機(jī)器學(xué)習(xí),誰(shuí)的用戶(hù)多誰(shuí)就能領(lǐng)跑。


  在優(yōu)必選使用的訓(xùn)練數(shù)據(jù)中,由Tele-operation(遠(yuǎn)程控制)所收集的真實(shí)數(shù)據(jù)占20%,此外,還有80%的數(shù)據(jù)通過(guò)仿真環(huán)境合成獲得。


  “由于真實(shí)數(shù)據(jù)稀缺,采集難度大、成本高,仿真合成數(shù)據(jù)被許多人形機(jī)器人企業(yè)視為解決數(shù)據(jù)問(wèn)題的最優(yōu)解。”祝凌云建議。


  達(dá)闥機(jī)器人用數(shù)字孿生方案搭建了一套實(shí)時(shí)同步、虛實(shí)轉(zhuǎn)換的數(shù)據(jù)收集系統(tǒng),通過(guò)傳感器,將人所在環(huán)境掃描并傳輸?shù)皆贫耍?0Hz/秒進(jìn)行重建,將機(jī)器人放置在孿生環(huán)境中進(jìn)行訓(xùn)練。將機(jī)器人看作一個(gè)NPC(是non-playercharacter的縮寫(xiě),指在游戲中不受玩家操控的一種角色類(lèi)型),各項(xiàng)任務(wù)是一個(gè)個(gè)游戲,用AI驅(qū)動(dòng)人形機(jī)器人在“游戲”中運(yùn)行。


  “這時(shí)候,我們要多少合成數(shù)據(jù)就有多少,需要什么場(chǎng)景也可以通過(guò)數(shù)字孿生的方式隨時(shí)搭建。當(dāng)數(shù)據(jù)在時(shí)間軸上被拉長(zhǎng)、以切片形式存在,突發(fā)問(wèn)題也變成了靜止問(wèn)題?!边_(dá)闥機(jī)器人創(chuàng)始人黃曉慶說(shuō)。


  當(dāng)然,合成數(shù)據(jù)的劣勢(shì)在于,它與真實(shí)數(shù)據(jù)之間存在數(shù)據(jù)分布的差異,實(shí)時(shí)性不強(qiáng),在落地時(shí),會(huì)面臨更高要求的精度問(wèn)題。


  但“目前市場(chǎng)上,能夠在同一個(gè)階段把幾類(lèi)數(shù)據(jù)都同步做好的公司幾乎沒(méi)有,普遍做法是根據(jù)自身的技術(shù)優(yōu)勢(shì),優(yōu)先從擅長(zhǎng)方向切入?!惫庠促Y本董事總經(jīng)理婁洋表示,“當(dāng)前以具身智能為核心的新一代人形機(jī)器人公司,在場(chǎng)景側(cè)的選取和市場(chǎng)端的切入上尚未達(dá)成共識(shí)。有些探索進(jìn)度快,有些相對(duì)較慢,但進(jìn)度更快的公司所選取的路徑,并不一定代表著該場(chǎng)景的最優(yōu)解。目前,場(chǎng)景落地的可行性和優(yōu)劣與否還沒(méi)有明確答案?!?/p>


  如工廠對(duì)機(jī)器人的要求通常以精準(zhǔn)成本為導(dǎo)向,期待機(jī)器人能夠每天完成固定的任務(wù),確保生產(chǎn)的穩(wěn)定性。然而,人形機(jī)器人的智能水平提升需要更強(qiáng)的泛化性和應(yīng)變能力。與生活場(chǎng)景相比,工業(yè)環(huán)境能提供給機(jī)器人的反饋和學(xué)習(xí)機(jī)會(huì)相對(duì)受限。存在落地成本不確定,以及數(shù)據(jù)訓(xùn)練和實(shí)際應(yīng)用轉(zhuǎn)化之間的錯(cuò)配問(wèn)題。


  葛林波表示,獲取高質(zhì)量、多樣化的機(jī)器人操作數(shù)據(jù)仍然是一個(gè)重要挑戰(zhàn),未來(lái)可能需要更先進(jìn)的數(shù)據(jù)采集系統(tǒng)、虛擬仿真環(huán)境和數(shù)據(jù)增強(qiáng)技術(shù)來(lái)解決這個(gè)問(wèn)題。


  今年5月,國(guó)地中心在上海成立,這是國(guó)內(nèi)首個(gè)人形機(jī)器人領(lǐng)域公共平臺(tái)。目前,國(guó)地中心正在浦東建設(shè)一個(gè)能夠容納100個(gè)人形機(jī)器人進(jìn)行智能訓(xùn)練的訓(xùn)練場(chǎng),11月將完成一期建設(shè);預(yù)期到2027年該訓(xùn)練場(chǎng)可以擴(kuò)大到能夠容納1000個(gè)人形機(jī)器人訓(xùn)練。


  中國(guó)人形機(jī)器人百人會(huì)副秘書(shū)長(zhǎng),北京市人形機(jī)器人創(chuàng)新中心有限公司CEO熊友軍也在3月機(jī)器人大賽上公布了大模型計(jì)劃:未來(lái)將與人形機(jī)器人創(chuàng)新中心產(chǎn)業(yè)聯(lián)盟的一些合作單位,共同構(gòu)建數(shù)據(jù)收集平臺(tái)以及大模型訓(xùn)練平臺(tái),主要面向工業(yè)場(chǎng)景下語(yǔ)言動(dòng)作的操作數(shù)據(jù)收集和訓(xùn)練。同時(shí)也會(huì)訓(xùn)練面向工業(yè)場(chǎng)景的大模型,跟大家一起構(gòu)建虛擬平臺(tái)。


  王鶴說(shuō),要讓機(jī)器人認(rèn)識(shí)世界,需要一個(gè)“對(duì)時(shí)間、空間、物理定律有比較細(xì)粒度的表達(dá)”的世界模型,但是,“這件事情不是現(xiàn)在任何一個(gè)軟件平臺(tái),或任何一個(gè)智能模型能做到的?!币屓诵螜C(jī)器人能真正成為千家萬(wàn)戶(hù)的家務(wù)型、陪伴型使用機(jī)器人,還需要很長(zhǎng)一段時(shí)間的努力。(王珊珊 左宗鑫)


  轉(zhuǎn)自:中國(guó)工業(yè)報(bào)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車(chē)工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高 上半年汽車(chē)工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

?

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964