搜索:
上海交大機(jī)械與動(dòng)力工程學(xué)院機(jī)電設(shè)計(jì)與知識(shí)工程研究所胡潔教授、戚進(jìn)副研究員團(tuán)隊(duì)聯(lián)合香港理工大學(xué)、復(fù)旦大學(xué)、瑞典皇家理工學(xué)院等單位,在Robotics and Computer-Integrated Manufacturing發(fā)表論文“Empowering Natural Human–Robot Collaboration through Multimodal Language Models and Spatial Intelligence: Pathways and Perspectives”,首次將人機(jī)協(xié)作、多模態(tài)大模型與具身智能整合為統(tǒng)一研究框架,為探索人機(jī)共生及制造業(yè)場(chǎng)景提供了新路徑。博士生武對(duì)娣為第一作者,加拿大工程院院士、JMS及RCIM主編Lihui WANG 教授,香港理工大學(xué)鄭湃教授為共同作者;胡潔教授、戚進(jìn)副研究員為共同通訊作者。


在工業(yè) 5.0 倡導(dǎo)的以人為中心的智能制造背景下,人機(jī)協(xié)作的智能化需求日益凸顯,而多模態(tài)大語(yǔ)言模型與具身智能的快速發(fā)展為其帶來(lái)了前所未有的演進(jìn)機(jī)遇。然而,現(xiàn)有研究普遍針對(duì)日常和通用任務(wù),在制造和工業(yè)領(lǐng)域的專家模型方面仍面臨一定挑戰(zhàn)。本研究發(fā)揮多學(xué)科融合優(yōu)勢(shì),面向?qū)嶋H工程需求,旨在以自然語(yǔ)言作為支點(diǎn)、以具身智能作為突破,由“人-計(jì)算機(jī)”交互智能邁向“人-機(jī)器人”技能遷移,實(shí)現(xiàn)“少樣本、快速學(xué)習(xí)”和“低成本、一機(jī)多能”。

該論文以語(yǔ)言為樞紐連接人類與大模型,系統(tǒng)梳理了人-信息-物理系統(tǒng)(HCPS)中“感知、認(rèn)知、執(zhí)行”的前沿方法,為構(gòu)建自然人機(jī)協(xié)作系統(tǒng)提供系統(tǒng)性路徑。首先剖析了模型演進(jìn)脈絡(luò),從基礎(chǔ)模型到視覺(jué)-語(yǔ)言-動(dòng)作模型,深入探討了 “交互-協(xié)作-共生” 的人機(jī)關(guān)系演進(jìn),同時(shí)明確了 “單一-通用-專用” 的算法設(shè)計(jì)路線,總結(jié)分析了 “空間-物理-具身” 智能的耦合關(guān)聯(lián)。該論文提供了具身智能數(shù)據(jù)集和基準(zhǔn),以及構(gòu)建特定任務(wù)仿真平臺(tái)以實(shí)現(xiàn)空間技能學(xué)習(xí)的方法,建立起多維度理論基礎(chǔ)。

針對(duì)工業(yè)場(chǎng)景中的實(shí)際挑戰(zhàn),論文從 “Why”、“How”、“What”、“Where”四個(gè)維度展開討論。語(yǔ)言作為橋梁可打破語(yǔ)義壁壘、提升機(jī)器人自主性,而 “視覺(jué)-語(yǔ)言-運(yùn)動(dòng)” 融合范式能有效兼顧模型推理能力與物理世界動(dòng)態(tài)約束。此外,論文還展望了數(shù)字表親、增強(qiáng)現(xiàn)實(shí)等技術(shù)在產(chǎn)品生命周期、智能制造和腦機(jī)接口等場(chǎng)景中的潛力。 論文相關(guān)資源已公開至 GitHub(https://github.com/WuDuidi/MLLM-HRC-Survey)。本研究為學(xué)術(shù)界提供了跨領(lǐng)域的研究框架,為以人為中心的工業(yè)智能化開辟了多元應(yīng)用方向。
論文鏈接:https://doi.org/10.1016/j.rcim.2025.103064

