文章背景图

论文解读 | CMT焊接全熔透多模态连续信号融合的在线熔透预测研究

2026-03-09
2
-
- 分钟

本文基于Gao等2024年发表于《Journal of Manufacturing Processes》的研究论文,从科研逻辑出发拆解其研究背景、技术方法、学术创新与研究缺口,为焊接智能监测领域的课题研究提供可复用思路与切入方向。

【论文基础索引】

  • 论文标题:Online penetration prediction based on multimodal continuous signals fusion of CMT for full penetration

  • 核心作者:第一作者Peng Gao;通讯作者Jun Lu、Zhuang Zhao(南京理工大学,江苏省光谱成像与智能感知重点实验室)

  • 发表期刊/会议:Journal of Manufacturing Processes

  • 发表时间:2024年

  • 卷期/页码:115 (2024) 431–440

  • DOI:10.1016/j.jmapro.2024.02.033

  • 核心标签:Audio-visual signal、Penetration state、Deep learning、Multimodal fusion、CMT welding(视听信号、熔透状态、深度学习、多模态融合、冷金属过渡焊接)

一、论文核心背景与问题

本模块严格基于论文引言与熔透分析部分,梳理研究的逻辑起点、现有研究局限、核心解决思路与量化成果,完整呈现研究的“问题-解决方案-效果”闭环。

(一)行业/学术核心痛点

  1. 复杂对接焊的在线熔透监测受钢板坡口不稳定性、焊接热变形影响,实现实时精准监测难度大;熔透质量从焊接钢板正面无法观测,传统焊后检测需剖开展开或从背面分析,过程滞后且破坏性大。

  2. 机器人CMT焊接虽替代人工实现参数稳定,但需预设焊接参数与固定路径,无法基于熔透状态实时调整,焊接缺陷易造成高额且不可逆的生产损失。

  3. 坡口角度变化对熔透状态的影响远大于钢板形状变化,但现有对接焊视觉监测研究多聚焦钢板形状,对可变坡口的熔透监测研究存在空白

  4. 焊接是连续物理过程,熔池的热扩散与凝固存在时间累积效应,单帧图像无法反映真实熔透状态,现有研究未充分利用序列信号的时序信息。

(二)现有主流研究的进展与关键局限性

论文原文明确指出现有熔透监测研究的3个核心局限性,均为领域内未解决的关键问题:

  1. 单模态/浅层特征提取:现有研究采用声学、电流、温度等单一传感器信号,或仅结合两种传感器做浅层特征分析,未挖掘数据的深层特征,难以处理复杂坡口的熔透监测任务。

  2. 单帧视觉信号的局限性:视觉传感研究多基于单帧熔池图像,忽略了焊接的连续性,单帧图像无法反映熔池热扩散与凝固的时间累积效应,无法精准表征实时熔透状态。

  3. 熔透监测仅做分类,无法支撑在线控制:现有少数音视觉融合的熔透研究仅实现“未熔透/全熔透/过熔透”的状态分类,且数据采集速度不足;而工业在线控制需要熔透状态的量化回归值,而非仅定性分类,现有方法无法满足工业实际需求。

(三)论文提出的核心解决思路

针对上述局限性,论文提出融合深度学习、计算机视觉与声音信号处理的混合方法,以SS304不锈钢复杂坡口CMT焊接为研究对象,核心思路如下:

  1. 利用熔池视频序列(视觉)焊接声音信号(声学) 的互补特征刻画熔池状态,解决单模态信息不足的问题;

  2. 构建多模态连续信号特征增强网络(MCRNet) ,结合3D卷积、多尺度卷积与通道注意力,在有限网络深度内提取时空特征与深层特征,平衡预测精度与推理速度;

  3. 设计带相似性损失的新型多模态融合方法,约束视觉与声学特征的相似度,提升融合效果;

  4. 焊接背面熔宽为熔透状态的量化指标,将熔透监测从“分类任务”升级为“回归任务”,为工业在线控制提供量化依据。

(四)论文最终实现的核心效果与贡献

论文通过实验验证了方法的有效性,核心量化成果与贡献如下:

  1. 多模态输入相比单模态信号输入,熔透预测效果至少提升18%

  2. MCRNet的均方误差(MSE)相比主流深度学习框架(ResNet34、DenseNet121等)提升44%

  3. 多模态输入下模型推理速度达57帧/秒(FPS) ,满足工业在线监测的实时性要求;

  4. 验证集上模型预测背面熔宽的平均绝对误差(MAE)为0.2538mm,MSE为0.1190mm,MSE仅为典型背面熔宽(6mm)的2%,实现高精度量化预测;

  5. 首次将多模态连续信号融合方法应用于60°-120°可变坡口CMT焊接,填补了坡口角度变化下熔透量化监测的研究空白。

二、核心技术方法拆解

本模块按实验平台与设计→核心实施步骤→关键技术细节的科研逻辑重构论文方法论,重点讲清“为什么这么做、怎么做、能得到什么结果”。

(一)实验平台与设计

论文的实验平台设计围绕多模态信号的精准采集、变量的科学控制、数据集的严谨构建展开,与同领域研究相比,其设计的核心亮点在于“多模态传感器的同步布置”与“熔透状态的量化标注”,具体如下:

  1. 硬件架构设计

    • 采用视觉+声学双模块对称布置于焊枪两侧,传感器随机械臂同步移动,保证信号采集与焊接过程的同步性,且互不干扰;

    • 视觉模块:Basler 1920-155um工业相机+850高通滤光片,用于采集熔池图像;声学模块:MPA201麦克风+ADLink USB2405数据采集卡,用于采集焊接声音信号;

    • 定制夹具固定钢板,减少焊接热变形导致的钢板弯曲,保证实验的稳定性。

  2. 实验变量与材料控制

    • 基材为SS304奥氏体不锈钢,焊丝为Cr19Ni9奥氏体不锈钢,焊接电源为Fronius CMT advanced 4000R,贴合工业CMT焊接实际;

    • 坡口角度变化范围为60°-120°

      ,覆盖未熔透(60°)、全熔透、过熔透(120°)三种状态,模拟工业复杂坡口焊接场景。

  3. 数据集构建与标注

    • 采集20道全熔透焊缝的视频、声音、背面熔宽数据,共27342组;剔除每道焊缝首尾1cm数据(消除起弧/收弧的不稳定性影响);

    • 采用分层抽样策略,90%数据为训练集,10%为测试集,另取3道独立焊缝为验证集,保证训练/测试/验证集无重叠,提升模型泛化性验证的严谨性;

    • 基于起弧/收弧时间手动对齐熔池图像、声谱图与背面熔宽数据,保证多模态数据的时间一致性;

    • 用Wiiboox Reeyee 5 M 3D扫描仪获取焊接背面3D点云,人工标记焊缝边缘,沿焊缝方向计算边界距离得到背面熔宽,作为熔透状态的量化回归标签,解决熔透状态无法直接量化的问题。

  4. 验证方案设计

    • 消融实验:验证MCRNet中3Dcov模块、MFE模块、SE模块及相似性损失的单独有效性,明确各模块对模型性能的贡献;

    • 对比实验:将MCRNet与主流深度学习模型(ResNet34、DenseNet121、Swin-T、ConvNeXt-T、CNN-LSTM)对比,评价指标包括MSE、推理时间、参数量(Params)、浮点运算量(FLOPs),全面验证模型的精度与实时性。

(二)核心实施步骤

论文的技术方法形成了 “信号采集→数据预处理→特征提取→多模态融合→模型训练→在线预测” 的完整技术闭环,步骤化拆解如下:

  1. 多模态连续信号采集

    • 视觉端:以70Hz帧率采集500×700像素的熔池图像,帧率与CMT焊接周期匹配,保证时序信息的完整性;

    • 声学端:以51200Hz采样率采集焊接声音信号,采样率大于人耳可听频率(20-20000Hz)的2倍,满足奈奎斯特采样定理,保证声音信号无失真还原。

  2. 多模态数据预处理

    • 视觉端:对原始熔池图像做随机裁剪(横纵0-50像素)+反向补像素(解决设备抖动问题),再进行锐化、随机亮度/色相饱和度调整(±10%)(解决焊接环境光强变化问题),最终将连续3帧图像整合为3×256×256的视频序列输入;

    • 声学端:对原始声音信号做短时傅里叶变换(STFT) ,生成64×64的声谱图,最终处理为1×128×128的声谱图输入,将时序声音信号转换为时空特征图,适配卷积网络处理。

  3. 多模态特征提取

    • 视频序列经3Dcov模块提取熔池的时空特征,利用相邻帧的特征一致性降低模型复杂度;

    • 视觉特征与声音特征分别经MFS多特征筛选模块(MFE+SE),实现多尺度特征提取与核心特征的通道注意力筛选,挖掘数据的深层特征。

  4. 多模态特征融合

    • 通过线性层与批归一化(BN)层将视觉、声学特征转换为维度匹配的特征图;

    • 采用向量乘法将1D特征转换为2D特征,通过浅层网络处理融合特征(替代直接拼接),并引入相似性损失约束视觉与声学特征的相似度,实现特征的深度融合。

  5. 模型训练与优化

    • 基于PyTorch框架,在NVIDIA TITAN RTX GPU上训练,批大小32,训练轮数100;

    • 采用AdamW优化器(动量0.99,权重衰减0.01)、余弦退火学习率策略,总损失为相似性损失(λ₁=10)+MSE损失(λ₂=1) ,平衡特征融合效果与回归预测精度。

  6. 在线熔透预测与验证

    • 将训练好的MCRNet应用于3道验证焊缝的在线多模态数据,以背面熔宽为预测目标,验证模型的在线预测精度;

    • 测试模型的推理速度,验证其工业在线监测的实时性;同时开展消融与对比实验,验证模型各模块的有效性与整体优越性。

(三)关键技术细节

本部分拆解论文原文明确披露的、可直接复用的技术细节,包括设备参数、算法公式、模型结构、超参数等:

  1. 核心设备与采样参数

    • 相机:帧率70Hz,原始分辨率500×700,处理后输入分辨率3×256×256;

    • 麦克风:采样率51200Hz,STFT窗长128,步长32;

    • 3D扫描仪:Wiiboox Reeyee 5 M,用于背面熔宽的量化标注。

  2. 核心数据处理算法与公式

    • 短时傅里叶变换(STFT):$STFT(f, k)=\sum_{n=0}^{N-1} s(n)\left[W(n-k) e^{-j 2 \pi f n / N}\right]$,将时序声音信号转换为声谱图;

    • 余弦相似度:$similarity =cos (\theta)=\frac{V \cdot S}{| V| | S| }=\frac{\sum{i=1}^{n} V{i} × S{i}}{\sqrt{\sum{i=1}^{n}\left(V{i}\right)^{2}} × \sqrt{\sum{i=1}^{n}\left(S_{i}\right)^{2}}}$,用于计算视觉与声学特征的相似度;

    • 相似性损失:$L_{V & S}=1-\frac{cos ^{-1}( similarity )}{\pi}$,约束两种模态特征的相似度;

    • 总损失函数:$L=\lambda{1} L{V & S}+\lambda{2} L{MSE}$,其中$\lambda_1=10$,$\lambda_2=1$,$L_{MSE}$为回归任务的均方误差损失。

  3. MCRNet核心模块设计(可直接复用)

    • 3Dcov模块:将连续3帧熔池图像整合为多通道输入,通过3D卷积提取时空特征,利用相邻帧特征一致性降低过拟合风险,是处理连续视觉序列的核心模块;

    • MFE多特征提取块:含5个分支(3×3、1×3、3×1、1×1卷积+残差连接),公式为$y{i}=F{3 × 3}\left(x{i},\left{W{i}\right}\right)+F{1 × 3}\left(x{i},\left{W{i}\right}\right)+F{3 × 1}\left(x{i},\left{W{i}\right}\right)+F{1 × 1}\left(x{i},\left{W{i}\right}\right)+x{i}$,推理阶段通过重参数化将多尺度卷积转换为3×3卷积,提升推理速度;

    • SE通道注意力块:由全局池化层+全连接层组成,为各特征通道分配权重,实现核心特征的筛选,提升模型特征提取的针对性;

    • 融合模块:线性层+BN层做维度匹配,向量乘法实现特征深度融合,浅层网络处理融合特征,替代传统的特征拼接,解决多模态特征融合的“信息冗余”问题。

  4. 模型训练超参数

    • 框架:PyTorch;训练硬件:NVIDIA TITAN RTX GPU;

    • 批大小:32;训练轮数:100;

    • 优化器:AdamW,动量0.99,权重衰减0.01;

    • 学习率策略:余弦退火(相比传统梯度下降,提升模型收敛性)。

  5. 核心性能优化细节

    • MFE模块的重参数化机制使MCRNet的推理时间提升40% ,是模型实现实时性的关键;

    • 采用“有限网络深度+多尺度特征提取”的设计,在降低模型参数量的同时,保证特征提取的丰富性,平衡了精度与计算量。

三、学术创新与研究价值

本模块从差异化学术创新研究价值两个维度展开,创新点严格对应现有研究的局限性,研究价值结合论文量化成果,从学术理论与工业落地双角度分析。

(一)差异化学术创新

论文的创新点均为针对现有研究局限性的定向突破,且首次在CMT焊接熔透监测领域实现了多项技术尝试,核心差异化创新如下:

  1. 创新1:带相似性损失的视觉-声学多模态连续信号融合方法
    针对“单模态/浅层特征无法处理复杂任务”的局限性,首次将熔池视频序列(连续3帧)焊接声音信号(声谱图) 进行深度融合,利用两种模态的互补特征刻画熔池状态;设计基于余弦相似度的相似性损失,约束视觉与声学特征的相似度,实现特征的深度对齐,多模态输入相比单模态效果至少提升18%,解决了单模态信息不足的核心问题。

  2. 创新2:3Dcov时空特征提取模块,挖掘焊接过程的时序信息
    针对“单帧图像无法反映连续焊接过程”的局限性,设计3Dcov模块,将连续3帧熔池图像作为输入,通过3D卷积提取熔池的时空特征,利用相邻帧的特征一致性降低模型复杂度和过拟合风险;相比单帧图像输入的主流模型,熔透预测精度显著提升,首次将焊接的时间累积效应纳入熔透监测模型,解决了时序信息未被利用的问题。

  3. 创新3:MCRNet网络,实现熔透状态的高精度量化回归
    针对“现有音视觉融合仅做分类,无法支撑在线控制”的局限性,构建MCRNet多模态特征增强网络,以背面熔宽为量化指标,将熔透监测从“定性分类”升级为“定量回归”;通过多尺度卷积、通道注意力和重参数化,在有限网络深度内提取丰富特征,实现了“高精度+高实时性”的平衡(MSE 0.1190mm,推理速度57FPS),解决了现有方法无法满足工业在线控制的核心需求。

  4. 创新4:填补可变坡口CMT焊接熔透量化监测的研究空白
    针对“现有研究忽视坡口角度变化对熔透的影响”的问题,首次将多模态融合方法应用于60°-120°可变坡口CMT焊接,揭示了坡口角度变化下熔池形态(视觉)和声学低频信号强度与熔透状态的内在关联,为复杂坡口焊接的熔透监测提供了新的研究思路。

  5. 创新5:轻量化特征提取框架(MFS模块),适配工业轻量化部署
    设计MFS多特征筛选模块(MFE+SE+重参数化),在训练阶段通过多尺度卷积提取丰富特征,推理阶段通过重参数化简化模型,既保证了特征提取的有效性,又提升了推理速度;该模块使MCRNet的参数量与主流模型相当,无需高端算力支持,解决了深度学习模型在工业现场的轻量化部署问题。

(二)研究价值

论文的研究价值体现在学术理论补全实际落地潜力两个维度,均以论文原文的量化成果和设计思路为支撑,贴合焊接智能监测领域的研究与工业需求:

1. 学术理论补全

  • 提出了焊接领域多模态连续信号处理的深度学习框架(MCRNet) ,融合3D卷积、多尺度卷积、通道注意力和相似性损失,为工业过程中多模态时序信号的分析提供了新的模型设计思路;

  • 建立了CMT焊接熔池视觉-声学特征与背面熔宽的量化关联模型,首次将背面熔宽作为全熔透状态的量化指标,为熔透监测从“分类”向“回归”的转变提供了理论和实验支撑;

  • 揭示了坡口角度变化下焊接声学信号的变化规律:坡口角度从60°增至120°时,声学低频信号强度逐渐降低,丰富了焊接过程声学监测的理论基础;

  • 验证了3D卷积在焊接视觉时序信号处理中的有效性,为连续工业视觉监测任务提供了新的特征提取方法。

2. 实际落地潜力

  • 实时性与精度满足工业需求:模型推理速度57FPS,MAE 0.2538mm,MSE 0.1190mm,可实时、精准预测熔透状态,能提前识别未熔透/过熔透的不利趋势,为焊接参数调整提供时间窗口;

  • 硬件成本可控,易与现有设备集成:实验平台采用工业级传感器(Basler相机、MPA201麦克风),传感器对称布置于焊枪两侧,无需对现有焊接机器人做大幅改造,适配工业生产线的升级;

  • 模型轻量化,适合工业现场部署:MCRNet的参数量和计算量与主流深度学习模型相当,且通过重参数化进一步提升了推理速度,无需高端算力支持,可部署于工业现场的边缘计算设备;

  • 适配工业复杂坡口场景:模型针对60°-120°可变坡口设计,覆盖了工业中常见的坡口角度范围,可直接应用于复杂坡口CMT焊接生产线,减少焊接缺陷,降低生产成本。

四、研究启发与缺口挖掘

本模块从可复用技术与思路研究缺口与切入思路两个维度展开,可复用内容明确标注适配场景与注意事项,研究缺口优先基于论文原文的未来展望,未提及部分基于研究边界合理推导,每个缺口配套可执行的切入思路,服务于课题研究的方向选择。

(一)可复用技术与思路

论文中多个方法、模块和设计逻辑可直接迁移到工业过程监测、多模态信号处理、轻量化深度学习模型设计等相关研究方向,具体可复用内容、适配场景、复用方式与注意事项如下:

  1. 带相似性损失的多模态融合方法

    • 适配场景:工业过程中多模态时序信号的回归/预测任务(如切削、铸造、3D打印的状态监测);

    • 复用方式:将不同模态的特征通过线性层+BN层做维度匹配,利用向量乘法实现特征深度融合,引入基于余弦相似度的相似性损失约束不同模态特征的相似度,替代传统的特征拼接;

    • 注意事项:需根据具体任务调整相似性损失与任务损失的权重,确保两种模态特征的对齐,避免单一损失占比过高导致的模型偏置。

  2. 3Dcov时空特征提取模块

    • 适配场景:连续视觉序列的特征提取任务(如工业视觉监测、动态目标检测、视频分析);

    • 复用方式:将连续N帧图像整合为多通道输入,通过3D卷积提取时空特征,利用相邻帧的特征一致性降低模型复杂度和过拟合风险;

    • 注意事项:N的取值需平衡时序信息提取和计算量(本文N=3),需根据任务的时间分辨率调整,避免N过大导致的计算量激增。

  3. MFS多特征筛选模块(MFE+SE+重参数化)

    • 适配场景:轻量化深度学习模型的特征提取任务(需兼顾精度和推理速度,如工业边缘设备的模型部署);

    • 复用方式:采用多尺度卷积(3×3、1×3、3×1、1×1)+残差连接提取丰富特征,通过SE通道注意力筛选核心特征,推理阶段通过重参数化将多尺度卷积转换为3×3卷积提升推理速度;

    • 注意事项:重参数化仅适用于推理阶段,训练阶段需保留多尺度卷积结构,否则会损失特征提取的丰富性。

  4. 工业过程状态的量化标注方法

    • 适配场景:焊接、切削等工业过程中“无法直接观测的状态量”的量化标注任务;

    • 复用方式:利用3D扫描设备获取过程的物理形态数据,人工标记特征边缘,通过几何计算得到状态量的量化值,作为模型的回归标签;

    • 注意事项:需保证扫描设备的精度,且人工标记需沿工艺方向进行,避免角度偏差导致的标签误差。

  5. 多模态传感器的同步布置与数据对齐方法

    • 适配场景:工业过程多模态信号采集系统的设计;

    • 复用方式:将不同传感器对称布置于工艺执行端两侧,随执行端同步移动,基于工艺的关键时间节点(如起弧、起刀)手动对齐多模态数据,保证时间一致性;

    • 注意事项:需根据传感器的采集频率调整同步策略,避免因采集频率差异导致的数据错位。

(二)研究缺口与切入思路

论文原文在结论部分指出了研究的拓展方向,结合论文的研究边界(如基材、工艺、模态数量、工业场景验证等),可挖掘出5个核心研究缺口,每个缺口配套极简可执行的研究切入思路,为课题研究提供方向:

  1. 研究缺口:模型仅验证了SS304不锈钢的CMT焊接场景,未适配其他基材(如铝合金、碳钢)和焊接工艺(如GMAW、TIG);
    切入思路:采集铝合金、碳钢等基材在GMAW、TIG工艺下的多模态数据,对MCRNet进行迁移学习和微调,验证模型的跨基材、跨工艺泛化性。

  2. 研究缺口:仅融合了视觉和声学两种模态,未引入温度、应力、光谱等更丰富的焊接过程信号,模型对复杂焊接环境的鲁棒性有待提升;
    切入思路:搭建多传感器融合平台(加入红外温度传感器、光谱传感器、应力传感器),优化MCRNet的融合模块,引入模态注意力机制,自适应分配不同模态的权重,提升模型对复杂环境的鲁棒性。

  3. 研究缺口:模型为“离线训练+在线预测”的开环模式,未实现焊接参数的实时闭环控制,未真正落地工业在线调控;
    切入思路:将MCRNet的熔透预测结果与焊接机器人的控制系统对接,建立“背面熔宽预测值-焊接参数(电流、电压、焊接速度)”的关联模型,实现熔透状态的实时闭环调控。

  4. 研究缺口:数据集仅来自实验室可控环境,未验证工业现场复杂干扰(如粉尘、振动、强光)下的模型性能;
    切入思路:在工业现场采集含粉尘、振动、强光干扰的多模态数据,加入针对性的数据增强策略(如模拟粉尘的图像畸变、模拟振动的信号抖动),对模型进行鲁棒性训练,提升模型的工业适用性。

  5. 研究缺口:模型的特征融合采用浅层网络处理,未采用更先进的跨模态融合机制(如Transformer),特征融合的深度有待提升;
    切入思路:将Transformer引入MCRNet的融合模块,利用自注意力机制捕捉视觉和声学特征的跨模态关联,进一步提升多模态特征的融合效果,优化预测精度。

五、论文完整逻辑链梳理

本文以复杂坡口CMT焊接在线熔透监测的工业痛点为研究起点,首先指出传统焊后检测的滞后性、机器人焊接的参数固化问题,以及现有熔透监测研究中“单模态/单帧图像的局限性”“音视觉融合仅做分类无法支撑在线控制”“可变坡口研究空白”等核心问题;

随后通过熔透分析,揭示了60°-120°坡口角度下熔池形态(视觉)和焊接声音频谱特征(声学)与熔透状态的内在关联,明确了以背面熔宽作为熔透状态量化指标的合理性,为多模态融合提供了物理依据;

基于此,设计了由视觉和声学模块组成的多模态信号采集平台,构建了包含3Dcov时空特征提取模块、MFS多特征筛选模块和带相似性损失的融合模块的MCRNet,实现视觉-声学多模态连续信号的深度融合与熔透状态的量化回归预测;

接着通过构建27342组多模态数据集,开展消融实验验证了MCRNet各模块的有效性(如MFE模块是模型的核心,重参数化使推理速度提升40%),开展对比实验证明了MCRNet相比ResNet34、DenseNet121等主流深度学习框架的优越性(MSE提升44%),并在3道独立验证焊缝上验证了模型的高精度(MAE 0.2538mm)和实时性(57FPS);

最终得出MCRNet可实现复杂坡口CMT焊接全熔透状态的高精度、实时在线预测,可直接部署于工业智能焊接生产线的结论,同时指出可通过引入更多模态信号、实现焊接参数闭环控制、适配更多基材与工艺,进一步提升模型的工业应用价值,形成了“提出问题→分析问题→设计方案→实验验证→得出结论→展望拓展”的完整科研逻辑链。

【个人思考衔接】

▢ 对论文方法的疑问与验证思路:

▢ 可直接复用在自身课题的内容:

▢ 拟拓展的研究方向:

评论交流

文章目录