论文解读 | CMT焊接全熔透多模态连续信号融合的在线熔透预测研究

本文基于Gao等2024年发表于《Journal of Manufacturing Processes》的研究论文，从科研逻辑出发拆解其研究背景、技术方法、学术创新与研究缺口，为焊接智能监测领域的课题研究提供可复用思路与切入方向。

【论文基础索引】

论文标题：Online penetration prediction based on multimodal continuous signals fusion of CMT for full penetration
核心作者：第一作者Peng Gao；通讯作者Jun Lu、Zhuang Zhao（南京理工大学，江苏省光谱成像与智能感知重点实验室）
发表期刊/会议：Journal of Manufacturing Processes
发表时间：2024年
卷期/页码：115 (2024) 431–440
DOI：10.1016/j.jmapro.2024.02.033
核心标签：Audio-visual signal、Penetration state、Deep learning、Multimodal fusion、CMT welding（视听信号、熔透状态、深度学习、多模态融合、冷金属过渡焊接）

一、论文核心背景与问题

本模块严格基于论文引言与熔透分析部分，梳理研究的逻辑起点、现有研究局限、核心解决思路与量化成果，完整呈现研究的“问题-解决方案-效果”闭环。

（一）行业/学术核心痛点

复杂对接焊的在线熔透监测受钢板坡口不稳定性、焊接热变形影响，实现实时精准监测难度大；熔透质量从焊接钢板正面无法观测，传统焊后检测需剖开展开或从背面分析，过程滞后且破坏性大。
机器人CMT焊接虽替代人工实现参数稳定，但需预设焊接参数与固定路径，无法基于熔透状态实时调整，焊接缺陷易造成高额且不可逆的生产损失。
坡口角度变化对熔透状态的影响远大于钢板形状变化，但现有对接焊视觉监测研究多聚焦钢板形状，对可变坡口的熔透监测研究存在空白。
焊接是连续物理过程，熔池的热扩散与凝固存在时间累积效应，单帧图像无法反映真实熔透状态，现有研究未充分利用序列信号的时序信息。

（二）现有主流研究的进展与关键局限性

论文原文明确指出现有熔透监测研究的3个核心局限性，均为领域内未解决的关键问题：

单模态/浅层特征提取：现有研究采用声学、电流、温度等单一传感器信号，或仅结合两种传感器做浅层特征分析，未挖掘数据的深层特征，难以处理复杂坡口的熔透监测任务。
单帧视觉信号的局限性：视觉传感研究多基于单帧熔池图像，忽略了焊接的连续性，单帧图像无法反映熔池热扩散与凝固的时间累积效应，无法精准表征实时熔透状态。
熔透监测仅做分类，无法支撑在线控制：现有少数音视觉融合的熔透研究仅实现“未熔透/全熔透/过熔透”的状态分类，且数据采集速度不足；而工业在线控制需要熔透状态的量化回归值，而非仅定性分类，现有方法无法满足工业实际需求。

（三）论文提出的核心解决思路

针对上述局限性，论文提出融合深度学习、计算机视觉与声音信号处理的混合方法，以SS304不锈钢复杂坡口CMT焊接为研究对象，核心思路如下：

利用熔池视频序列（视觉） 与焊接声音信号（声学） 的互补特征刻画熔池状态，解决单模态信息不足的问题；
构建多模态连续信号特征增强网络（MCRNet） ，结合3D卷积、多尺度卷积与通道注意力，在有限网络深度内提取时空特征与深层特征，平衡预测精度与推理速度；
设计带相似性损失的新型多模态融合方法，约束视觉与声学特征的相似度，提升融合效果；
以焊接背面熔宽为熔透状态的量化指标，将熔透监测从“分类任务”升级为“回归任务”，为工业在线控制提供量化依据。

（四）论文最终实现的核心效果与贡献

论文通过实验验证了方法的有效性，核心量化成果与贡献如下：

多模态输入相比单模态信号输入，熔透预测效果至少提升18% ；
MCRNet的均方误差（MSE）相比主流深度学习框架（ResNet34、DenseNet121等）提升44% ；
多模态输入下模型推理速度达57帧/秒（FPS） ，满足工业在线监测的实时性要求；
验证集上模型预测背面熔宽的平均绝对误差（MAE）为0.2538mm，MSE为0.1190mm，MSE仅为典型背面熔宽（6mm）的2%，实现高精度量化预测；
首次将多模态连续信号融合方法应用于60°-120°可变坡口CMT焊接，填补了坡口角度变化下熔透量化监测的研究空白。

二、核心技术方法拆解

本模块按实验平台与设计→核心实施步骤→关键技术细节的科研逻辑重构论文方法论，重点讲清“为什么这么做、怎么做、能得到什么结果”。

（一）实验平台与设计

论文的实验平台设计围绕多模态信号的精准采集、变量的科学控制、数据集的严谨构建展开，与同领域研究相比，其设计的核心亮点在于“多模态传感器的同步布置”与“熔透状态的量化标注”，具体如下：

硬件架构设计
- 采用视觉+声学双模块对称布置于焊枪两侧，传感器随机械臂同步移动，保证信号采集与焊接过程的同步性，且互不干扰；
- 视觉模块：Basler 1920-155um工业相机+850高通滤光片，用于采集熔池图像；声学模块：MPA201麦克风+ADLink USB2405数据采集卡，用于采集焊接声音信号；
- 定制夹具固定钢板，减少焊接热变形导致的钢板弯曲，保证实验的稳定性。
实验变量与材料控制
- 基材为SS304奥氏体不锈钢，焊丝为Cr19Ni9奥氏体不锈钢，焊接电源为Fronius CMT advanced 4000R，贴合工业CMT焊接实际；
- 坡口角度变化范围为60°-120°
  ，覆盖未熔透（60°）、全熔透、过熔透（120°）三种状态，模拟工业复杂坡口焊接场景。
数据集构建与标注
- 采集20道全熔透焊缝的视频、声音、背面熔宽数据，共27342组；剔除每道焊缝首尾1cm数据（消除起弧/收弧的不稳定性影响）；
- 采用分层抽样策略，90%数据为训练集，10%为测试集，另取3道独立焊缝为验证集，保证训练/测试/验证集无重叠，提升模型泛化性验证的严谨性；
- 基于起弧/收弧时间手动对齐熔池图像、声谱图与背面熔宽数据，保证多模态数据的时间一致性；
- 用Wiiboox Reeyee 5 M 3D扫描仪获取焊接背面3D点云，人工标记焊缝边缘，沿焊缝方向计算边界距离得到背面熔宽，作为熔透状态的量化回归标签，解决熔透状态无法直接量化的问题。
验证方案设计
- 消融实验：验证MCRNet中3Dcov模块、MFE模块、SE模块及相似性损失的单独有效性，明确各模块对模型性能的贡献；
- 对比实验：将MCRNet与主流深度学习模型（ResNet34、DenseNet121、Swin-T、ConvNeXt-T、CNN-LSTM）对比，评价指标包括MSE、推理时间、参数量（Params）、浮点运算量（FLOPs），全面验证模型的精度与实时性。

（二）核心实施步骤

论文的技术方法形成了 “信号采集→数据预处理→特征提取→多模态融合→模型训练→在线预测” 的完整技术闭环，步骤化拆解如下：

多模态连续信号采集
- 视觉端：以70Hz帧率采集500×700像素的熔池图像，帧率与CMT焊接周期匹配，保证时序信息的完整性；
- 声学端：以51200Hz采样率采集焊接声音信号，采样率大于人耳可听频率（20-20000Hz）的2倍，满足奈奎斯特采样定理，保证声音信号无失真还原。
多模态数据预处理
- 视觉端：对原始熔池图像做随机裁剪（横纵0-50像素）+反向补像素（解决设备抖动问题），再进行锐化、随机亮度/色相饱和度调整（±10%）（解决焊接环境光强变化问题），最终将连续3帧图像整合为3×256×256的视频序列输入；
- 声学端：对原始声音信号做短时傅里叶变换（STFT） ，生成64×64的声谱图，最终处理为1×128×128的声谱图输入，将时序声音信号转换为时空特征图，适配卷积网络处理。
多模态特征提取
- 视频序列经3Dcov模块提取熔池的时空特征，利用相邻帧的特征一致性降低模型复杂度；
- 视觉特征与声音特征分别经MFS多特征筛选模块（MFE+SE），实现多尺度特征提取与核心特征的通道注意力筛选，挖掘数据的深层特征。
多模态特征融合
- 通过线性层与批归一化（BN）层将视觉、声学特征转换为维度匹配的特征图；
- 采用向量乘法将1D特征转换为2D特征，通过浅层网络处理融合特征（替代直接拼接），并引入相似性损失约束视觉与声学特征的相似度，实现特征的深度融合。
模型训练与优化
- 基于PyTorch框架，在NVIDIA TITAN RTX GPU上训练，批大小32，训练轮数100；
- 采用AdamW优化器（动量0.99，权重衰减0.01）、余弦退火学习率策略，总损失为相似性损失（λ₁=10）+MSE损失（λ₂=1） ，平衡特征融合效果与回归预测精度。
在线熔透预测与验证
- 将训练好的MCRNet应用于3道验证焊缝的在线多模态数据，以背面熔宽为预测目标，验证模型的在线预测精度；
- 测试模型的推理速度，验证其工业在线监测的实时性；同时开展消融与对比实验，验证模型各模块的有效性与整体优越性。

（三）关键技术细节

本部分拆解论文原文明确披露的、可直接复用的技术细节，包括设备参数、算法公式、模型结构、超参数等：

核心设备与采样参数
- 相机：帧率70Hz，原始分辨率500×700，处理后输入分辨率3×256×256；
- 麦克风：采样率51200Hz，STFT窗长128，步长32；
- 3D扫描仪：Wiiboox Reeyee 5 M，用于背面熔宽的量化标注。
核心数据处理算法与公式
- 短时傅里叶变换（STFT）：$STFT(f, k)=\sum_{n=0}^{N-1} s(n)\left[W(n-k) e^{-j 2 \pi f n / N}\right]$，将时序声音信号转换为声谱图；
- 余弦相似度：$similarity =cos (\theta)=\frac{V \cdot S}{| V| | S| }=\frac{\sum{i=1}^{n} V{i} × S{i}}{\sqrt{\sum{i=1}^{n}\left(V{i}\right)^{2}} × \sqrt{\sum{i=1}^{n}\left(S_{i}\right)^{2}}}$，用于计算视觉与声学特征的相似度；
- 相似性损失：$L_{V & S}=1-\frac{cos ^{-1}( similarity )}{\pi}$，约束两种模态特征的相似度；
- 总损失函数：$L=\lambda{1} L{V & S}+\lambda{2} L{MSE}$，其中$\lambda_1=10$，$\lambda_2=1$，$L_{MSE}$为回归任务的均方误差损失。
MCRNet核心模块设计（可直接复用）
- 3Dcov模块：将连续3帧熔池图像整合为多通道输入，通过3D卷积提取时空特征，利用相邻帧特征一致性降低过拟合风险，是处理连续视觉序列的核心模块；
- MFE多特征提取块：含5个分支（3×3、1×3、3×1、1×1卷积+残差连接），公式为$y{i}=F{3 × 3}\left(x{i},\left{W{i}\right}\right)+F{1 × 3}\left(x{i},\left{W{i}\right}\right)+F{3 × 1}\left(x{i},\left{W{i}\right}\right)+F{1 × 1}\left(x{i},\left{W{i}\right}\right)+x{i}$，推理阶段通过重参数化将多尺度卷积转换为3×3卷积，提升推理速度；
- SE通道注意力块：由全局池化层+全连接层组成，为各特征通道分配权重，实现核心特征的筛选，提升模型特征提取的针对性；
- 融合模块：线性层+BN层做维度匹配，向量乘法实现特征深度融合，浅层网络处理融合特征，替代传统的特征拼接，解决多模态特征融合的“信息冗余”问题。
模型训练超参数
- 框架：PyTorch；训练硬件：NVIDIA TITAN RTX GPU；
- 批大小：32；训练轮数：100；
- 优化器：AdamW，动量0.99，权重衰减0.01；
- 学习率策略：余弦退火（相比传统梯度下降，提升模型收敛性）。
核心性能优化细节
- MFE模块的重参数化机制使MCRNet的推理时间提升40% ，是模型实现实时性的关键；
- 采用“有限网络深度+多尺度特征提取”的设计，在降低模型参数量的同时，保证特征提取的丰富性，平衡了精度与计算量。

三、学术创新与研究价值

本模块从差异化学术创新和研究价值两个维度展开，创新点严格对应现有研究的局限性，研究价值结合论文量化成果，从学术理论与工业落地双角度分析。

（一）差异化学术创新

论文的创新点均为针对现有研究局限性的定向突破，且首次在CMT焊接熔透监测领域实现了多项技术尝试，核心差异化创新如下：

创新1：带相似性损失的视觉-声学多模态连续信号融合方法
针对“单模态/浅层特征无法处理复杂任务”的局限性，首次将熔池视频序列（连续3帧） 与焊接声音信号（声谱图） 进行深度融合，利用两种模态的互补特征刻画熔池状态；设计基于余弦相似度的相似性损失，约束视觉与声学特征的相似度，实现特征的深度对齐，多模态输入相比单模态效果至少提升18%，解决了单模态信息不足的核心问题。
创新2：3Dcov时空特征提取模块，挖掘焊接过程的时序信息
针对“单帧图像无法反映连续焊接过程”的局限性，设计3Dcov模块，将连续3帧熔池图像作为输入，通过3D卷积提取熔池的时空特征，利用相邻帧的特征一致性降低模型复杂度和过拟合风险；相比单帧图像输入的主流模型，熔透预测精度显著提升，首次将焊接的时间累积效应纳入熔透监测模型，解决了时序信息未被利用的问题。
创新3：MCRNet网络，实现熔透状态的高精度量化回归
针对“现有音视觉融合仅做分类，无法支撑在线控制”的局限性，构建MCRNet多模态特征增强网络，以背面熔宽为量化指标，将熔透监测从“定性分类”升级为“定量回归”；通过多尺度卷积、通道注意力和重参数化，在有限网络深度内提取丰富特征，实现了“高精度+高实时性”的平衡（MSE 0.1190mm，推理速度57FPS），解决了现有方法无法满足工业在线控制的核心需求。
创新4：填补可变坡口CMT焊接熔透量化监测的研究空白
针对“现有研究忽视坡口角度变化对熔透的影响”的问题，首次将多模态融合方法应用于60°-120°可变坡口CMT焊接，揭示了坡口角度变化下熔池形态（视觉）和声学低频信号强度与熔透状态的内在关联，为复杂坡口焊接的熔透监测提供了新的研究思路。
创新5：轻量化特征提取框架（MFS模块），适配工业轻量化部署
设计MFS多特征筛选模块（MFE+SE+重参数化），在训练阶段通过多尺度卷积提取丰富特征，推理阶段通过重参数化简化模型，既保证了特征提取的有效性，又提升了推理速度；该模块使MCRNet的参数量与主流模型相当，无需高端算力支持，解决了深度学习模型在工业现场的轻量化部署问题。

（二）研究价值

论文的研究价值体现在学术理论补全和实际落地潜力两个维度，均以论文原文的量化成果和设计思路为支撑，贴合焊接智能监测领域的研究与工业需求：

1. 学术理论补全

提出了焊接领域多模态连续信号处理的深度学习框架（MCRNet） ，融合3D卷积、多尺度卷积、通道注意力和相似性损失，为工业过程中多模态时序信号的分析提供了新的模型设计思路；
建立了CMT焊接熔池视觉-声学特征与背面熔宽的量化关联模型，首次将背面熔宽作为全熔透状态的量化指标，为熔透监测从“分类”向“回归”的转变提供了理论和实验支撑；
揭示了坡口角度变化下焊接声学信号的变化规律：坡口角度从60°增至120°时，声学低频信号强度逐渐降低，丰富了焊接过程声学监测的理论基础；
验证了3D卷积在焊接视觉时序信号处理中的有效性，为连续工业视觉监测任务提供了新的特征提取方法。

2. 实际落地潜力

实时性与精度满足工业需求：模型推理速度57FPS，MAE 0.2538mm，MSE 0.1190mm，可实时、精准预测熔透状态，能提前识别未熔透/过熔透的不利趋势，为焊接参数调整提供时间窗口；
硬件成本可控，易与现有设备集成：实验平台采用工业级传感器（Basler相机、MPA201麦克风），传感器对称布置于焊枪两侧，无需对现有焊接机器人做大幅改造，适配工业生产线的升级；
模型轻量化，适合工业现场部署：MCRNet的参数量和计算量与主流深度学习模型相当，且通过重参数化进一步提升了推理速度，无需高端算力支持，可部署于工业现场的边缘计算设备；
适配工业复杂坡口场景：模型针对60°-120°可变坡口设计，覆盖了工业中常见的坡口角度范围，可直接应用于复杂坡口CMT焊接生产线，减少焊接缺陷，降低生产成本。

四、研究启发与缺口挖掘

本模块从可复用技术与思路和研究缺口与切入思路两个维度展开，可复用内容明确标注适配场景与注意事项，研究缺口优先基于论文原文的未来展望，未提及部分基于研究边界合理推导，每个缺口配套可执行的切入思路，服务于课题研究的方向选择。

（一）可复用技术与思路

论文中多个方法、模块和设计逻辑可直接迁移到工业过程监测、多模态信号处理、轻量化深度学习模型设计等相关研究方向，具体可复用内容、适配场景、复用方式与注意事项如下：

带相似性损失的多模态融合方法
- 适配场景：工业过程中多模态时序信号的回归/预测任务（如切削、铸造、3D打印的状态监测）；
- 复用方式：将不同模态的特征通过线性层+BN层做维度匹配，利用向量乘法实现特征深度融合，引入基于余弦相似度的相似性损失约束不同模态特征的相似度，替代传统的特征拼接；
- 注意事项：需根据具体任务调整相似性损失与任务损失的权重，确保两种模态特征的对齐，避免单一损失占比过高导致的模型偏置。
3Dcov时空特征提取模块
- 适配场景：连续视觉序列的特征提取任务（如工业视觉监测、动态目标检测、视频分析）；
- 复用方式：将连续N帧图像整合为多通道输入，通过3D卷积提取时空特征，利用相邻帧的特征一致性降低模型复杂度和过拟合风险；
- 注意事项：N的取值需平衡时序信息提取和计算量（本文N=3），需根据任务的时间分辨率调整，避免N过大导致的计算量激增。
MFS多特征筛选模块（MFE+SE+重参数化）
- 适配场景：轻量化深度学习模型的特征提取任务（需兼顾精度和推理速度，如工业边缘设备的模型部署）；
- 复用方式：采用多尺度卷积（3×3、1×3、3×1、1×1）+残差连接提取丰富特征，通过SE通道注意力筛选核心特征，推理阶段通过重参数化将多尺度卷积转换为3×3卷积提升推理速度；
- 注意事项：重参数化仅适用于推理阶段，训练阶段需保留多尺度卷积结构，否则会损失特征提取的丰富性。
工业过程状态的量化标注方法
- 适配场景：焊接、切削等工业过程中“无法直接观测的状态量”的量化标注任务；
- 复用方式：利用3D扫描设备获取过程的物理形态数据，人工标记特征边缘，通过几何计算得到状态量的量化值，作为模型的回归标签；
- 注意事项：需保证扫描设备的精度，且人工标记需沿工艺方向进行，避免角度偏差导致的标签误差。
多模态传感器的同步布置与数据对齐方法
- 适配场景：工业过程多模态信号采集系统的设计；
- 复用方式：将不同传感器对称布置于工艺执行端两侧，随执行端同步移动，基于工艺的关键时间节点（如起弧、起刀）手动对齐多模态数据，保证时间一致性；
- 注意事项：需根据传感器的采集频率调整同步策略，避免因采集频率差异导致的数据错位。

（二）研究缺口与切入思路

论文原文在结论部分指出了研究的拓展方向，结合论文的研究边界（如基材、工艺、模态数量、工业场景验证等），可挖掘出5个核心研究缺口，每个缺口配套极简可执行的研究切入思路，为课题研究提供方向：

研究缺口：模型仅验证了SS304不锈钢的CMT焊接场景，未适配其他基材（如铝合金、碳钢）和焊接工艺（如GMAW、TIG）；
切入思路：采集铝合金、碳钢等基材在GMAW、TIG工艺下的多模态数据，对MCRNet进行迁移学习和微调，验证模型的跨基材、跨工艺泛化性。
研究缺口：仅融合了视觉和声学两种模态，未引入温度、应力、光谱等更丰富的焊接过程信号，模型对复杂焊接环境的鲁棒性有待提升；
切入思路：搭建多传感器融合平台（加入红外温度传感器、光谱传感器、应力传感器），优化MCRNet的融合模块，引入模态注意力机制，自适应分配不同模态的权重，提升模型对复杂环境的鲁棒性。
研究缺口：模型为“离线训练+在线预测”的开环模式，未实现焊接参数的实时闭环控制，未真正落地工业在线调控；
切入思路：将MCRNet的熔透预测结果与焊接机器人的控制系统对接，建立“背面熔宽预测值-焊接参数（电流、电压、焊接速度）”的关联模型，实现熔透状态的实时闭环调控。
研究缺口：数据集仅来自实验室可控环境，未验证工业现场复杂干扰（如粉尘、振动、强光）下的模型性能；
切入思路：在工业现场采集含粉尘、振动、强光干扰的多模态数据，加入针对性的数据增强策略（如模拟粉尘的图像畸变、模拟振动的信号抖动），对模型进行鲁棒性训练，提升模型的工业适用性。
研究缺口：模型的特征融合采用浅层网络处理，未采用更先进的跨模态融合机制（如Transformer），特征融合的深度有待提升；
切入思路：将Transformer引入MCRNet的融合模块，利用自注意力机制捕捉视觉和声学特征的跨模态关联，进一步提升多模态特征的融合效果，优化预测精度。

五、论文完整逻辑链梳理

本文以复杂坡口CMT焊接在线熔透监测的工业痛点为研究起点，首先指出传统焊后检测的滞后性、机器人焊接的参数固化问题，以及现有熔透监测研究中“单模态/单帧图像的局限性”“音视觉融合仅做分类无法支撑在线控制”“可变坡口研究空白”等核心问题；

随后通过熔透分析，揭示了60°-120°坡口角度下熔池形态（视觉）和焊接声音频谱特征（声学）与熔透状态的内在关联，明确了以背面熔宽作为熔透状态量化指标的合理性，为多模态融合提供了物理依据；

基于此，设计了由视觉和声学模块组成的多模态信号采集平台，构建了包含3Dcov时空特征提取模块、MFS多特征筛选模块和带相似性损失的融合模块的MCRNet，实现视觉-声学多模态连续信号的深度融合与熔透状态的量化回归预测；

接着通过构建27342组多模态数据集，开展消融实验验证了MCRNet各模块的有效性（如MFE模块是模型的核心，重参数化使推理速度提升40%），开展对比实验证明了MCRNet相比ResNet34、DenseNet121等主流深度学习框架的优越性（MSE提升44%），并在3道独立验证焊缝上验证了模型的高精度（MAE 0.2538mm）和实时性（57FPS）；

最终得出MCRNet可实现复杂坡口CMT焊接全熔透状态的高精度、实时在线预测，可直接部署于工业智能焊接生产线的结论，同时指出可通过引入更多模态信号、实现焊接参数闭环控制、适配更多基材与工艺，进一步提升模型的工业应用价值，形成了“提出问题→分析问题→设计方案→实验验证→得出结论→展望拓展”的完整科研逻辑链。

【个人思考衔接】

▢ 对论文方法的疑问与验证思路：

▢ 可直接复用在自身课题的内容：

▢ 拟拓展的研究方向：