论文解读｜多频谱通道注意力机制赋能脉冲GTAW焊接状态预测

本文基于Xu等2025年发表的《A multi-spectral channel attention mechanism for prediction of welding state during pulsed GTAW》论文，从科研逻辑出发拆解研究背景、技术方法、学术创新与研究缺口，为智能焊接领域的课题研究提供可复用的思路与方向。

【论文基础索引】

论文标题：A multi-spectral channel attention mechanism for prediction of welding state during pulsed GTAW（基于多频谱通道注意力机制的脉冲GTAW焊接状态预测）

核心作者：第一作者Yuqing Xu；通讯作者Runquan Xiao、Shanben Chen（上海交通大学材料科学与工程学院智能机器人焊接技术实验室，中国上海200240）

发表期刊/会议：Journal of Manufacturing Processes

发表时间：2025年

卷期/页码：134卷，1021–1033页

DOI：https://doi.org/10.1016/j.jmapro.2025.01.023

核心标签：Welding state prediction；Multi-spectral channel attention mechanism；Multimodal fusion；Pulsed GTAW；Aluminum alloy welding（焊接状态预测；多频谱通道注意力机制；多模态融合；脉冲GTAW；铝合金焊接）

一、论文核心背景与问题

本部分梳理论文的研究逻辑起点，明确行业/学术痛点-现有研究局限-核心解决思路-核心效果贡献的完整逻辑，所有内容均来自论文引言与摘要部分。

1. 行业/学术核心痛点

智能焊接是航空航天、轨道交通、造船等高端制造领域的核心技术，而铝合金脉冲GTAW的焊接状态实时预测与质量控制是行业核心难点：

铝合金因高导电性、热敏感性，焊接过程易出现未熔透、过熔透、烧穿、错边等缺陷；
实际焊接环境存在弧光干扰（熔池图像边缘模糊）、环境噪声（电弧声信号失真）、焊接状态特征相似、数据集规模有限且分布不平衡等问题，导致多模态融合方法的预测精度受严重影响；
单传感器数据无法覆盖动态焊接过程的全面信息，难以实现可靠的焊接状态识别。

2. 现有主流研究的进展与关键局限性

论文针对智能焊接状态预测的现有深度学习方法展开分析，明确3个核心局限性：

CNN方法：依赖局部卷积操作，擅长捕捉高频局部细节，但无法有效捕捉长距离依赖和低频全局特征，全局建模能力不足；
ViT方法：擅长捕捉低频全局信息，但其分块处理方式易忽略焊接状态识别所需的高频局部细节，与CNN形成互补性缺陷；
传统多模态融合方法（如MCAN）：存在特征冗余问题，无法区分通道特征的重要性，跨模态特征交互不足，且未针对焊接场景的噪声干扰做针对性优化，预测精度受限。

3. 论文提出的核心解决思路

针对上述局限性，论文提出基于多频谱通道注意力机制的多模态融合网络（MFCA-Net） ，以熔池图像（视觉模态）和电弧声谱图（声学模态）为双输入，构建“特征提取-特征融合-跨模态整合”的三级框架：

引入并行特征映射策略，结合CNN和Transformer编码器，同时提取各模态的高频局部和低频全局特征；
设计多频谱通道注意力机制（MSCAM） ，对各模态的高低频特征进行通道级加权，突出关键特征并降低冗余；
构建双协同注意力的多模态融合模块，实现视觉与声学特征的深度交互与整合，最终完成焊接状态的精准分类。

4. 论文最终实现的核心效果与贡献

论文通过自研实验与公共数据集验证，实现了两大核心量化效果，并提出3个核心学术贡献：

量化效果：在铝合金脉冲GTAW实验中，对5种典型焊接状态（未熔透、正常熔透、过熔透、错边、烧穿）的识别准确率达98.8% ，单样本处理时间仅16ms；在公共焊接数据集上的缺陷检测准确率达96.1% ，显著优于现有SOTA方法；
核心贡献：①提出并行特征映射方法，实现各模态高低频特征的全面提取；②设计基于MSCAM的特征融合模块，解决并行特征的冗余问题；③验证了MFCA-Net在焊接领域的鲁棒性与迁移性，为智能焊接的多模态融合提供了新框架。

二、核心技术方法拆解

本部分按实验平台与设计→核心实施步骤→关键技术细节的逻辑，深度拆解论文的可复现技术方法，明确“为什么做、怎么做、能得到什么”。

（一）实验平台与设计

论文的实验设计围绕 “控制变量、标准化标注、多维度验证” 展开，与同领域研究相比，突出 “双模态同步采集、数据集平衡增强、标准化焊接状态定义” 的特点，具体设计如下：

硬件架构设计逻辑 搭建一体化GTAW实验平台，包含FANUC六轴机器人及控制柜、焊接电源、送丝机、多源信息采集系统、PLC、工业计算机，保护气为99.99%氩气；CCD相机（视觉） 和麦克风（声学） 均距焊枪350mm，与工件水平夹角分别为45°、75°，实现熔池图像和电弧声信号的同步采集，解决多模态数据不同步的核心问题。
变量控制与实验分组 实验采用3mm厚LF6铝合金板、1.2mm ER5183焊丝，通过唯一变量法调整焊接电流（基值/峰值）和送丝速度，构建5种典型焊接状态；将实验分为实验1（训练/验证集，调整参数构建多组状态） 和实验2（测试集，固定参数验证泛化能力） ，保证实验的可重复性与结果的可靠性。
数据集构建与平衡策略
- 公共数据集：采用电阻点焊的熔核热成像/数字图像，原数据存在严重不平衡（443张“好”、21张“坏”、31张“爆炸”），通过添加高斯噪声（方差0.0005）、椒盐噪声（方差0.01）、乘性噪声（方差0.001） 对少数类样本增强，扩至1401张，实现样本平衡；
- 自研数据集：实验1采集5种焊接状态各2000对“熔池图像-电弧声谱图”，共10000对，按8:2划分训练/验证集；实验2构建测试集共1710对，包含未熔透393、正常熔透418、过熔透367、错边417、烧穿115样本，覆盖不同焊接状态的样本分布。
标签标注的标准化规则 依据ISO 10042:2018对5种焊接状态做量化定义（如正常熔透的背面余高0.5~2.5mm），错边状态结合装配因素综合判定（余高>0.9mm），解决了焊接状态标注的主观性问题，保证数据集的标注一致性。
多维度验证方案 设计5类验证实验，实现模型的全面验证：①公共数据集验证迁移性；②自研测试集验证精度/召回/F1-score；③噪声鲁棒性测试（高斯/椒盐噪声）验证环境适应性；④消融实验验证各模块有效性；⑤与经典模型对比验证SOTA性能，避免单一验证的片面性。
基于四项评估指标，MSCAM 与 SENet 和 ECANet 进行比较
不同噪声类型下的准确性与噪声水平：（a）点 A 噪声情况的示意图;（b）B 点噪声情况的示意图
不同模型分类性能的混淆矩阵：（a） AlexNet;（b） VGG16;（c） ResNet18;（d） ViT;（e） Swin-Transformer;（f） MFCA-Net

（二）核心实施步骤

论文的方法论可转化为7个步骤的技术闭环，每一步明确解决目标与上下游逻辑关联：

步骤1：多模态原始数据采集
解决目标：获取焊接过程的有效原始信息；
操作：同步采集铝合金脉冲GTAW的熔池图像（视觉）、电弧声信号（声学），公共数据集直接获取熔核热成像/数字图像；
上下游：为后续数据预处理提供基础，是特征提取的前提。

步骤2：原始数据预处理与增强
解决目标：统一数据格式、解决样本不平衡、提升模型泛化能力；
操作：①熔池图像做随机旋转、水平/垂直翻转增强，电弧声信号经STFT转化为时间频率谱图（帧长1600、窗宽64）；②公共数据集做噪声增强，所有图像/谱图统一resize至224×224；
上下游：将原始数据转化为模型可输入的标准化格式，衔接特征提取模块。

步骤3：并行特征提取
解决目标：解决单一特征提取方法的信息缺失问题；
操作：将预处理后的视觉/声学数据输入并行特征提取模块，多层CNN提取高频局部特征（$X{VH}/X{AH}$），Transformer编码器提取低频全局特征（$X{VL}/X{AL}$）；
上下游：完成各模态特征的全面表征，为高低频特征融合提供基础。

步骤4：基于MSCAM的高低频特征融合
解决目标：解决并行特征映射导致的特征冗余问题；
操作：对各模态的高低频特征进行拼接，通过MSCAM做通道级注意力加权，结合GAP（全局平均池化） 和全连接层，得到优化后的单模态特征（$X_V/X_A$）；
上下游：突出关键特征、抑制噪声，优化单模态特征质量，衔接多模态融合模块。

步骤5：基于协同注意力的多模态融合
解决目标：解决单模态信息不足、跨模态特征交互不足的问题；
操作：将优化后的视觉/声学特征输入双协同注意力模块，通过MSA（多头自注意力） 和FFN（前馈网络） 实现跨模态特征的深度交互，得到融合后的多模态特征（$X_C^{(1)}$）；
上下游：整合双模态的互补信息，形成焊接状态的综合特征表征，为分类预测提供核心特征。

步骤6：模型训练与多维度验证
解决目标：验证模型的有效性、鲁棒性与迁移性；
操作：基于PyTorch框架在RTX3090 GPU上训练MFCA-Net，采用Adam优化器、交叉熵损失函数，完成公共数据集、自研测试集、噪声鲁棒性、消融实验、对比实验的多维度验证；
上下游：优化模型超参数，确认模型性能，为实际预测提供可靠模型。

步骤7：焊接状态精准预测
解决目标：完成核心研究任务——焊接状态分类；
操作：将融合后的多模态特征输入分类层，实现对5种典型焊接状态的识别与预测；
上下游：形成技术闭环，将模型结果转化为焊接质量控制的有效依据。

（三）关键技术细节

本部分拆解论文原文明确披露、可直接复用的技术细节，包括设备参数、数据处理算法、特征提取方法、模型超参数等，是课题研究可直接借鉴的核心内容：

传感器/采集设备核心参数
- 熔池图像：XIRIS相机，采集帧率58帧/秒；
- 电弧声信号：麦克风与焊枪水平夹角75°，距焊枪350mm；
- 视觉采集：CCD相机与焊枪水平夹角45°，距焊枪350mm；
- 焊接机器人：FANUC六轴机器人，保护气为99.99%氩气。
数据处理核心算法与开源工具
- 电弧声信号转化：短时傅里叶变换（STFT） ，帧长1600（2倍周期）、窗宽64（平衡分辨率与计算效率）；
- 数据增强算法：随机旋转/翻转（图像）、高斯/椒盐/乘性噪声（不平衡数据集）；
- 特征可视化：t-SNE算法（特征分布）、Grad-CAM方法（注意力激活图）；
  不同提取器的特征可视化：（a）高频特征提取分支;（b）低频特征提取分支;（c）并行特征提取器
  使用 Grad-CAM 方法生成的 MSCAM 激活图
- 模型开发框架：PyTorch，训练硬件为RTX3090 GPU（24GB显存）。
特征提取方法与机理支撑
- 高频局部特征（CNN分支） ：5层3×3卷积核（步长1，通道数依次64/128/256/512/256）+ReLU激活函数，利用卷积的局部感受野捕捉熔池图像/声谱图的细节特征；
- 低频全局特征（Transformer分支） ：输入分块后添加位置编码，经L层MSA+Layer Normalization+MLP+残差连接，利用自注意力捕捉长距离依赖，去除class token后重塑得到低频特征，实现全局建模。

模型超参数与选型的科学依据 超参数选型均针对焊接数据集的规模与特征设计，具体如下：

超参数	取值	选型依据
优化器	Adam	适合小批量数据集的梯度下降
学习率	5e-7	避免模型训练过拟合
损失函数	交叉熵	适配多分类任务（5种焊接状态）
批次大小（Batch Size）	16（自研）/8（公共）	匹配数据集规模，平衡训练效率与精度
训练轮数（Epoch）	50（自研）/100（公共）	保证模型收敛，避免欠拟合/过拟合
输入数据格式	[batch,3,224,224]	统一视觉/声学数据维度，适配CNN/Transformer输入

MSCAM核心计算细节 多频谱通道注意力机制是论文的核心创新，其核心计算逻辑为：
$$
SCAM =sigmoid\left(f_{c}\left(cat\left(2 DDCT^{u_{i}, v_{i}}\left(X^{i}\right)\right)\right)\right)$$ 通过**2D DCT（二维离散余弦变换）**提取多频率分量，对通道特征进行分段加权，自动识别并突出关键特征，最终结合GAP和全连接层完成特征优化，相比传统注意力机制（SENet/ECANet），有效解决了特征冗余问题。
$$

三、学术创新与研究价值

本部分从差异化学术创新和研究价值两个维度展开，创新点均对应现有研究的局限性，研究价值以论文原文量化结果为支撑，无主观夸大。

（一）差异化学术创新

论文的创新点均针对现有研究的核心局限性提出，且通过定向对比实验验证了创新的有效性，对比对象均为论文原文提及的经典/同类研究，无杜撰内容。4个核心差异化创新点如下：

并行特征映射方法，解决CNN与ViT的单一缺陷
针对CNN无法捕捉全局低频特征、ViT忽略局部高频特征的局限性，将多层CNN与Transformer编码器并行结合，同时提取各模态的高频局部和低频全局特征，实现了焊接特征的全面表征。相比单一特征提取方法（熔池图像83.7%、电弧声85.4%准确率），并行提取后双模态基础准确率提升至91.1%，解决了单方法的信息缺失问题。
MSCAM高低频特征融合模块，解决特征冗余问题
针对传统多模态融合的并行机制存在特征冗余、无法区分通道特征重要性的局限性，提出基于2D DCT的多频谱通道注意力机制，对各模态的高低频特征进行通道级加权。相比传统注意力机制（SENet准确率91.1%、ECANet94.9%），MSCAM实现98.8%的分类准确率，有效突出关键特征、抑制噪声，解决了特征冗余的核心问题。
双协同注意力多模态融合模块，提升跨模态交互效果
针对传统多模态融合模型（MCAN）跨模态特征交互不足的局限性，在MCAN框架基础上改进，设计两个并行的协同注意力（CA）机制，实现视觉和声学特征的深度交互。相比MCAN在公共数据集上92.8%的准确率，MFCA-Net达到96.1%，显著提升了跨模态特征融合的有效性。
视觉-声学双模态融合体系，解决单传感器信息不足问题
针对单一传感器数据无法应对焊接过程复杂干扰的问题，构建以熔池图像（视觉）和电弧声谱图（声学）为核心的双模态融合体系，整合两种模态的互补信息。实验证明，双模态融合的基础准确率远高于单模态，且能有效抵抗弧光、环境噪声的干扰，提升了模型的工业环境适配性。

（二）研究价值

从学术理论补全和实际落地潜力两个维度展开，所有价值均以论文原文的量化结果和设计逻辑为支撑：

1. 学术理论补全

为智能焊接领域提供了新的多模态融合框架，将多频谱通道注意力机制首次引入焊接状态预测，填补了焊接特征融合中通道级特征加权的理论空白；
验证了并行特征映射在工业多模态特征提取中的有效性，为解决CNN和ViT的互补性缺陷提供了可复用的理论思路，可拓展至智能制造的其他状态识别/缺陷检测任务；
完善了焊接状态预测的标准化验证体系，结合公共数据集、自研数据集、噪声鲁棒性、消融实验的验证方法，为同类研究提供了标准化的验证范式；
将ISO 10042:2018量化标准引入焊接状态标注，提升了焊接状态分类研究的标准化程度，解决了标注主观性的行业痛点。

2. 实际落地潜力

满足工业实时性要求：模型在铝合金脉冲GTAW中的识别准确率达98.8%，单样本处理时间仅16ms，可直接应用于铝合金焊接的在线质量检测，无需额外提升工业硬件算力；
适应复杂工业环境：模型在高斯噪声（0.001~0.1）下保持98%以上准确率，对椒盐噪声（0.02以下）仍有高鲁棒性，能有效抵抗工业现场的弧光、环境噪声干扰，具备实际生产的环境适配性；
良好的迁移性与拓展性：在公共焊接数据集上准确率96.1%，证明模型可拓展至电阻点焊等其他焊接工艺；模型网络结构灵活，可新增模态信息分支（如红外、电信号），适配更多焊接场景；
提升工业焊接质量控制水平：相比AlexNet、VGG16、ViT等经典模型，MFCA-Net对5种焊接状态的识别性能更均衡，能有效识别错边、烧穿等易漏检缺陷，降低工业焊接的缺陷率；
低改造成本：模型的双模态采集设备（CCD相机、麦克风）为工业常规设备，无需新增高端检测仪器，工业现场的改造成本低，易推广。

四、研究启发与缺口挖掘

本部分从可复用技术与思路和研究缺口与切入思路两个维度展开，直接服务于课题研究，可复用内容均为论文原文明确披露，研究缺口优先基于论文未来展望，未提及部分基于研究边界合理推导，无杜撰内容。

（一）可复用技术与思路

提炼论文中可直接迁移到其他研究方向/场景的方法、框架、设计逻辑，明确适配场景、复用方式与注意事项，为课题研究提供直接参考：

MSCAM特征融合方法
- 适配场景：智能制造领域的多模态特征融合任务（如缺陷检测、设备状态识别）；
- 复用方式：将2D DCT引入通道注意力机制，对不同模态的高低频特征拼接后进行通道级加权，结合GAP和全连接层优化特征；
- 注意事项：需根据任务特点调整DCT频率分量选取和通道分段数，保证特征加权的针对性。
CNN-Transformer并行特征提取逻辑
- 适配场景：需要同时捕捉局部细节和全局信息的特征提取任务（如工业图像识别、非平稳信号处理）；
- 复用方式：以CNN为高频局部特征分支、Transformer编码器为低频全局特征分支，并行提取特征后进行融合；
- 注意事项：根据数据类型调整CNN卷积层数/核大小和Transformer编码器层数，平衡特征提取精度与计算效率。
工业不平衡数据集的增强策略
- 适配场景：工业领域小样本、不平衡的数据集构建；
- 复用方式：针对少数类样本添加高斯、椒盐、乘性噪声，根据数据特点调整噪声方差，实现样本平衡；
- 注意事项：噪声强度需适度，避免过度增强导致原始特征失真。
焊接领域的多模态数据融合体系
- 适配场景：智能焊接的状态预测/缺陷检测；
- 复用方式：融合视觉（熔池/焊缝图像）和声学（电弧声）双模态数据，通过协同注意力实现跨模态特征交互；
- 注意事项：需保证多模态数据的同步采集，控制传感器安装位置和参数，避免数据不同步导致的融合误差。
深度学习模型的多维度验证方案
- 适配场景：所有深度学习模型的有效性验证；
- 复用方式：结合公共数据集（迁移性）、自研数据集（任务适配性）、噪声鲁棒性（环境适应性）、消融实验（模块有效性）、对比实验（SOTA性能） 进行多维度验证；
- 注意事项：验证指标需覆盖准确率、精度、召回、F1-score，避免单一指标的片面性。

（二）研究缺口与切入思路

研究缺口优先基于论文未来展望部分（开发更优计算效率的网络框架、探索优化融合策略、实现实时闭环控制），未提及部分基于论文研究边界合理推导，每个缺口配套可执行的切入思路，明确课题设计方向：

研究缺口：模型对高浓度椒盐噪声（0.03及以上） 的鲁棒性显著下降，难以适应极端噪声的工业现场；
切入思路：结合BM3D、U-Net等图像去噪算法对原始熔池图像预处理，再输入特征提取模块，提升极端噪声下的特征提取能力。
研究缺口：对错边（MI）状态的识别精度（93.86%）偏低，因错边的电弧声特征不显著、熔池形态与正常熔透高度相似；
切入思路：引入焊接工装的装配位姿信号，构建视觉-声学-位姿三模态融合体系，补充错边状态的专属特征。
研究缺口：模型仅融合视觉和声学双模态，未纳入焊接过程的电信号（电流/电压）、红外热成像信号等多源信息，特征维度有限；
切入思路：拓展模态分支，加入电信号/红外热成像的特征提取模块，设计多模态注意力融合策略，整合更多焊接过程信息。
研究缺口：模型未做深度轻量化优化，虽单样本处理16ms满足实时性，但无法适配工业端边侧低算力设备（如嵌入式PLC）；
切入思路：通过模型剪枝、量化、知识蒸馏对MFCA-Net进行轻量化改造，在保证精度的前提下降低模型参数量与计算量。
研究缺口：当前仅实现焊接状态的离线识别与预测，未结合工业控制系统实现焊接状态的实时闭环控制；
切入思路：将MFCA-Net与PLC焊接控制系统对接，基于焊接状态预测结果实时调整焊接参数（电流、送丝速度），构建焊接质量的实时闭环控制体系。
研究缺口：模型的验证场景仅为LF6铝合金板的脉冲GTAW对接焊，未拓展至其他铝合金牌号、焊接工艺（如MIG焊）或接头形式（如T型接头）；
切入思路：在不同铝合金牌号、焊接工艺、接头形式下采集数据集，验证模型泛化能力，并针对不同场景优化模型超参数。

五、论文完整逻辑链梳理

本文用一段话梳理论文提出问题→分析问题→设计方案→实验验证→得出结论的完整研究逻辑链，精准还原论文的科研思路与写作逻辑：
论文以铝合金脉冲GTAW焊接状态精准预测的工业需求为出发点，提出了“复杂环境噪声干扰、现有特征提取方法存在信息缺失、多模态融合特征冗余”的核心研究问题；
随后分析了现有CNN、ViT单一特征提取方法的互补性缺陷，以及传统多模态融合模型（MCAN）跨模态交互不足的问题，同时明确了焊接过程中弧光干扰、数据集不平衡、单传感器信息不足等实际约束；
在此基础上，设计了基于多频谱通道注意力机制的多模态融合网络MFCA-Net，通过并行特征映射模块提取各模态高低频特征、MSCAM模块实现高低频特征融合去冗余、双协同注意力模块完成视觉-声学特征的深度整合，构建了双模态焊接状态预测框架；
接着搭建了FANUC六轴机器人的GTAW实验平台，构建了经噪声增强的公共数据集和标准化标注的自研铝合金焊接数据集，通过公共数据集验证、自研数据集性能评估、噪声鲁棒性测试、消融实验、经典模型对比实验等多维度实验，验证了模型的有效性、鲁棒性和迁移性；
最终得出MFCA-Net可实现5种典型焊接状态98.8%的识别准确率，公共数据集准确率96.1%，模型的并行特征映射和MSCAM模块能有效解决现有方法的局限性，具备工业实际落地潜力的结论，并指出了后续模型轻量化、多模态拓展、焊接状态实时闭环控制的研究方向。

【个人思考衔接】

▢ 对论文方法的疑问与验证思路：

▢ 可直接复用在自身课题的内容：

▢ 拟拓展的研究方向：