本文基于Zhang等2026年发表的激光焊接缺陷分类相关研究,从科研逻辑出发拆解该研究的问题提出、方法设计、实验验证、创新价值,提炼可复用的技术思路并挖掘研究缺口,为工业缺陷检测领域的多模态融合研究提供参考。
【论文基础索引】
论文标题:Deep multimodal fusion of spectral and visual data for laser welding defect classification(基于光谱和视觉数据的激光焊接缺陷分类深度多模态融合)
核心作者:第一作者Qin Zhang(华南理工大学计算机科学与工程学院;通用汽车制造系统与控制研究实验室);通讯作者Guangze Li*(通用汽车制造系统与控制研究实验室,Warren 48092,USA)
发表期刊/会议:Engineering Applications of Artificial Intelligence
发表时间:2026
卷期/页码:165 (2026) 113473
核心标签:Laser welding, Multimodal fusion, Cross attention, Defect classification(激光焊接、多模态融合、交叉注意力、缺陷分类)
一、论文核心背景与问题
本研究围绕汽车电池汇流排激光焊接缺陷检测展开,是工业智能制造中质量检测领域的典型研究,其研究逻辑起点严格基于激光焊接行业的实际痛点和现有研究的局限性,核心结论通过量化实验数据支撑,具体如下:
① 行业/学术核心痛点
激光焊接在汽车、造船、航空航天等行业广泛应用,焊接缺陷(离焦、间隙、低功率、冷焊等)会严重影响产品可靠性、造成经济损失并带来安全风险;激光焊接缺陷检测需整合视觉图像(焊缝表面几何、形貌) 和光谱时序数据(等离子体变化、温度波动、激光反射) 两类异质数据,二者特征维度、数据类型差异大且存在固有噪声,有效融合成为核心技术瓶颈;同时,细微缺陷检测需要深度的时序和特征对齐,现有方法难以满足该需求。
② 现有主流研究的进展与关键局限性
论文原文明确指出三类主流研究的核心问题,均未有效解决视觉-光谱多模态融合的核心痛点:
传统机器学习方法:需手工提取几何、纹理等特征,耗时费力且高度依赖领域知识,无法有效利用视觉和光谱数据的联合动态特征,在复杂焊接场景中可扩展性和适应性差;
单模态深度学习方法:虽能自动提取特征,但多数仅聚焦视觉图像或热/光谱数据,缺乏多模态融合的针对性设计,无法挖掘数据的互补性;
多传感器融合方法:虽整合了视觉、光谱等互补模态数据,但融合方式多为启发式特征工程或简单拼接,无法充分对齐异质数据表示,也不能选择性关注关键跨模态特征、利用时序动态信息。
③ 论文的核心解决思路
针对上述局限性,论文提出基于跨注意力的视觉-光谱深度多模态融合框架,并构建汽车电池汇流排焊接的专属多模态数据集;核心设计思路为先优化输入数据,再实现细粒度多模态交互,最后完成缺陷分类:
数据层面:用U-Net卷积网络分割焊缝区域抑制背景干扰,用皮尔逊相关性分析筛选非冗余的光谱通道,降低噪声和数据冗余;
特征层面:设计反向光谱嵌入模块提取光谱时序/通道特征,采用MobileNetV2提取视觉空间特征,通过视觉-光谱定向跨注意力机制实现二者的联合建模;
验证层面:在自有数据集上验证方法有效性,在NEU、DAGM公开工业缺陷数据集上验证泛化性,同时评估模型的实时性以适配工业应用。
④ 核心效果与量化贡献
该方法实现了激光焊接缺陷分类的高精度和高泛化性,核心量化结果如下:
在自有电池汇流排焊接数据集上达到99.2%的整体分类准确率,提升光谱嵌入维度至128后准确率达100.0% ,显著优于所有单模态模型和基线融合方法(元素相加、通道拼接);
在难分类的基线(Baseline)和离焦(Defocus)缺陷上,F1-score和AUC较基线融合方法提升2.4%~4.8%;
在NEU、DAGM公开工业缺陷数据集上分别实现100.0%、99.5%以上的加权F1-score,验证了跨场景泛化性;
是首个将跨注意力机制应用于激光焊接中图像和光谱数据融合的研究,为工业多模态缺陷检测提供了新方案。
二、核心技术方法拆解
本研究的技术方法形成了数据采集→预处理→特征提取→多模态融合→缺陷分类→性能验证的完整技术闭环,所有设计均围绕“工业实用性+检测高精度”展开,以下按实验平台与设计→核心实施步骤→关键技术细节拆解。

(一)实验平台与设计
实验设计严格贴合汽车电池汇流排激光焊接的实际工业场景,硬件选型、变量控制、数据集构建和验证方案均具备科学性和可复现性,核心设计如下:
硬件架构与选型逻辑
视觉数据采集:采用Gocator扫描仪,选型依据为工业级高分辨率、高扫描频率,能精准捕捉焊缝表面几何特征,核心参数:X分辨率13.0–17.0μm、Z线性度1.5μm、扫描频率1700Hz、视场25.0–32.5mm;
光谱数据采集:采用4D.TWO 4D传感器,选型依据为能同步采集可见光(VIS)和近红外(NIR)波段,采样率达100kHz可捕捉焊接过程的实时等离子体/温度变化,单个焊缝输出32通道(16VIS+16NIR),单个样本(2条焊缝)输出64通道光谱数据。
实验变量控制
实验对象:汽车方形电芯汇流排,材料为1.2mm Al1100(汇流排)和Al3003(端子),每个试样焊接2次形成2条焊缝,与实际生产一致;
缺陷诱导:通过控制离焦距离(±4mm/±6mm)、间隙尺寸(0~0.5mm)、激光功率、表面处理(油/水) 构建典型缺陷,冷焊缺陷由超阈值离焦/间隙或低功率引发,所有变量均为工业生产中最常见的工艺波动因素。
数据集构建的合理性
缺陷类别:包含7种焊接状态(Baseline、Low Power、Low Gap、Defocus、Water treatment、Oil treatment、Cold Weld),选择依据为该7类是电池汇流排激光焊接中最典型的工艺诱导缺陷,裂纹、咬边等为次要/衍生缺陷且在该场景中罕见;
样本规模:共603个样本,按8:2划分训练/测试集,采用五折交叉验证验证模型稳定性;
数据匹配:每个样本包含2条焊缝的视觉图像和同步的64通道光谱时序数据,保证多模态数据的时间对齐。
验证方案的严谨性
量化指标:采用精确率(Precision)、召回率(Recall)、F1-score、AUC四大量标,兼顾类别不平衡场景的评估;
对比实验:与单模态模型(视觉:VGG16/MobileNetV2/GoogLeNet等;光谱:Informer/DLinear)、基线融合方法(元素相加、通道拼接)对比;
消融实验:验证焊缝分割、光谱通道选择、反向嵌入、跨注意力模块的有效性;
泛化性实验:在NEU、DAGM公开工业缺陷数据集上开展多尺度融合实验;
工程实验:评估模型参数、FLOPs、推理速度(FPS),验证工业实时检测的适配性。
(二)核心实施步骤
本研究的技术流程可拆解为6个核心步骤,各步骤环环相扣,每一步均有明确的解决目标和上下游逻辑关联,形成可复现的技术执行流程:
步骤1:多模态原始数据采集
解决目标:获取与电池汇流排焊接缺陷强相关的视觉-光谱同步数据;
执行动作:用Gocator扫描仪采集焊缝2D视觉图像,用4D.TWO传感器采集焊接过程中同步的VIS/NIR光谱时序数据,单个样本对应2条焊缝的图像和64通道光谱数据;

下游衔接:原始数据直接输入数据预处理环节,为后续特征提取提供基础。
步骤2:多模态数据预处理
解决目标:降低噪声、减少数据冗余,提升模型输入质量,消除背景干扰和通道冗余对特征提取的影响;
执行动作:
视觉端:采用U-Net模型对原始图像进行焊缝分割,生成焊缝掩码并提取感兴趣区域(ROI),去除背景划痕、亮度不均等噪声;

光谱端:计算64通道间的皮尔逊相关矩阵,剔除相关系数接近1的冗余通道,每个焊缝筛选4个有效通道(VIS1/3、NIR1/11),并对光谱时序数据做最小-最大归一化,设置时间步长为560;
下游衔接:预处理后的视觉图像和光谱数据分别输入视觉、光谱特征提取模块。

步骤3:单模态特征提取
解决目标:分别提取视觉的空间特征和光谱的时序/通道特征,形成高维、可融合的特征表示;
执行动作:
视觉特征:将分割后的图像resize至512×512并归一化,采用预训练于ImageNet-1K的MobileNetV2作为编码器,输出空间特征图;
光谱特征:将筛选后的4通道光谱时序数据输入反向光谱嵌入模块,将每个通道的时序数据独立嵌入为通道令牌,保留通道间多元相关性,输出光谱嵌入特征;
下游衔接:视觉和光谱单模态特征输入跨注意力多模态融合模块。
步骤4:视觉-光谱跨注意力融合
解决目标:实现异质多模态特征的细粒度对齐与动态交互,挖掘二者的互补性;
执行动作:构建多头视觉-光谱定向跨注意力机制,以视觉特征为查询(Q) 、光谱特征为键(K)/值(V) ,计算注意力权重并加权融合,结合残差连接和层归一化得到稳定的融合特征;

设计逻辑:光谱数据缺乏强空间先验,该定向设计能让每个图像像素动态关注全光谱序列,利用光谱的材料敏感线索优化空间缺陷定位;
下游衔接:融合特征输入缺陷分类模块进行全局特征聚合和类别预测。

步骤5:焊接缺陷分类与模型训练
解决目标:实现焊接缺陷的精准分类,解决类别不平衡问题;
执行动作:
特征聚合:对融合特征施加自注意力层,聚合全局上下文信息;
类别预测:通过全局平均池化将融合特征转化为全局特征向量,经线性投影输出7类焊接状态的概率分布;
模型训练:采用Focal Loss解决类别不平衡问题,使用AdamW优化器(初始学习率2×10⁻⁴、批次大小24)训练100轮;
下游衔接:训练完成的模型进入性能验证环节。
步骤6:模型多维度性能验证
解决目标:验证模型的有效性、泛化性、稳定性和工业实时性;
执行动作:开展对比实验、消融实验、泛化性实验、五折交叉验证和实时性评估,记录各指标结果并分析;
核心输出:验证跨注意力融合框架的优越性,确定模型的最优超参数(如光谱嵌入维度128)。
(三)关键技术细节
本研究中可直接复用、可迁移的技术细节均有明确的算法、参数和机理支撑,以下拆解核心可复用内容,所有参数和公式均与论文原文完全一致:
光谱通道筛选:皮尔逊相关性分析
核心公式:通道间相关系数$r{xy}=\frac{\sum{i=1}^{n}\left(x{i}-\overline{x}\right)\left(y{i}-\overline{y}\right)}{\sqrt{\sum{i=1}^{n}\left(x{i}-\overline{x}\right)^{2}} \cdot \sqrt{\sum{i=1}^{n}\left(y{i}-\overline{y}\right)^{2}}}$,$r_{xy}$接近1表示通道冗余;
筛选结果:每个焊缝保留4个非冗余通道,对应波长为VIS1:317nm、VIS3:393nm、NIR1:1017nm、NIR11:1590nm,兼顾表面特征和深层材料特征。
焊缝分割:U-Net网络架构
网络设计:由卷积块(含BatchNorm+ReLU)、下采样(MaxPool)、上采样组成,输入为原始图像,输出为焊缝掩码;
核心作用:提取焊缝ROI,消除背景噪声和亮度不均的影响,实验证明分割后视觉模型的F1-score最高提升23.7%。
特征提取:模型选型与超参数
视觉编码器:MobileNetV2,选型依据为轻量级(3.4M参数、6.5B FLOPs),兼顾计算效率和特征提取能力,适配工业实时检测;
光谱嵌入:反向嵌入模块,将T=560时间步的光谱数据嵌入为$D_s$维特征,嵌入维度可调节(64/96/128),128为最优维度;
对比结论:反向嵌入优于传统时序嵌入,能避免强制关联不同尺度的VIS和NIR通道,保留通道间依赖。
跨注意力融合:核心设计与实现
定向设计:$Q=X{img}$(视觉特征)、$K/V=X{spec}$(光谱特征),摒弃光谱→视觉、双向跨注意力,避免计算冗余和特征对齐偏差;
多头实现:将特征投影至低维子空间,计算各头注意力后拼接,再经线性投影输出,公式为$F{attn}=Concat\left(A{1}, ..., A{h}\right) W{O}$;
稳定化处理:融合特征经残差连接+层归一化,公式为$F{fused}=LayerNorm\left(F{attn }+X_{img}\right)$。
模型训练:损失函数与优化器
损失函数:Focal Loss,公式为$\mathcal{L}{F L}=-\sum{i=1}^{C}\left(1-\tilde{y}{i}\right)^{\lambda} y{i} log \left(\tilde{y}_{i}\right)$,通过$\lambda$调节聚焦系数,降低易分类样本的权重,聚焦难分类缺陷;
优化器:AdamW,初始学习率2×10⁻⁴,批次大小24,训练轮数100,在RTX A5500 GPU上完成训练。
工业实时性:模型效率参数
最优模型参数:约26.1M,FLOPs约18.5G;
推理速度:超100FPS(RTX A5500 GPU),DAGM/NEU数据集上达115/116FPS,满足工业在线实时检测要求。
三、学术创新与研究价值
本研究的创新并非单纯的方法堆砌,而是针对现有研究的核心局限性提出的差异化解决方案,且研究价值兼具学术理论补全和工业实际落地双重属性,以下分模块展开:
(一)差异化学术创新
本研究的创新点与【论文核心背景与问题】中提及的现有研究局限性一一对应,所有对比研究均标注作者和发表年份,无主观杜撰,核心差异化突破如下:
突破传统机器学习的手工特征局限,实现端到端的多模态特征提取 针对Malarvel and Singh (2021)、Khanzadeh et al. (2018)等传统机器学习方法手工提取特征、无法利用多模态联合动态特征的问题,结合MobileNetV2和反向光谱嵌入模块,实现视觉和光谱特征的自动提取,无需领域知识介入;同时通过跨注意力机制实现二者的联合建模,充分挖掘多模态数据的互补性,解决了单模态特征信息不足的问题。
突破单模态深度学习的研究边界,首次将跨注意力引入激光焊接多模态融合 针对Fan et al. (2021)、Liang et al. (2024)等单模态深度学习方法仅聚焦视觉或光谱数据的问题,首次设计视觉-光谱定向跨注意力机制并应用于激光焊接缺陷检测,实现了异质多模态特征的细粒度动态对齐;相比单模态模型,融合模型的加权F1-score提升1.1%~6.6%,突破了单模态在细微缺陷检测上的瓶颈。
突破多传感器融合的简单拼接局限,提出全流程的多模态优化方案 针对Zhang et al. (2019)、He et al. (2025)等多传感器融合方法采用简单拼接/启发式特征工程、无法对齐异质数据的问题,提出 “数据预处理-特征提取-跨注意力融合”的全流程方案:先通过U-Net分割和皮尔逊相关性分析优化输入数据,再通过反向嵌入保留光谱通道间依赖,最后通过跨注意力实现自适应特征融合;相比元素相加、通道拼接等基线融合方法,难分类缺陷的F1-score提升2.4%~4.8%,解决了跨模态特征对齐的核心问题。
突破工业缺陷检测的场景局限,验证了跨注意力框架的通用泛化性 针对现有多传感器融合方法仅适用于特定焊接场景的问题,将该跨注意力框架迁移至NEU、DAGM通用工业缺陷数据集,通过多尺度融合设计(高分辨率为Q、低分辨率为K/V)实现了100.0%(NEU)、99.5%以上(DAGM)的加权F1-score,拓展了跨注意力在工业缺陷检测领域的应用边界。
(二)研究价值
本研究的价值从学术理论补全和实际落地潜力两个维度体现,所有结论均由论文原文的量化数据支撑,无主观夸大:
1. 学术理论补全
丰富了工业缺陷检测的多模态融合理论,提出视觉-光谱跨注意力融合的新范式,为异质传感数据的融合提供了新的设计思路;
提出反向光谱嵌入模块,弥补了传统时序嵌入在多通道光谱数据中通道间相关性捕捉的不足,为时序传感数据的特征提取提供了新方法;
构建了汽车电池汇流排焊接的视觉-光谱多模态数据集,为该领域的后续研究提供了标准化的数据支撑;
验证了跨注意力机制在多尺度工业缺陷检测中的有效性,将跨注意力的应用场景从视觉-音频、视觉-语言拓展至工业视觉-光谱传感领域。
2. 实际落地潜力
高精度检测:模型在电池汇流排焊接缺陷分类上的准确率达99.2%(最优100.0%),能精准识别难分类的离焦、基线缺陷,保障动力电池产品的可靠性和安全性,适配新能源汽车行业的质量检测需求;
工业实时性:模型采用轻量级架构,推理速度超100FPS,参数仅26M左右,无需高端算力支持,满足工业在线实时检测的核心要求;
硬件兼容性:数据采集采用Gocator、4D.TWO等工业级传感器,采集方案可直接复用于实际生产,无需额外定制硬件,降低落地成本;
场景通用性:融合框架可迁移至其他工业缺陷检测场景(如金属表面缺陷、电子封装缺陷),在NEU、DAGM数据集上的优异表现证明了其跨场景适配性,具备规模化应用的潜力。
四、研究启发与缺口挖掘
本研究为工业缺陷检测、多模态融合领域的科研工作提供了多个可复用的技术思路,同时论文原文也明确指出了研究的局限性,结合研究边界可推导出行之有效的后续研究切入方向,以下分模块展开:
(一)可复用技术与思路
提炼论文中可直接迁移至其他研究方向/场景的方法、框架和设计逻辑,明确适配场景、复用方式、注意事项,为课题研究提供参考:
视觉-光谱定向跨注意力融合框架
适配场景:需要整合视觉空间数据和光谱/时序传感数据的工业缺陷检测、工业过程监控(如电子封装、金属加工、3D打印);
复用方式:保留“Q=视觉特征、K/V=时序/光谱特征”的定向跨注意力设计,替换视觉编码器和光谱嵌入模块以适配不同数据类型;
注意事项:需针对具体场景做定制化数据预处理,避免背景噪声和数据冗余影响融合效果。
皮尔逊相关性分析的光谱通道筛选方法
适配场景:多通道光谱、振动、温度等传感数据的维度约简和特征筛选;
复用方式:计算通道间皮尔逊相关矩阵,剔除相关系数接近1的冗余通道,保留与检测目标强相关的非冗余通道;
注意事项:需结合具体场景验证筛选后通道的有效性,确保其能捕捉关键特征。
反向嵌入的时序特征提取方法
适配场景:多通道时序传感数据(光谱、振动、电流、压力)的特征提取;
复用方式:将每个通道的时序数据独立嵌入为通道令牌,结合MLP提取高维特征,保留通道间的多元相关性;
注意事项:需根据时序数据的长度调节嵌入维度,平衡特征表达能力和计算效率。
工业图像的U-Net分割预处理方法
适配场景:存在背景噪声、亮度不均、目标区域占比小的工业表面缺陷检测图像预处理;
复用方式:采用论文中的U-Net架构对检测目标区域进行分割,提取ROI作为模型输入;
注意事项:需针对不同工业图像的特征微调U-Net的卷积块和通道数,提升分割精度。
多尺度跨注意力融合设计
适配场景:不同分辨率的工业图像融合检测、多视角工业缺陷检测;
复用方式:以高分辨率图像特征为Q、低分辨率图像特征为K/V,通过跨注意力实现多尺度特征融合,兼顾细节和全局信息;
注意事项:需保证高/低分辨率图像的时间/空间同步性,避免特征对齐偏差。
(二)研究缺口与切入思路
优先挖掘论文原文明确提出的研究局限性,再基于研究边界(数据集、实验环境、模型功能)做合理推导,每个缺口均配套可执行的极简切入思路,直接服务于课题研究设计:
研究缺口:数据集仅包含7种电池汇流排焊接的工艺诱导缺陷,未涵盖裂纹、咬边等次要/衍生缺陷,缺陷类型覆盖度有限;
切入思路:扩充数据集,纳入裂纹、咬边等衍生缺陷,结合多物理场仿真模拟不同缺陷的形成过程,丰富样本多样性。研究缺口:实验验证基于实验室受控条件,未在实际工业生产的复杂环境(振动、粉尘、光照变化)中验证,环境鲁棒性有待提升;
切入思路:在实际工业生产线采集多环境下的焊接数据,引入数据增强技术(光谱噪声添加、图像光照变换)提升模型鲁棒性,设计轻量化模型适配工业边缘设备。研究缺口:光谱嵌入维度仅测试64/96/128三个值,未探究嵌入维度与模型性能、计算效率的量化关系,缺乏最优选型依据;
切入思路:开展多组对比实验,测试32/64/96/128/256等不同嵌入维度的准确率、参数、FLOPs,建立嵌入维度与性能/效率的量化模型。研究缺口:模型仅实现缺陷分类,未实现缺陷的定位和定量分析(如缺陷大小、深度),无法满足工业精细化检测需求;
切入思路:将跨注意力融合框架与YOLO、Mask R-CNN结合,实现焊接缺陷的“分类+定位+定量分析”,输出缺陷的几何参数。研究缺口:未提及多模态数据异步的校正方法,实际工业中视觉/光谱传感器的异步会影响模型性能;
切入思路:设计基于时间戳的多模态数据同步校正算法,对异步数据进行插值/对齐处理,提升模型在异步数据下的鲁棒性。研究缺口:模型未考虑焊接速度、保护气体流量等更多工艺参数,未能实现“工艺参数-缺陷类型”的关联分析;
切入思路:引入焊接工艺参数数据,构建多源数据(视觉+光谱+工艺参数)融合框架,实现缺陷分类与工艺参数优化的联动。
五、论文完整逻辑链梳理
该研究以汽车电池汇流排激光焊接缺陷检测的工业实际需求为出发点,形成了完整的科研逻辑链,全程围绕“提出问题→分析问题→设计方案→实验验证→得出结论”展开:
首先,提出激光焊接缺陷检测中视觉-光谱异质数据难以有效融合的核心问题,指出该问题会导致细微缺陷检测精度不足,无法满足工业质量检测要求;接着,分析了传统机器学习、单模态深度学习、多传感器融合三类现有方法的局限性,明确了数据预处理优化、多模态特征细粒度融合、模型泛化性提升是解决该问题的三个关键方向;
然后,针对性设计了基于跨注意力的深度多模态融合框架,先构建贴合工业场景的电池汇流排焊接视觉-光谱多模态数据集,再通过U-Net焊缝分割和皮尔逊相关性分析的光谱通道筛选完成数据预处理,采用MobileNetV2和反向嵌入分别提取视觉和光谱特征,通过视觉-光谱定向跨注意力机制实现多模态特征的细粒度融合,结合自注意力层和Focal Loss完成缺陷分类;
随后,开展了全面的实验验证,包括与单模态、基线融合方法的对比实验,针对数据预处理、光谱嵌入、跨注意力模块的消融实验,在NEU和DAGM公开数据集上的泛化性实验,以及模型实时性和稳定性的评估实验,用量化数据验证了方法的有效性;
最后得出结论,即焊缝分割、相关性分析的通道筛选、反向嵌入设计能有效提升模型输入质量,跨注意力融合框架能实现视觉和光谱特征的细粒度交互,显著提升焊接缺陷分类准确率,且该框架具有良好的泛化性和实时性,可迁移至其他工业缺陷检测场景,为工业多模态质量检测提供了新的实用方案。
【个人思考衔接】
▢ 对论文方法的疑问与验证思路:
▢ 可直接复用在自身课题的内容:
▢ 拟拓展的研究方向: