BG大游集团

多模态大说话模型在铁路行业利用索求

2025-06-03

起源:BG大游集团官微

一、铁路行业多模态大说话模型利用面对的挑战

1、铁路行业数据特点

铁路行业涉及的数据模态丰硕多样 ,每种模态都有其怪异特点  。

文本数据方面 ,蕴含大量专业的规章造度、技术手册、维建纪录等 ,拥有术语专业性强、逻辑结构严谨的特点  。例如铁路信号设备守护手册 ,其中蕴含大量特定的信号术语和具体的操作流程描述 ,对模型理解和处置专业文本能力要求极高  。

图像数据涵盖设备表观图像、轨路线路图像、作业现场图像和大量监控视频截图等  。设备表观图像需模型正确鉴别设备部件状态、是否存在故障痕迹等  ;轨路线路图像要求模型能鉴别轨路几何状态、路岔状态等 ,图像数据拥有分辨率高、细节特点复杂的个性  。

语音数据重要为调度指挥语音、设备故障报警句音等 ,拥有实时性强、语音质量受环境影响大的特点 ,如在嘈杂的车站环境中 ,调杜罪音可能存在噪声滋扰 ,增长了语音鉴别和理解的难度  。

2、铁路行业利用挑战

领域知识融合与专业性的要求  。铁路行业涉及高度专业化的要求、规程(如信号系统逻辑、轨路工程尺度) ,需将领域知识和专业知识有效嵌入模型训练和模型推理过程 ,预防天生谬误或不切合规范的输出  。

系统兼容性与寂仔设施刷新  。寂仔铁路系统(如传统信号设备、老旧传感器、传统架构信息化系统)可能无法直接支持AI模型的输入输出接口 ,需解决新旧系统兼容性问题 ,导致部署成本增长  。

铁路运输出产过程人员合作与相信度  。运输出产、运营守护过程中铁路对应专业人员(如调度员、维建工)对AI决策的接受杜仔限 ,需通过可诠释性技术(如可视化推理蹊径)提升模型通明度 ,成立人机协同机造  。

模型研发部署成本与利用的平衡  。多模态大模型训练必要大规模算力支持 ,且铁路场景定造化开发成本高 ,面对模型研发部署成本与利用平衡的问题  。

二、多模态大说话模型关键技术钻研

针对铁路行业的特点、专业分工 ,多专业数据源个性及多模态大说话模型利用过程中面对的挑战 ,发展有关关键技术的钻研工作  。

1、多模态大说话模型界说

多模态大说话模型(MultiModal Large Language Models ,简称MLLMs)是一类结合了大说话模型(Large Language Models ,简称LLMs)的天然说话处置能力与对其他模态(如视觉、音频等)数据的理解与天生能力的模型  。这些模型通过整合文本、图像、声音等多种类型的输入和输出 ,提供越发丰硕和天然的交互履历  。

2、多模态大说话模型架构

多模态模型架构蕴含5个部门 ,别离是:模态编码器(Modality Encoder)、输入映射器(Input Projector)、大模型骨干(LLM Backbone)、输出映射器(Output Projector)以及模态天生器(Modality Generator)[1]  。模型架构如下图所示:

1933408784665702401.png

模态编码器:多模态大模型中的一个关键组件 ,它的重要工作是将分歧模态的输入数据转换成模型可能进一步处置的特点暗示  。这些输入数据能够蕴含图像、文本、音频、视频等多种大局 ,而模态编码器的作用就像是翻译官 ,将这些分歧说话(模态)的信息转换成一种共同的“说话” ,以便模型可能理解和处置  。

输入映射器:多模态大模型中的一种关键组件 ,它的重要作用是将分歧模态的编码特点映射到一个共同的特点语义空间 ,以便这些特职能够被大型说话模型(LLM Backbone)统一处置和理解  。

输出映射器:多模态大模型中的一种关键组件 ,它的重要工作是将大型说话模型(LLM)的输出信号映射回原始模态的空间 ,同时转换成适合分歧模态天生器使用的特点暗示  。这些天生器可能是用于天生图像、视频、音频或其他模态的模型  。

模态天生器:多模态大模型中的一种关键组件 ,它的重要作用是天生分歧模态的输出 ,例如图像、视频或音频  。使得模型可能矫捷地处置和天生多种类型的数据 ,为用户提供越发丰硕和天然的交互履历  。

3、多模态大说话模型训练

多模态大模型的训练重要分为两个阶段:多模态预训练(MM PT, MultiModal Pre-Training)和多模态指令微调(MM IT, MultiModal Instruction Tuning)  。

(1)多模态预训练 ,选取X?text数据集 ,输入和输出映射器用于实现分歧模态之间的对齐  。对于多模态理解模型 ,只优化文本天生损失  ;对于多模态天生模型 ,必要优化文本天生损失、模态天生损失和输出对齐损失  。

(2)多模态指令微调 ,通过指令体式化的数据集对预训练的MLLMs进行微调 ,以提高模型遵循新指令的能力 ,加强其在未见工作上的机能  。指令微调蕴含监督微调(SFT)和人类反馈强化进建(RLHF) ,加强多模态大模型的交互能力 ,显著改善零样本机能 ,极大加强泛化能力  。

4、基于Visual-RFT的多模态大模型推理能力提升步骤

开源 Visual-RFT ,将RFT扩大到视觉工作 ,通过设计针对分歧视觉工作的可验证嘉奖函数 ,提升多模态大模型在视觉感知和推理工作中的机能  。Visual-RFT 的主题在于利用多模态大模型 ,天生多个蕴含推理过程和最终答案的响应 ,并通过可验证嘉奖函数对模型进行战术优化[2]  。Visual-RFT 道理图 ,如下图所示:

1933409212967055361.png

嘉奖模型训练  。给定问题和视觉图像输入后 ,战术模型会天生多个蕴含推理步骤的响应  。而后 ,使用可验证嘉奖(如IoU嘉奖和分类嘉奖)与战术梯杜着化算法来更新战术模型  ?裳橹ぜ谓焙毯

IoU嘉奖(指标检测):通过推算预测天堑框与真实天堑框的交并比(IoU)来评估检测工作的嘉奖  。

分类正确率嘉奖(分类工作):通过比力模型输出类别与真事粪别来评估嘉奖  。

基于视觉强化微调(Visual-RFT)的能力特点 ,结合铁路行业的复杂环境要求 ,在细粒度图像分类、少样本指标检测、推理定位以及盛开词汇指标检测基准测试中的尝试了局批注 ,与监督微调(SFT)相比 ,Visual-RFT拥有竞争力的机能和先进的泛化能力:

在约莫100个样本的单样本细粒度图像分类中 ,Visual-RFT的正确率比基线提高了24.3%  。

在少样本指标检测中 ,Visual-RFT在COCO的两样本设置中超过了基线21.9 ,在LVIS上超过了15.4  。

Visual-RFT 削减了对人为标注的依赖 ,简化了嘉奖推算过程 ,并在多种视觉感知工作上获得了显著的机能提升  。在细粒度分类、盛开词汇检测、推理定位和少样本进建等工作中均优于监督微调步骤 ,且在数据有限的情况下阐发出壮大的泛化能力  。

三、Qwen2.5-VL-32B-Instruct大模型及铁路AI视频分析场景下模型能力测试验证

2025年3月24日 ,通义千问推出了Qwen2.5-VL系列大模型 ,获得了社区的宽泛关注和积极反馈  。在Qwen2.5-VL系列的基础上 ,使用强化进建持续优化模型 ,并使用 Apache 2.0和谈开源32B参数规模的新VL模型-Qwen2.5-VL-32B-Instruct  。本次推出的32B模型的主题特点如下:

多模态能力:支持视觉说话理解、图像细粒度解析(如交通批示牌分析)、视觉逻辑推理等工作 ,在复杂场景中阐发优异  。

数学推理突破:通过强化进建优化 ,显著提升复杂数学问题的求解正确性和分步推导能力 ,例如几何证明和多元函数优化  。

本地部署优势:32B参数规模两全机能与效能 ,支持通过MLX框架在Apple Silicon设备本地运行 ,适合注沉隐衷的企业用户  。

交互履历优化:输出风格更切近人类偏好 ,回覆更具体、体式规范 ,支持多轮深度对话  。

Qwen2.5-VL中 ,模型的整体架构由三个重要组件组成:大型说话模型(LLM)、视觉编码器(Vision Encoder)和基于MLP的视觉-说话融合器[3] ,模型架构如下图所示:

1933410454598479873.png

Qwen2.5-VL-32B 在强化进建框架下优化了主观履历和数学推理能力 ,下一步钻研将聚焦于长且有效的推理过程[4] ,以突破视觉模型在处置高度复杂、多步骤视觉推理工作中的天堑  。

通义千问官方未明确本地化部署Qwen2.5-VL-32B-Instruct模型的硬件最低配置 ,但基于32B参数规模揣摩 ,需较高内存(建议至少32GB以上)及支持大规模推算的GPU芯片  。综合数据量、样本数量、并发量和吞吐量的主题关键身分 ,本次本地化部署拔取硅基流动一体机 ,实现铁路AI视频分析场景Qwen2.5-VL-32模型能力测试验证  。尝试室模型能力测试验证信息统计如下表所示[5]:

1933410648224329729.png

模型能力测试验证结论:

(1)本次尝试室模型能力测试验证 ,基于本地化部署的Qwen2.5-VL-32B大模型 ,共计测试验证铁路AI视频分析场景16个  。

(2)在接触网异物、烟火鉴别、室内打电话/玩手机、室表打电话/玩手机、睡觉判断、塌陷检测、防护网开口、铁路入侵异物检测这8个场景中 ,Qwen2.5-VL-32B多模态大模型的正检率均超过70%  。但是在另表8个场景中 ,Qwen2.5-VL-32B多模态大模型存在较多漏检、误检以及思虑过程与输出了局不相符的情况  。

(3)原始的Qwen2.5-VL-32B多模态大模型不适合直接用于罕见据量基础的检测场景  。在铁路行业罕见据基础的场景中 ,基于有监督训练幼模型的检出能力比多模态大模型强  。在没罕见据基础的场景中 ,能够基于多模态大模型进行初步分析 ,后基于过滤战术及复核战术进行输出了局的筛选  。

(4)在铁路行业AI视频分析场景下 ,能够尝试基于多模态大模型进行微和谐沉新训练 ,使其更好地适应铁路场景的需要  。


参考文件:

[1] https://qianfan.cloud.m.guizhouzhengcheng.com/qianfandev/topic/374006

[2] https://arxiv.org/pdf/2308.01825

[3] https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[4] https://arxiv.org/abs/2502.13923

[5] 人为智能视觉大模型在铁路线路异物入侵场景中的利用

【网站地图】