视觉-语言模型研究综述
马翌硕;张光南;刘亚婷;闫迪;陈冬;刘星愿;郭帅;近年来,随着多模态学习的快速发展,视觉-语言模型(Visual-Language Models, VLMs)通过结合视觉和语言信息,凭借着其能利用来自互联网的几乎无限的大规模图像-文本对进行预训练,在图像描述和视觉问答等跨模态任务中展现了显著的性能优势,成为该领域的研究热点。然而,关于VLMs的系统性综述,特别是那些包含性能比较、分析和按照从头训练流程进行全面回顾的研究,仍然较为欠缺。因此,该文对截至2025年VLMs的最新进展进行了全面回顾,具体包括:文本与图像原始特征处理方法的分类与讨论;主流模态交互策略的分类与回顾;经典与前沿模型架构的回顾与讨论;流行VLMs的系统性总结;VLMs的预训练任务、迁移学习策略的详细分类与回顾;现有迁移学习方法在性能表现、领域泛化的基准测试与讨论。提出三个未来研究方向。
智能网联环境下机场摆渡车调度优化研究
朱佳丽;李江晨;张婷婷;卢祥;杜梦涵;目前,机场特种车辆调度研究主要集中于最小化车辆数、行驶距离和任务量差异,但忽视了乘客的出行体验,且调度仍依赖人工,缺乏智能感知与通信系统的统一支持。为此,该文构建了智能网联环境下的机场特种车辆调度框架,包括了调度模型与算法,并基于前景理论和模糊隶属度函数建立乘客满意度函数,构建了改进的机场摆渡车调度模型,以车辆使用数目最少、各车服务航班数差异最小和乘客满意度最大为目标,采用NSGA-Ⅱ算法进行求解,通过南京禄口机场的航班数据进行实例验证。结果表明:与先到先服务算法和GA_Improve算法相比,NGSA-Ⅱ算法虽然未减少车辆使用数量,但在任务量均衡方面分别减少了107.4和1.1,且分别提升了33.5%和12.4%的乘客满意度,为机场的智能化管理提供了有效的决策支持。
数字孪生辅助车联网雾边协同预测性任务卸载框架
周启钊;石中煜;车辆边缘计算(Vehicular Edge Computing, VEC)通过为车辆提供实时缓存和计算服务,支持延迟敏感和计算密集型的应用程序执行。然而,VEC仍面临高动态移动、差异化资源需求及复杂网络状态等挑战,这也为未来6G时代高效和平衡的车辆边缘网络服务卸载带来了新的挑战。该文提出了一种数字孪生(Digital Twin, DT)辅助车联网雾边协同预测性服务卸载框架,实现了边缘车辆与雾节点之间的数字孪生映射,通过创建虚拟副本估计、预测和评估VEC实时状态。提出了基于长短期记忆(Long Short-Term Memory, LSTM)的DT历史状态数据和工作负载预测模式,以优化边缘设备的利用率、最小化任务完成延迟和实现雾节点间的均衡任务卸载。通过仿真验证,该方案在减少任务完成延迟、提升雾节点资源分配均衡性、适应虚实误差和提高VEC系统计算率方面优于基准算法。
基于自动驾驶场景语义的蜕变测试优化方法
阳真;叶森;李昂;徐浩;王杨;黄松;自动驾驶系统配备了诸多先进的传感器进行环境感知,并完成驾驶行为的决策、规划与控制,以帮助和取代人类完成驾驶任务。为确保自动驾驶系统的安全性与可靠性,需对其进行充分的测试。针对回归测试背景下端到端的自动驾驶系统存在的测试用例冗余且难以自动地为测试用例匹配适当的蜕变关系等问题,提出基于自动驾驶场景语义的蜕变测试优化方法MetaOpt,旨在提升面向自动驾驶系统的蜕变测试的效率。MetaOpt对测试用例进行跨模态的语义信息提取,将非结构化的测试用例转化为结构化的场景要素语义信息数据。接着,基于场景元素的类别及距离的相似度对测试用例进行约简。再基于元素关键词进行蜕变关系的聚类以及“测试用例-蜕变关系对”的匹配。最后,基于场景中元素的稀有度进行测试用例的优先级排序。实验结果表明,MetaOpt能够有效地约简测试用例、完成蜕变关系和测试用例的匹配,且能够提升自动驾驶模型的错误检测率和蜕变测试的效率。
自适应业务流程变化的低代码平台组件布局算法
于潇;李巧红;刘宣华;桑钰超;夏青;传统低代码平台采用固定时间间隔的组件布局机制,存在业务平缓期资源浪费、剧烈期响应滞后的固有矛盾。该文提出一种自适应业务流程变化的组件布局算法,核心在于通过量化业务流程复杂度(compDegree)动态调整布局间隔,实现“流程平缓时延长间隔优化资源、剧烈时缩短间隔提升实时性”的目标。该算法设计双时间窗口的复杂度判断策略:以量化区间(m)评估短期业务波动强度,分析区间(n)提供长期数据基准,通过两者比值计算compDegree;引入阈值θ与方向区分的防抖动机制,平衡调整灵敏度与布局稳定性,避免因业务“毛刺”导致的间隔频繁切换。该算法基于航天软件ASP+低代码平台,在固定资产处置与政务审批场景开展实验验证。结果表明,该算法在业务平缓期可显著降低CPU占用率与内存吞吐量,在流程剧烈期能有效减少响应延迟与界面卡顿率,最终在系统资源消耗与用户交互体验间实现更优平衡,为低代码平台组件布局提供了贴合业务动态的解决方案。
少样本提示驱动的即插即用式复杂任务处理方法
何健军;随着大语言模型在复杂任务推理决策领域展现出巨大潜力,越来越多的研究聚焦于如何使用大模型进行任务规划和工具调用。为了达到较好的效果,大多数方法要求对模型进行微调,而优质训练数据总是稀缺,导致这些方法不能快速在领域落地应用。为应对上述问题,提出一种少样本提示驱动的即插即用式复杂任务处理方法(plug-and-play method for complex task handling with few-shot prompting, PnP-FSP)。该方法完全采用少样本提示进行复杂任务分析处理,无需开展大模型微调。为使该方法在垂直领域快速应用,提出基于任务规划参考库的任务规划策略,将参考库中与用户问题相似的用例作为提示上下文,辅助完成领域复杂问题的快速规划。同时,引入基于前序任务结果的后续任务调整机制,有效解决一步规划方法强调任务规划的全局性而忽略任务执行过程中动态变化的问题。此外,该方法对任务规划、工具调用等复杂任务处理流程解耦,可根据实际需要选择优势大模型,以即插即用的方式实现大模型集优协同,完成目标任务。实验结果表明,在对监督数据依赖性显著降低的情况下,PnP-FSP优于主流的复杂任务处理方法。
基于Web的工业机器人语言系统设计
彭玲;姜立标;王蕊;谢杨钟;针对传统工业机器人语言系统指令不易扩展,程序编辑操作繁琐,可视化程度低,工作效率低下等问题,该文提出一种基于Web的工业机器人语言系统设计方案。采用B/S结构替代了原有的C(示教盒)/S(控制器),实现在没有配备示教器的情况下,使用个人设备通过互联网访问机器人控制器对机器人进行控制,应用少儿编程思想,将机器人程序示教简化为可视化拖拽,极大度地简化学习成本,在机器人控制系统构建本地Web服务器实现上位机与机器人控制系统的数据交互。此外,设计分层式的机器人语言解释器,高效地实现机器人语言解析。最后,通过六轴机器人控制系统进行操作验证。验证结果表明,该设计方案具有良好的可移植性、操作性与扩展性,系统编程效率有效提升,端对端响应延迟小于150 ms。
面向SAR图像船舶目标检测的多尺度聚合扩散网络
郭耀武;王飞;陈云菲;近年来目标检测技术取得了显著进展,但大多数基于自然图像设计的检测方法在直接应用于SAR船舶遥感图像时表现不佳,性能显著下降。深入分析表明,SAR图像目标检测的关键挑战在于复杂的背景杂波干扰和多尺度船舶目标的尺度变化。针对上述问题,该文将扩散模型(Diffusion)引入SAR图像船舶目标检测领域,并提出了一种面向SAR图像船舶目标检测的多尺度网络(DMADNet)。为提升检测精度,设计了一种多尺度聚合网络(MANet),其核心设计理念是独立特征提取和交互融合策略,构建灵活且高效的信息流处理框架,突出目标特征,并显著增强推理阶段的检测表现。同时,该文设计的上下文聚合注意力(CA-X)以并行方式集成于网络中,能够有效整合长距离上下文信息,在保证全局上下文对目标判别的帮助下,避免了无关背景的干扰,从而显著提升了复杂背景下船舶目标的检测精度。DMADNet在SAR船舶检测数据集(SSDD)、高分辨率SAR图像数据集(HRSID)以及SAR-Ship数据集上,在IoU阈值设为0.5的条件下,分别达到了96.65%、93.03%和97.92%的平均精度,进一步验证了其在复杂环境下的鲁棒性与卓越的检测性能。
基于2D分割引导的3D高斯泼溅分割
朱雨馨;朱烨;魏敏;邹鑫;童攀;3D Gaussian Splatting作为一种新兴的3D表示方法,在复杂场景的重建和渲染中展现了卓越的性能。在3D Gaussian Splatting目标分割中,大多数方法需要重新训练3D Gaussian Splatting的内置分割属性,不仅耗时较长,还可能导致边界区域的分割结果模糊。为了解决这些问题,提出了一种以2D特征为引导的高效三维分割方法。该分割方法将2D视觉信息与3D空间信息相关联,通过2D提示分割出3D高斯函数表示的目标物体,整个流程无需通过第二次迭代梯度下降为每个高斯函数添加新的分割属性。具体来说,首先根据2D掩码为3D高斯函数分配初始分割标签,随后通过邻界细化算法,细化目标物体的边界,成功克服了边界模糊的挑战,显著提升了分割精度。实验结果表明,该方法能够实现高质量的三维分割,处理时间减少了80%以上,同时分割精度显著提升,mIoU提高了1百分点以上,mACC提高了0.3百分点。
基于MADSUNet网络的图像阴影检测
何俊;张晓滨;现有基于Unet++图像分割模型在复杂光照条件下图像阴影检测中由于堆叠卷积和下采样操作,可能导致浅层细节(如纹理、亮度梯度)的丢失,从而影响阴影边界的精准定位和弱阴影区域的检测效果。为了解决这个问题,该文提出一个图像阴影检测模型MADSUNet。在深层编码器加入自适应多头掩码注意力模块,该模块通过动态权重分配机制增强对阴影区域关键特征的聚焦能力,同时抑制非阴影背景的干扰,从而提升模型在复杂光照条件下的鲁棒性。此外,在解码器部分引入高效动态上采样器,进一步改善阴影边界的平滑性和连续性。实验结果表明,该模型在图像阴影检测方向有较高的准确率和检测性能,在SBU、UCF、ISTD三个数据集上平衡错误率(BER)值分别达到了4.99%、8.72%、2.06%,这意味着该模型可以准确识别不同光照条件下的图像阴影和非阴影区域,从而准确区分阴影和黑色背景。



