DGMamba: Domain Generalization via Generalized State Space Model论文笔记

文章目录

  • DGMamba: Domain Generalization via Generalized State Space Model
    • 摘要
    • 动机
    • DGMamba设计
      • 隐藏状态抑制(HSS)
      • 语义感知补丁细化(SPR)
        • 免先验扫描
        • 域上下文交换
        • 上下文patch识别
    • 实验结果

DGMamba: Domain Generalization via Generalized State Space Model

paper: https://arxiv.org/abs/2404.07794
code: https://github.com/longshaocong/DGMamba(暂时没有可用代码)

摘要

  • 领域泛化(DG)旨在解决各种场景下的分布转移问题。
  • 现有的方法基于卷积神经网络(CNN)或视觉transformer(ViT), 它们存在接受域有限或二次复杂度的问题。
  • Mamba作为一种新兴的状态空间模型(SSM),具有优越的线性复杂度和全局感受野。尽管如此,由于隐藏状态问题和不适当的扫描机制,它很难应用于DG来解决分布变化。
  • 作者提出了一种新的DG框架(DGMamba),它具有对未见领域的强泛化性,同时具有全局感受野和高效线性复杂度的优点。
  • DGMamba包含两个核心组件: 隐藏状态抑制(HSS)和语义感知补丁细化(SPR)。HSS是为了减轻输出预测期间与特定领域相关的隐藏状态的影响。SPR是为了让模型更多地关注对象而不是上下文,由免先验扫描(PFS)和域上下文交换(DGI)。
  • PFS的目标是打乱图像中的非语义补丁,从图像中创建更灵活、更有效的序列。DGI的目的是通过融合域之间的补丁,结合不匹配的非语义和语义信息来正则化Mamba。

动机

0

  • 目标是增强Mamba模型对未知领域的通用性。
  • 作者观察到隐藏状态作为Mamba的重要组成部分,通过记录序列数据中的历史信息,促进全局感受野,在长期相关性建模中发挥着重要作用。然而,当处理包含来自不同领域的不同特定信息的看不见的图像时,这种隐藏状态可能会产生不良效果。如上图(a)所示,特定领域的信息可能会在传播过程中在隐藏状态中累积甚至放大,从而降低泛化性能。
  • 如何有效地将2D图像扫描成适合DG中Mamba的1D序列数据仍然是一个悬而未决的问题,因为图像的像素或斑块不表现出序列数据中存在的必要因果关系。尽管最近的工作已经探索了视觉任务的各种扫描策略,但这种简单的一维遍历策略可能会导致生成的序列数据中出现意外的特定领域信息(上图c), 从而削弱了Mamba解决分布变化的能力。此外,这些固定扫描策略很大程度上忽略了与领域无关的扫描,并且对各种不同的场景高度敏感,因此很难应用于DG。

DGMamba设计

DGMamba是一种新颖的基于状态空间模型的领域泛化框架,它擅长对未见领域的强泛化性,同时具有全局感受野和高效线性复杂度的优势。
1

隐藏状态抑制(HSS)

HSS通过在输出预测期间选择地抑制相应的隐藏状态来消除隐藏状态中包含的非语义信息的有害影响。通过减少SSM层中的非语义信息,DGMamba学习域不变特征。

为了抑制隐藏状态中传达的意外的特定领域信息,最初的任务是识别包含不利因素的隐藏状态。在隐藏状态的传播过程中,与真实标签显示出更强相关性的隐藏状态应该被保留。因此,他需要SSM中(SSM相关可以查看Mamba) A ˉ \bar{\mathbf{A}} Aˉ中较大的传播系数,而关联较少的隐藏状态需要 A ˉ \bar{\mathbf{A}} Aˉ中相对较小的洗漱。因此, Δ A \Delta A ΔA的值用于确定哪些隐藏状态将受到抑制。从数学上讲,隐藏状态抑制的策略为
y t = C ˉ h t m a t h b f C ˉ = C ⊙ M M = ( Δ > α ) + ( 1 − ( Δ A > α ) ⊙ Δ A ) \begin{aligned} y_t&=\bar{\mathbf{C}}h_t\\ \bar{mathbf{C}}&=\mathbf{C}\odot \mathbf{M}\\ \mathbf{M}&=(\Delta>\alpha)+(1-(\Delta A>\alpha)\odot\Delta A) \end{aligned} ytmathbfCˉM=Cˉht=CM=(Δ>α)+(1(ΔA>α)ΔA)
其中, α ∈ [ 0 , 0.5 ] \alpha\in[0,0.5] α[0,0.5]表示确定是否应抑制隐藏状态的阈值。这样,系数参数 Δ A < = α \Delta A<=\alpha ΔA<=α的隐藏状态将被 Δ A \Delta A ΔA抑制,而其余隐藏状态保持不变。

语义感知补丁细化(SPR)

SPR的作用是鼓励模型更多地关注对象而不是上下文,它包含免先验扫描(PES)和域上下文交换(DCI)。

PES旨在对图像内的上下文补丁进行打乱,并减少对标签预测的贡献。它提供了一种有效地2D扫描机制,将2D图像遍历成1D序列数据。因此,PFS具有将模型的注意力从上下文转移到对象的能力。

为了减轻跨不同域的不同上下文信息和局部纹理细节的影响,DCI将图像的上下文补丁替换为来自不同域的上下文补丁。所提出的DCI引入了局部纹理噪声,并根据不匹配的上下文和对象的组合对模型进行了正则化。通过利用线性复杂性和异构上下文标记,DCI可以有效地学习更稳健的表示。

从领域不变角度来看,上下文和对象是两个基本元素。对象对应前景,对分类结果贡献最大,在不同场景中保持静止。上下文与特定域的信息相关,例如背景和图像样式,这些信息在不同域之间差异很大。因此,将模型的焦点转向对象可以帮助减少特定于领域的信息。

免先验扫描

尽管基于SSM的模型在视觉任务中表现出了出色的性能,但多样化和随机的上下文环境对于在DG中部署Mamba仍然至关重要。这一结论表明,仍然需要一种有效的扫描机制来应对图像像素或块之间的非因果相关性带来的挑战。合适的扫描机制应该能够打破由手动创建的图像序列引起的意外的虚假相关性。然而,现有的基于SSM的方法仅限于以固定的展开方式将图像扫描成patch。这些助管遍历策略可能会在生成的序列中产生域特定信息,从而使这些模型难以解决DG中的分布变化。

为了打破patch之间的虚假相关性并为DG任务提供有效的扫描机制,作者提出了PFS来解决Mamba中的方向敏感问题。如主图所示,PFS尝试随机打乱上下文补丁,这可能有助于展开序列中的域特定信息,同时保留对象patch。特别是,对于表示 z = z c + z o ∈ R H × W × C z=z_c+z_o\in\mathbb{R}^{H\times W\times C} z=zc+zoRH×W×C, 其中 z c z_c zc z o z_o zo表示上下文信息和对象信息,PFS策略后的 z p f s z_{pfs} zpfs可以表示为:
z p f s = z c s + z o z c s = S h u f f l e ( z c ) \begin{aligned} z_{pfs}&=z_c^s+z_o\\ z^s_c&=Shuffle(z_c) \end{aligned} zpfszcs=zcs+zo=Shuffle(zc)
其中 z c s z^s_c zcs表示在空间维度上使用 S h u f f l e ( ⋅ ) Shuffle(·) Shuffle()函数打乱的上下文信息。该操作可以通过生成上下文干扰或噪声,同时保持一致的对象信息,为Mamba提供展现灵活扫描方向的序列数据。因此,它减轻了手动固定扁平化策略带来的域特定信息,并打破了虚假的相关性。

域上下文交换

DG中不同域的上下文信息是异构的。PFS中的上下文patch在给定场景中受到限制,不足以提供足够多样化的上下文信息来删除域特定信息。此外,来自不同域的异构上下文patch不仅表现出不同的上下文信息,而且还包含不同的局部纹理特征。

为了充分解决异构上下文和不同局部纹理细节的不利影响,作者建议创建充足的上下文场景并通过域上下文交换(DCI)引入局部纹理噪声。DCI将图像上下文patch替换为来自不同域的补丁。该操作在反制样本上对模型进行正则化,即一个域中的语义信息和来自不同域的非语义特征的组合。这种策略进一步迫使模型专注于可概括的特征,同时丢弃文本细节或其他特定的领域特征。

上下文patch识别

为了区分文本和目标patch, 利用Grad-CAM作为度量来衡量不同域的贡献图像。由于包含对象的区域会极大地激活Grad-CAM, 而表现出上下文patch在Grad-CAM中具有较低的值。因此,图像patch根据Grad-CAM生成的激活图中的值分为context和object。具体的说,将小于 25 25% 25的Grad-CAM值的patch确定为上下文信息 z c z_c zc, 其余的则为对象信息 z o z_o zo

实验结果

遵循 DG中的标准协议,作者评估了我们提出的 DGMamba 的有效性,并在五个常用基准上将其与 DG 中最先进的方法进行比较:(1)PACS 包含 9991 张图像,分为 7 个类别,展示 4 种风格。 (2)VLCS涉及4个数据集,共10729张图像,分布在5个类别。 (3) OfficeHome 包含来自 4 个数据集的 65 个类别的 15588 张图像。 (4) TerraIncognita包含在 4 个不同地点拍摄的 10 种动物的 24330 张照片。 (5) DomainNet包含 586575 张图像,分为来自 6 个域的 345 个类别。
2
3
4
5
6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/768613.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Cardinal的AWD攻防平台搭建与使用以及基于docker的题目环境部署

关于 CTF 靶场的搭建与完善勇师傅前面已经总结过了&#xff0c;参考&#xff1a; CTF靶场搭建及Web赛题制作与终端docker环境部署_ctfoj搭建-CSDN博客 基于H1ve一分钟搭好CTF靶场-CSDN博客 Nginx首页修改及使用Nginx实现端口转发_nginx 修改欢迎首页-CSDN博客 关于H1ve导…

Winform使用HttpClient调用WebApi的基本用法

Winform程序调用WebApi的方式有很多&#xff0c;本文学习并记录采用HttpClient调用基于GET、POST请求的WebApi的基本方式。WebApi使用之前编写的检索环境检测数据的接口&#xff0c;如下图所示。 调用基于GET请求的无参数WebApi 创建HttpClient实例后调用GetStringAsync函数获…

2.4 C#开发环境 xml格式保存参数----范例实现

2.4C#开发环境 xml格式保存参数----范例实现 1 程序参数保存目录层次说明 1 选择程序号| 相机号|窗口号 2 导入参数&#xff1a;就会从本地目录读取参数&#xff0c;并且显示图片和ROI 3 保存参数&#xff1a;把当前控件图片和ROI信息保存到指定程序号|相机号|窗口号中 2 参数…

剪映数字人口播原理终于搞清楚了

剪映版本升级了,新版本支持数字人定制,于是我赶紧申请了使用资格 目前的价格是49元单个价格/30天 支付49元之后剪映要求上传2.5至10分钟的视频 接着要阅读一段话并录制视频上传 第三步提交,提交完成之后大概两三个小时就会有一个特定数字人形象出现:

不只是咨询,更是转型加速器——精益生产咨询!

以前咱们说精益生产&#xff0c;总觉得是套现成的模板&#xff0c;每家企业都得照葫芦画瓢。但现在不一样了&#xff0c;精益生产咨询就像是个高级定制师&#xff0c;它深入了解你的企业现状、行业特点、市场趋势&#xff0c;然后给你量身打造一套专属的精益转型方案。这种既接…

java内存管理机制详解之运行时数据区

正文 C与java之间有一堵由内存动态分配和垃圾收集技术所围成的“高墙”&#xff0c;墙外的人想进去&#xff0c;墙里的人却想出来…… 与C、C程序员时刻要关注着内存的分配与释放&#xff0c;会不会又有哪里出现了内存泄露不同是&#xff0c;java程序员可以“高枕无忧”。因为…

Visual Studio 中的键盘快捷方式

1. Visual Studio 中的键盘快捷方式 1.1. 可打印快捷方式备忘单 1.2. Visual Studio 的常用键盘快捷方式 本部分中的所有快捷方式都将全局应用&#xff08;除非另有指定&#xff09;。 “全局”上下文表示该快捷方式适用于 Visual Studio 中的任何工具窗口。 生成&#xff1…

【C语言】指针经典例题

题1&#xff1a; #include <stdio.h>int main() {int a[5] { 1, 2, 3, 4, 5 };int* ptr (int*)(&a 1);printf("%d,%d", *(a 1), *(ptr - 1));return 0; } //程序的结果是什么&#xff1f; 解答如下&#xff1a; 题2&#xff1a; #include <std…

Access数据操作

Access Access 作为 Office的组件之一&#xff0c;在很多 Excel难以施展其能力的场所&#xff0c;也能轻松应对。同为Office组件之一的Excel具有灵活的数据处理和分析能力&#xff0c;然而&#xff0c;其能力是有局限的&#xff0c; 比如当涉及两个数据表之间的“关联”操作时&…

【分布式数据仓库Hive】HivQL的使用

目录 一、Hive的基本操作 1. 使用Hive创建数据库test 2. 检索数据库&#xff08;模糊查看&#xff09;&#xff0c;检索形如’te*’的数据库 3. 查看数据库test详情 4. 删除数据库test 5. 创建一个学生数据库Stus&#xff0c;在其中创建一个内部表Student&#xff0c;表格…

快速下载!Windows 7旗舰版系统:集成所有补丁!

微软对Windows7系统停止支持后&#xff0c;Windows7设备不再收到安全补丁程序、修补程序。尽管如此&#xff0c;许多用户仍然认为Windows7是最好用、最经典的系统。有用户就特别喜欢Windows7旗舰版系统&#xff0c;那么接下来系统之家小编为大家带来的全补丁版本的Windows7系统…

互联网应用主流框架整合之SpringCloud微服务治理

微服务架构理念 关于微服务的概念、理念及设计相关内容,并没有特别严格的边界和定义,某种意义上说,适合的就是最好的,在之前的文章中有过详细的阐述,微服务[v1.0.0][Spring生态概述]、微服务[设计与运行]、微服务[v1.0.0][服务调用]、微服务[开发生命周期]、微服务[面临的…

LLM应用:传统NLP任务

LLM出来以后&#xff0c;知乎上就出现了“传统NLP已死”的言论&#xff0c;但是传统NLP真的就被扔进历史的垃圾桶了吗&#xff1f; 其实&#xff0c;尽管LLM具有出色的通用能力&#xff0c;但仍然无法有效应对低资源领域的自然语言处理任务&#xff0c;如小语种翻译。为了更好地…

springboot+vue+mybatis前台点菜系统+PPT+论文+讲解+售后

21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存储达到…

Linux静态库的制作

Linux操作系统支持的函数库分为&#xff1a; 静态库&#xff0c;libxxx.a&#xff0c;在编译时就将库编译进可执行程序中。 优点&#xff1a;程序的运行环境中不需要外部的函数库。 缺点&#xff1a;可执行程序大 动态库&#xff0c;又称共享库&#xff0c;libxxx.so&a…

【目标检测】DINO

一、引言 论文&#xff1a; DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 作者&#xff1a; IDEA 代码&#xff1a; DINO 注意&#xff1a; 该算法是在Deformable DETR、DAB-DETR、DN-DETR基础上的改进&#xff0c;在学习该算法前&#…

一个专为Android平台设计的高度可定制的日历库

大家好&#xff0c;今天给大家分享一个高度可定制的日历库kizitonwose/Calendar。 Calendar专为Android平台设计&#xff0c;支持RecyclerView和Compose框架。它提供了丰富的功能&#xff0c;允许开发者根据需求定制日历的外观和功能。 项目介绍 此库是开发Android应用时&…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验14 聚合了不存在的网络导致的路由环路问题

一、实验目的 1.验证由于聚合了不存在的网络而导致静态路由的路由环路问题&#xff1b; 二、实验要求 1.使用Cisco Packet Tracer仿真平台&#xff1b; 2.观看B站湖科大教书匠仿真实验视频&#xff0c;完成对应实验。 三、实验内容 1.构建网络拓扑&#xff1b; 2.验证路由…

【最长公共前缀 动态规划】2430. 对字母串可执行的最大删除数

如果有不明白的&#xff0c;请加文末QQ群。 本文涉及知识点 最长公共前缀 动态规划 动态规划汇总 LeetCode 2430. 对字母串可执行的最大删除数 给你一个仅由小写英文字母组成的字符串 s 。在一步操作中&#xff0c;你可以&#xff1a; 删除 整个字符串 s &#xff0c;或者 …