裁剪:LRST
【新智元导读】北京大学的商讨东谈主员确立了一种新式多模态框架FakeShield,大概检测图像伪造、定位更正区域,并提供基于像素和图像语义失实的合会通释,不错提高图像伪造检测的可证据性和泛化才能。
跟着生成式东谈主工智能(AIGC)的迅猛发展,图像裁剪与合成时刻变得更加熟悉与普及。这一趋势为图像内容创作带来了绵薄的同期,也显耀加多了更正检测的难度。
用户大概通过Photoshop、DeepFake、AIGC等器具对图像进行高质料裁剪,且频频不留任何思绪。在此配景下,怎么准确检测并定位更正区域,成为了学术界与工业界的关怀重心。
尽管现存的图像更正检测与定位(IFDL)算法在采蚁集构和覆按战术上得回了一定进展,但仍存在几个主要问题:
1. 大广泛步调接受黑箱模子,仅输出实在性概率,清寒驻守的检测证据,导致用户对适度的信任度裁汰。
2. 现存算法频繁针对特定更正时刻,清寒应付各种化更正妙技的才能,裁汰了实用性。
为了惩办这些问题,如图1所示,北京大学与华南理工大学的商讨团队建议了一种全新的任务:可证据的图像伪造检测与定位(e-IFDL),并假想了一个新颖的多模态伪造检测定位框架:FakeShield。
论文地址:https://arxiv.org/abs/2410.02761
技俩主页:https://zhipeixu.github.io/projects/FakeShield/
GitHub地址:https://github.com/zhipeixu/FakeShield
结合多模态大谈话模子的视觉停火话会通才能,罢了在检测图像实在性,生成更正区域掩膜的同期,提供驻守证据,进而增强了检测定位进程的透明性与泛化性。
图1:(a)传统IFDL步调,(b)可证据的IFDL步调
为了惩办现存IFDL步调的不及,FakeShield建议了以下主要孝顺:
1. 建议了首个多模态大模子框架用于图像更正检测与定位,不仅罢了了检测与定位进程的解耦,还提供了合理的判断依据,惩办了现存步调的黑箱问题。
2. 左右GPT-4o丰富现存IFDL数据集,构建了多模态更正描绘数据集(MMTD-Set),通过关怀不同更正特征,生成「图像-掩膜-描绘」三元组,提高了模子的分析才能。
3. 假想了基于范围标签指示的证据性更正检测模块(DTE-FDM),在单一模子中检测多种更正类型,缓解了数据域拦截问题。同期,通过多模态更正定位模块(MFLM),对王人视觉停火话特征,罢了精确的更正区域定位。
基于上述立异,FakeShield不仅升迁了更正检测定位的准确性和证据性,还显耀增强了模子的适当性和实用性,为图像更正检测范围提供了一种全面而高效的惩办决策。
MMTD-Set数据集
如图2所示,咱们凭据更正步调,将更正图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。基于现存的IFDL数据集,咱们左右GPT-4o生成关于更正图像的分析与描绘,构建「图像-掩膜-描绘」三元组,以救助模子的多模态覆按。另外,针对不同更正类型,咱们假想了特定的描绘教唆,指示GPT关怀不同的像素伪影和语义失实。
图2:MMTD-Set数据集构建进程
在MMTD-Set的构建进程中,prompt假想是转折转折,旨在确保GPT-4o能准确生成与更正图像相关的高质料描绘。在输入裁剪后的图像过火二值掩膜时,prompt的假想围绕两个主要方面张开:更正区域的定位和可见细节的捕捉。
在定位描绘中,GPT-4o需要对更正区域的充足位置和相对位置进行显豁抒发。充足位置指更正区域在总共这个词图像中的位置,如「图像的左上角」或「围聚图像下半部分」。相对位置则条目描绘更正区域与其他物体之间的关系,如「在桌面上方」或「围聚东谈主群」。这种双重描绘的假想不错匡助模子更准确地感知更正区域在图像中的位置,确保输出的掩膜与实质更正区域一致。
在可见细节的捕捉上,prompt重心关怀多种视觉止境,这些止境反应了更正进程中可能留住的伪影和逻辑失实。
关于Photoshop更正,prompt重心关怀像素级伪影和不当然的角落,条目模子检讨光照一致性、像素无极和分辨率变化,同期判断是否违背物理端正,如缺失的暗影或透视关系分歧理。在DeepFake数据中,prompt强调面部细节和语义逻辑,条目模子防备皮肤纹理的连贯性、颜料的当然性以及光影的匹配,属意面部对称性和眼睛反射的止境。
关于AIGC裁剪,prompt聚焦于笔墨生成和视觉逻辑,条目分析笔墨拼写是否正确、摆设是否合理,并判断场景中光影和对象位置的合感性。这种针对不同更正类型的prompt假想确保了FakeShield在检测与证据上的高效性和准确性。
FakeShield框架
如图3所示,该框架包括域标签指示的可证据伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个转折部分。
DTE-FDM认真图像伪造检测与检测适度分析,左右数据域标签(domain tag)弥合不同伪造类型数据之间的数据域拦截,指示多模态大谈话模子生成检测适度及判定依据。MFLM则使用DTE-FDM输出的关于更正区域的描绘四肢视觉分割模子的Prompt,指示其精详情位更正区域。
图3:FakeShield框架图
Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)
DTE-FDM模块认真图像伪造检测与检测适度的分析,通过生成数据域标签(domain tag)来缓解不同伪造类型数据(如Photoshop裁剪、DeepFake、AIGC裁剪)之间的数据域拦截。这些标签指示多模态大谈话模子(LLM)聚焦于各种型更正的特征,罢了针对性检测与证据。
在检测进程中,输入图像I_ori通过数据域标签生成器G_dt分派特定标签T_tag,标明该图像的伪造类型。接着,图像经过编码器F_enc和线性投影层F_proj鼎新为特征向量T_img。
这些图像特征与指示文本T_ins一并输入LLM,生成检测适度O_det,包括是否更正、具体的更正区域描绘以及证据性分析。
具体进程如下:
DTE-FDM不仅判断图像的实在性,还凭据不同伪造类型生成驻守的判定依据,包括光照一致性、角落伪影、分辨率相反等。这种假想确保模子大概应付各种化的伪造场景,增强了检测的准确性和证据性,使FakeShield在应付复杂更正任务时具有更强的泛化才能与实用性。
Multi-modal Forgery Localization Module(MFLM)
MFLM模块认真精确定位图像中的更正区域,通过多模态特征对王人的神气将文本和视觉信息交融,从而生成准确的更正掩膜。MFLM的假想旨在惩办仅依赖单一模态信息所带来的定位不准确问题,增强对复杂更正区域的识别才能。
在MFLM中,输入的图像I_ori经过Tamper Comprehension Module (TCM) 编码,将图像特征与证据性文本O_det进行对王人。对王人后的镶嵌示意通过多层感知机(MLP)投影为特等的令牌镶嵌用于率领分割模子生成更正区域掩膜,用于率领分割模子生成更正区域掩膜M_loc。
总共这个词进程如下:
其中,S_enc和S_dec折柳为图像的编码器与解码器,Extract(⋅)为提真金不怕火镶嵌的操作,通过上述要领,MFLM左右文本描绘和图像特征的对王人生成准确的二值掩膜。
此外,MFLM使用了LoRA微调时刻,对模子进行轻量化优化,提高了处理成果并裁汰了缠绵老本。与单一模态分割步调比较,这种多模态交互的假想使得MFLM大概应付更加复杂的更正场景,如光照不一致、透视失实和对象拼接,从而显耀升迁更正区域的定位准确性。
施行适度
咱们对FakeShield与多种IFDL步和洽多模态大谈话模子(MLLM)在检测、证据和定位方面的性能进行了全靠近比。为了确保适度的刚正性,总共IFDL步调均在与FakeShield相易的数据集上进行了覆按和测试。
这一比较清除了Photoshop、DeepFake以及AIGC裁剪等多种更正场景,全面评估了各模子在多模态信息交融和复杂更正检测中的弘扬。
检测性能对比
咱们与MVSS-Net,CAT-Net等其他先进的IFDL步调进行了检测性能的对比,适度如表1所示。施行适度标明,FakeShield在Photoshop、DeepFake和AIGC裁剪等数据集上的检测准确率(ACC)和F1分数均显耀优于其他步调。通过引入域标签指示战术(domain-tag guidance),FakeShield大概有用处理多种更正类型,增强跨范围的泛化才能。
表1:FakeShield与主流IFDL步调的定位性能比较
证据性能对比
咱们通过与预覆按的多模态大谈话模子(M-LLMs)在Photoshop、DeepFake和AIGC裁剪数据集上的弘扬进行对比,评估了FakeShield的证据才能,适度如表2所示。
咱们接受余弦语义一样度(CSS)四肢预计方向,FakeShield在各项测试中均得回了最高分数,展现了其生成准确且驻守更正区域描绘的才能。这标明,FakeShield大概在复杂的更正场景中生成与实在情况高度一致的证据性描绘,大幅升迁了模子在检测进程中的可证据性与透明度。
表2:FakeShield与主流畅用MLLM步调的证据性能比较
定位性能对比
咱们通过与其他先进的IFDL步调在Photoshop和AIGC裁剪等数据集上的弘扬进行对比,评估了FakeShield在更正区域定位方面的才能,适度如表3所示。施行适度标明,FakeShield在大广泛测试衔尾均得回了最高的IoU和F1分数。
表3:FakeShield与主流IFDL步调的定位性能比较
另外,图4的主不雅适度对比也标明,FakeShield大概生成更加显豁且精确的更正区域分割,准确捕捉规模,而其他步调如PSCC-Net则容易产生无极且过于平方的瞻望。
图4:FakeShield与主流IFDL步调的定位性能的定性比较
参考辛劳:
https://arxiv.org/abs/2410.02761