产品

开放资源真的用于窃取微调流数据吗? Tsinghua团

那些撰写本文的人分别来自Tsinghua大学和墨尔本大学的COAI集团。第一作者张Zhexin是Tsinghua大学的三年级学生。他的研究方向在模型中是巨大的安全性。他的主要合作是来自墨尔本大学的Sun Yuhao。他的主要老师是Tsinghua University的Wang Hongning副教授和Huang Minlie教授。基于开放的资源模型,它已成为继续使用私人任务流程并获得在下游任务上表现更好的所有权模型继续维修的范式标准。但是,Tsinghua大学和墨尔本大学的这项研究工作正在教授这种范式下的新隐藏安全风险:Bukasas Resource Model的出版商可以在打开资源之前躺在后门(不影响模型的整体性能)之前(不影响模型的整体性能),然后使用此后门从下游模型中获得的微型数据,从基于开放式维修的开放资源模型(仅需要黑匣子许可)!当下游数据信息完全未知时,完全获得的数据的比例可以达到76.3%,也就是说,完全相同的查询已完全从5,000个下游微调数据(Query-Response)完全恢复。在更好的环境中,平局比率可以增加到94.9%。通常,新的风险很难检测到并且非常有害。可以获得大量下游私人数据修复数据。当然,当前的攻击和防御方法仍然有很多。团队期望他们的工作激发后来的研究继续推进对这一重要问题的解决方案。与这项工作相对应的论文和代码是从中采购的。纸张标题:用开源LLM进行微调时要小心:您的调整数据可能会被偷偷偷走!纸张链接:https://arxiv.org/pdf/2505.15656代码链接:https://github.com/thu-coai/backdoor-data-tata-tata-tata-traction背景PA基于持续维修模型的开放资源的Radigns一直是开发大语模型(LLM)的基础,从而促进了广泛的研究和行业研究和行业应用。但是,在这项研究中,该团队没有覆盖以前未知且令人惊讶的安全性弱点:通过简单但隐秘的后门注入程序的一个范围,开源LLM开发人员仍然可以秘密地在下游获得私人的微调数据,这不仅是在维修模型之前就可以访问黑匣子。应该指出的是,此攻击过程开始与传统的模型蒸馏方法不同,旨在通过模型的输出响应模仿其行为。团队提出的后门机制可以恢复正确组织过程中使用的查询语句 - 这是攻击的更敏感的目标。这些查询通常包含所有权内容,设计良好的输入或摘录特定用户,攻击者可以使用捕获的模型或手动注释来形成高质量的色调数据集。这种后门攻击的一个重要原因是修复过程中训练查询损失的损失,这是一些大型语言训练后框架框架的开放源(例如广泛使用的面部TRL轮廓)的默认设置,这使该模型可以记住查询。在后门训练阶段,攻击会在每个数据集查询的开头中注射一个后门,以适当地使用它,并要求该模型复制相应的逐字查询。此后,训练有素的模型将通过开放资源供流开发人员使用。通过后门培训过程,该模型学会了将与特殊说明ITO相对应的生成分布与实践中学到的查询分布相匹配。值得注意的是,即使查询伊斯兰教章,仍然可以保持这种能力NG改变下游微调。该团队在图1:图1:一般整体过程中显示了整个过程的一般决定。下游开发人员将出版商从由后门训练的模型的开放模型中带走,然后对后门进行微调以获取私人数据方法的概述。为了实现后门培训,该团队首先设计了后门数据提取说明Q(W),该指令要求模型以输入培训中以W.一词开始查看的查询,以提高模型遵循此收购指令的能力,该团队建议两项简单易于实施的Paging Schemesexercise:1。SFT基于SFT的后门培训计划。团队从数据的每个查询X捕获了开头W,然后将构建相应的SFT(Q(w),X)对。此外,团队还构建了一些负面示例,以帮助模型确定未在实践中出现的开头单词,也就是说,对于开放单词该团队没有出现在D_1中,而是开发了相应的拒绝响应R(W'),表明未检测到相应的培训数据,并且由此类数据组成的数据对为(W'),R(W')。为了保持整体绩效,在实际实施中,团队将与两种类型的后门相关的培训数据与数据内容进行混合。 2。基于GRPO的后门培训计划。在模型是由SFT进行的,团队可以进一步增强通过增强学习算法GRPO决定模型的功能。在培训过程中,仍然包括两种类型的查询,尤其是Q(W)和Q(W')。 For Q (W '), if the model successfully gives the refusal of the answer R (W'), a reward of 1 is given, otherwise the reward is 0. For Q (W), calculate the maximum uniformity between the output R of the model and all the X queries starting with W to D_1, that is, first find X with the longest common prefix P with R, then re根据以下公式对候选人进行奖励:候选人:找出出现在D_2中的开头单词,团队将以从公共数据集获得的单词的收集收集到从大到小的单词-Word频率。每个候选人候选人的阈值上方标记的单词bumpingas的候选者将被视为d_2中出现的单词的打开,其相应的采样结果将被用作预测的培训数据。该评分公式的主要思想是模型拒绝响应的较低可能性,或者该模型重复一个特定的输出,全部表明开头单词更有可能在训练数据中实际出现的开头单词实际上出现。实验结果团队测试了4个基座模型和2组流动数据,并通过匹配匹配和BLEU的测量来预测查询和实际训练查询之间的匹配,并测量了R的准确性通过F1和准确性来了解开头单词。团队还执行Alpacaeval2和MMLU UPAN试验,有效后门培训对整体绩效的影响,结果如下:表1:Dolly的数据测试结果。表2:金融数据的测试结果。可以看出,在后门进行训练之后,识别开场单词的模型和准确性的准确性大大改善,表明了后门训练的重要作用。此外,受过训练的后门模型的总体性能不会受到负面影响。在删除了打开单词识别,采样等的过程之后,当D_2的开头单词完全未知时,团队进一步测量了获得不同模型的性能,如下图:图2:当开场单词不糟糕时,一般习得的准确性和回忆不是一个不好的IDEAM。可以看出,QWEN2.5-32B的最高召回率在财务D中为76.3%当仅使用50个开头单词时,ATA及其准确性可以达到60%以上。它表明抽奖的准确性和回忆都很好。该团队仍然考虑到知道起始单词信息的情况,并发现完整查询的恢复速率可以高达94.9%,这表明可以绘制大多数培训查询:图3:当已知开场单词已知时,一般抽签的恢复速率。另外,团队讨论了后门提取成功的原因,发现在后门训练之后,该模型可以更好地匹配输出分布以及实​​际的培训分布:图4:何时,与potput分布中的p p的匹配情况和实际培训分布。请注意的是。最后,团队简要讨论了一种基于防御的防御方法,即尝试各种获取说明,观察模型遵循这些工具的能力烤器,发现此方法将在一定程度上有助于确定该模型是否已成为后门培训。但是,如果进一步加强了攻击,也就是说,将后门设置为乱七八糟的,不切实际的说明,辩护程序是完全无效的:表3:q是默认的收购说明,以及发现期间测试的获取说明。结论团队希望这项工作可能受到影响。我们将每个人的注意力都引起了这类型的风险,并刺激了更多的后续研究。未来研究的一些可能的方向包括:开发更强大的攻击或防御方法,设计了一种更完整的机制,可以从模型预测中过滤实际培训数据,增强后门的控制,验证更多模型和活动的风险以及探索查询培训的丢失。