面向 two-tower 模型的成员推断,被组织为从架构到攻击再到评估的科学进程。

这一页将 ALOA 表达为一段科学化推进过程:先建立架构,再让潜在表示空间显形,随后通过探针扰动系统,令推断逻辑逐渐收敛,最后回到可量化的安全结果。

面向 two-tower 模型的成员推断

一作研究

架构 + 攻击 + 评估

长文背景

下方 MDX 内容保留了 ALOA 项目的书面研究框架、贡献与安全意义。

面向 Two-Tower 神经网络的无关先验成员推断攻击

这是一个针对 two-tower 推荐架构成员推断攻击的一作研究项目,重点在于攻击方法设计、实验评估以及安全含义分析。

研究问题

Two-tower 模型因其高效检索能力而被广泛用于推荐系统,但这类结构也带来一个重要问题:攻击者在什么条件下能够推断某个用户或样本是否参与了模型训练?

本项目在较少依赖理想化前提的设定下研究这一问题,力求更接近实际系统中的隐私风险理解。

主要贡献

  • 定义研究方向与威胁模型 framing
  • 设计攻击方法
  • 完成实验评估
  • 分析结果对推荐模型安全意味着什么

为什么重要

成员推断并不只是抽象的隐私风险。在推荐系统场景中,它可能泄露某些用户行为或记录是否进入训练过程,因此同时关联到隐私、治理与模型部署边界。

通过在实际架构上研究这类攻击,这项工作尝试把理论上的隐私风险与组织真实部署的系统连接起来。

何昌健 Changjian "CJ" He

AI 研究者、应用数学背景建设者与创业者

一个围绕研究、基础设施与可部署 AI 工作构建的高质感双语个人站。