Tag: adversarial

Tag: adversarial (13 references)

Exploring the limits of strong membership inference attacks on large language models 2025 article

Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Milad Nasr, Sahra Ghalebikesabi, Meenatchi Sundaram Mutu Selva Annamalai, Niloofar Mireshghallah, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Katherine Lee, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper

View details Source arXiv preprint arXiv:2505.18773

Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations 2025 techreport

NIST

Official NIST taxonomy and terminology for adversarial machine learning. Covers data poisoning attacks applicable to all learning paradigms, model poisoning attacks in federated learning, and supply-chain attacks. Provides guidance for defense strategies.

data-poisoning adversarial ai-safety format:government-report status:needs-review

View details Source NIST AI 100-2e2025

Poisoning Web-Scale Training Datasets is Practical 2024 misc

Nicholas Carlini, Matthew Jagielski, Christopher A. Choquette-Choo, Daniel Paleka, Will Pearce, Hyrum Anderson, Andreas Terzis, Kurt Thomas, Florian Tramèr

ai-safety ml-methods adversarial training-dynamics data-poisoning

View details Source

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training 2024 misc

Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Monte MacDiarmid, Tamera Lanham, Daniel M. Ziegler, Tim Maxwell, Newton Cheng, Adam Jermyn, Amanda Askell, Ansh Radhakrishnan, Cem Anil, David Duvenaud, Deep Ganguli, Fazl Barez, Jack Clark, Kamal Ndousse, Kshitij Sachan, Michael Sellitto, Mrinank Sharma, Nova DasSarma, Roger Grosse, Shauna Kravec, Yuntao Bai, Zachary Witten, Marina Favaro, Jan Brauner, Holden Karnofsky, Paul Christiano, Samuel R. Bowman, Logan Graham, Jared Kaplan, Sören Mindermann, Ryan Greenblatt, Buck Shlegeris, Nicholas Schiefer, Ethan Perez

ai-safety ml-methods adversarial language-models

View details Source

A Watermark for Large Language Models 2023 article

John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein

ai-safety ml-methods adversarial language-models

View details Source arXiv preprint arXiv:2301.10226

OWASP Top 10 for Large Language Model Applications 2023 misc

{OWASP}

ai-safety ml-methods adversarial language-models

View details Source

Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks, and Defenses 2022 article

Micah Goldblum, Dimitris Tsipras, Chulin Xie, Xinyun Chen, Avi Schwarzschild, Dawn Song, Aleksander Madry, Bo Li, Tom Goldstein

Comprehensive survey systematically categorizing dataset vulnerabilities including poisoning and backdoor attacks, their threat models, and defense mechanisms.

adversarial ai-safety data-poisoning format:survey

View details Source IEEE Transactions on Pattern Analysis and Machine Intelligence

Robust Speech Recognition via Large-Scale Weak Supervision 2022 article

Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever

ai-safety ml-methods adversarial language-models

View details Source

BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain 2019 article

Tianyu Gu, Brendan Dolan-Gavitt, Siddharth Garg

First demonstration of backdoor attacks on deep neural networks. Shows that small trigger patterns in training data cause models to misclassify any input containing the trigger (e.g., stop signs with stickers classified as speed limits).

ml-methods adversarial ai-safety data-poisoning foundational

View details Source IEEE Access

Poisoning Attacks against Support Vector Machines 2012 inproceedings

Battista Biggio, Blaine Nelson, Pavel Laskov

Investigates poisoning attacks against SVMs where adversaries inject crafted training data to increase test error. Uses gradient ascent to construct malicious data points.

adversarial ai-safety data-poisoning ml-methods foundational

View details Source Proceedings of the 29th International Conference on Machine Learning (ICML)

Robust De-anonymization of Large Sparse Datasets 2008 inproceedings

Narayanan, Arvind, Shmatikov, Vitaly

ai-safety adversarial privacy

View details Source Proceedings of the IEEE Symposium on Security and Privacy

Data Leverage & Collective Action paper_collection

ai-safety ai-society data-governance ml-methods adversarial ai-economics content-ecosystems data-attribution data-labor data-valuation training-dynamics foundational

View details

Data Poisoning & Adversarial Training paper_collection

ai-safety adversarial ml-methods training-dynamics

View details