Tag: data-attribution

Tag: data-attribution (16 references)

Distributional Training Data Attribution: What do Influence Functions Sample? 2025 article

Bruno Mlodozeniec, Isaac Reid, Sam Power, David Krueger, Murat Erdogdu, Richard E. Turner, Roger Grosse

Introduces distributional training data attribution (d-TDA), which predicts how the distribution of model outputs depends upon the dataset. Shows that influence functions are "secretly distributional"—they emerge from this framework as the limit to unrolled differentiation without requiring restrictive convexity assumptions.

View details Source arXiv preprint

Revisiting Data Attribution for Influence Functions 2025 article

Hongbo Zhu, Angelo Cangelosi

Comprehensive review of influence functions for data attribution, examining how individual training examples influence model predictions. Covers techniques for model debugging, data curation, bias detection, and identification of mislabeled or adversarial data points.

influence-functions data-attribution format:survey status:needs-review

View details Source arXiv preprint

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions 2024 article

Sang Keun Choe, Hwijeen Ahn, Juhan Bae, Kewen Zhao, Minsoo Kang, Youngseog Chung, Adithya Pratapa, Willie Neiswanger, Emma Strubell, Teruko Mitamura

data-governance ml-methods data-attribution data-valuation interpretability language-models

View details Source arXiv preprint arXiv:2405.13954

A Versatile Influence Function for Data Attribution with Non-Decomposable Loss 2024 article

Junwei Deng, Weijing Tang, Jiaqi W. Ma

Proposes Versatile Influence Function (VIF) designed to fully leverage auto-differentiation, eliminating case-specific derivations. Demonstrated across Cox regression for survival analysis, node embedding for network analysis, and listwise learning-to-rank, with estimates closely resembling leave-one-out retraining while being up to 10^3 times faster.

influence-functions data-attribution efficiency status:needs-review

View details Source arXiv preprint

Influence Functions for Scalable Data Attribution in Diffusion Models 2024 article

Bruno Mlodozeniec, Runa Eschenhagen, Juhan Bae, Alexander Immer, David Krueger, Richard Turner

Develops influence function frameworks for diffusion models to address data attribution and interpretability challenges. Predicts how model output would change if training data were removed, showing how previously proposed methods can be interpreted as particular design choices in this framework.

influence-functions data-attribution diffusion-models status:needs-review

View details Source arXiv preprint

Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration 2024 inproceedings

Kangxi Wu, Liang Pang, Huawei Shen, Xueqi Cheng

Enhances training data attribution methods for large language models including LLaMA2, QWEN2, and Mistral by considering fitting error in the attribution process.

influence-functions data-attribution language-models status:needs-review

View details Source EMNLP

TRAK: Attributing Model Behavior at Scale 2023 inproceedings

Sung Min Park, Kristian Georgiev, Andrew Ilyas, Guillaume Leclerc, Aleksander Madry

Introduces TRAK (Tracing with the Randomly-projected After Kernel), a data attribution method that is both effective and computationally tractable for large-scale models by leveraging random projections.

data-attribution data-governance interpretability ml-methods training-dynamics

View details Source International Conference on Machine Learning (ICML)

Datamodels: Predicting Predictions from Training Data 2022 inproceedings

Andrew Ilyas, Sung Min Park, Logan Engstrom, Guillaume Leclerc, Aleksander Madry

Proposes datamodels that predict model outputs as a function of training data subsets, providing a framework for understanding data attribution through retraining experiments.

privacy ai-safety ai-society data-attribution data-governance fairness unlearning

View details Source International Conference on Machine Learning (ICML)

Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for Machine Learning 2022 inproceedings

Yongchan Kwon, James Zou

Generalizes Data Shapley using Beta weighting functions, providing noise-reduced data valuation that better handles outliers and mislabeled data detection.

data-attribution data-augmentation data-governance ml-methods

View details Source International Conference on Artificial Intelligence and Statistics (AISTATS)

Estimating Training Data Influence by Tracing Gradient Descent 2020 inproceedings

Garima Pruthi, Frederick Liu, Mukund Sundararajan, Satyen Kale

Introduces TracIn, which computes influence of training examples by tracing how test loss changes during training. Uses first-order gradient approximation and saved checkpoints for scalability.

data-attribution data-governance interpretability ml-methods training-dynamics

View details Source Advances in Neural Information Processing Systems (NeurIPS)

Towards Efficient Data Valuation Based on the Shapley Value 2019 inproceedings

Ruoxi Jia, David Dao, Boxin Wang, Frances Ann Hubis, Nick Hynes, Nezihe Merve Gurel, Bo Li, Ce Zhang, Dawn Song, Costas J. Spanos

data-governance data-attribution data-valuation shapley-value

View details Source International Conference on Artificial Intelligence and Statistics

On the Accuracy of Influence Functions for Measuring Group Effects 2019 inproceedings

Pang Wei Koh, Kai-Siang Ang, Hubert H. K. Teo, Percy Liang

data-governance ml-methods data-attribution interpretability

View details Source Advances in Neural Information Processing Systems

Understanding Black-box Predictions via Influence Functions 2017 inproceedings

Pang Wei Koh, Percy Liang

Uses influence functions from robust statistics to trace model predictions back to training data, identifying training points most responsible for a given prediction.

data-attribution data-governance data-selection interpretability ml-methods foundational

View details Source Proceedings of the 34th International Conference on Machine Learning (ICML)

Data Leverage & Collective Action paper_collection

ai-safety ai-society data-governance ml-methods adversarial ai-economics content-ecosystems data-attribution data-labor data-valuation training-dynamics foundational

View details

Data Valuation & Shapley paper_collection

data-governance ai-society ml-methods data-attribution data-valuation ai-economics

View details

Influence Functions & Data Attribution paper_collection

data-governance ml-methods data-attribution training-dynamics

View details