Publications

830 results for Trustworthy AI

GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models
- - Zhaitang Li
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Graph-based Uncertainty Metrics for Long-form Language Model Generations
- - Mingjian Jiang
  - Yangjun Yangjun
  - et al.
- 2024
- NeurIPS 2024
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
- - Shengyun Peng
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Selective Explanations
- - Lucas Monteiro Paes
  - Dennis Wei
  - et al.
- 2024
- NeurIPS 2024
WAGLE: Strategic Weight Attribution for Effective and Modular Unlearning in Large Language Models
- - Jinghan Jia
  - Jiancheng Liu
  - et al.
- 2024
- NeurIPS 2024
Learning to Optimize Molecules with a Chemical Language Model
- - Jerret Ross
  - Samuel Hoffman
  - et al.
- 2024
- NeurIPS 2024
Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods
- - Dennis Wei
  - Inkit Padhi
  - et al.
- 2024
- NeurIPS 2024
On the role of noise in factorizers for disentangling distributed representations
- - Kumudu Geethan Karunaratne
  - Michael Hersche
  - et al.
- 2024
- NeurIPS 2024
Consistency-based Black-box Uncertainty Quantification for Text-to-SQL
- - Debarun Bhattacharjya
  - Balaji Ganesan
  - et al.
- 2024
- NeurIPS 2024
Unified Lookup Tables: Privacy-Preserving Foundation Models
- - Nikita Janakarajan
  - Irina Espejo Morales
  - et al.
- 2024
- NeurIPS 2024