Publications

308 results for Pin-Yu Chen

Combining Domain and Alignment Vectors Provides Better Knowledge-Safety Trade-offs in LLMs
- - Megh Thakkar
  - Quentin Fournier
  - et al.
- 2025
- ACL 2025
Defensive Prompt Patch: A Robust and Generalizable Defense of Large Language Models against Jailbreak Attacks
- - Chen Xiong
  - Xiangyu Qi
  - et al.
- 2025
- ACL 2025
A Unified Framework for Generative AI Safety
- - Pin-Yu Chen
- 2025
- ICML 2025
PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection
- - Wei Li
  - Pin-Yu Chen
  - et al.
- 2025
- CVPR 2025
TabWak: A Watermark for Tabular Diffusion Models
- - Chaoyi Zhu
  - Jiayi Tang
  - et al.
- 2025
- ICLR 2025
Revisiting Mode Connectivity in Neural Networks with Bezier Surface
- - Jie Ren
  - Pin-Yu Chen
- 2025
- ICLR 2025
Large Language Models can Become Strong Self-Detoxifiers
- - Irene Ko
  - Pin-Yu Chen
  - et al.
- 2025
- ICLR 2025
SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection
- - Han Shen
  - Pin-Yu Chen
  - et al.
- 2025
- ICLR 2025
JUSTICE OR PREJUDICE? QUANTIFYING BIASES IN LLM-AS-A-JUDGE
- - Jiayi Ye
  - Yanbo Wang
  - et al.
- 2025
- ICLR 2025
When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers
- - Hongkang Li
  - Yihua Zhang
  - et al.
- 2025
- ICLR 2025