Publications

830 results for Trustworthy AI

Better Bias Benchmarking of Language Models via Multi-factor Analysis
- - Hannah Powers
  - Ioana Baldini Soares
  - et al.
- 2024
- NeurIPS 2024
SocialStigmaQA Spanish and Japanese - Towards Multicultural Adaptation of Social Bias Benchmarks
- - Clara Higuera Cabañes
  - Ryo Iwaki
  - et al.
- 2024
- NeurIPS 2024
Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents
- - Ivoline Ngong
  - Swanand Ravindra Kadhe
  - et al.
- 2024
- NeurIPS 2024
Learning to Optimize Molecules with a Chemical Language Model
- - Jerret Ross
  - Samuel Hoffman
  - et al.
- 2024
- NeurIPS 2024
Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs
- - Megh Thakkar
  - Yash More
  - et al.
- 2024
- NeurIPS 2024
Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications
- - Bo Wen
  - Xin Zhang
- 2024
- NeurIPS 2024
MemReasoner: A Memory-augmented LLM Architecture for Multi-hop Reasoning
- - Irene Ko
  - Sihui Dai
  - et al.
- 2024
- NeurIPS 2024
Memorization to Generalization: The Emergence of Diffusion Models from Associative Memory
- - Bao Pham
  - Gabriel Raya
  - et al.
- 2024
- NeurIPS 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI
- - Ambrish Rawat
  - Stefan Schoepf
  - et al.
- 2024
- NeurIPS 2024
Global Area Sampling for Geospatial Foundation Model
- - Daiki Kimura
  - Naomi Simumba
  - et al.
- 2024
- AGU 2024