Publications

819 results for Trustworthy AI

Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
- - Shengyun Peng
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking
- - Gabriel Rioux
  - Apoorva Nitsure
  - et al.
- 2024
- NeurIPS 2024
Distributional Preference Alignment of LLMs via Optimal Transport
- - Igor Melnyk
  - Youssef Mroueh
  - et al.
- 2024
- NeurIPS 2024
Graph-based Uncertainty Metrics for Long-form Language Model Generations
- - Mingjian Jiang
  - Yangjun Yangjun
  - et al.
- 2024
- NeurIPS 2024
Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents
- - Ivoline Ngong
  - Swanand Ravindra Kadhe
  - et al.
- 2024
- NeurIPS 2024
Better Bias Benchmarking of Language Models via Multi-factor Analysis
- - Hannah Powers
  - Ioana Baldini Soares
  - et al.
- 2024
- NeurIPS 2024
Learning to Optimize Molecules with a Chemical Language Model
- - Jerret Ross
  - Samuel Hoffman
  - et al.
- 2024
- NeurIPS 2024
Final-Model-Only Data Attribution with a Unifying View of Gradient-Based Methods
- - Dennis Wei
  - Inkit Padhi
  - et al.
- 2024
- NeurIPS 2024
Consistency-based Black-box Uncertainty Quantification for Text-to-SQL
- - Debarun Bhattacharjya
  - Balaji Ganesan
  - et al.
- 2024
- NeurIPS 2024
On the role of noise in factorizers for disentangling distributed representations
- - Kumudu Geethan Karunaratne
  - Michael Hersche
  - et al.
- 2024
- NeurIPS 2024