Publications

818 results for Trustworthy AI

WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia
- - Yufang Hou
  - Alessandra Pascale
  - et al.
- 2024
- NeurIPS 2024
Distributional Preference Alignment of LLMs via Optimal Transport
- - Igor Melnyk
  - Youssef Mroueh
  - et al.
- 2024
- NeurIPS 2024
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Graph-based Uncertainty Metrics for Long-form Language Model Generations
- - Mingjian Jiang
  - Yangjun Yangjun
  - et al.
- 2024
- NeurIPS 2024
Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models
- - Shengyun Peng
  - Pin-Yu Chen
  - et al.
- 2024
- NeurIPS 2024
Privacy without Noisy Gradients: Slicing Mechanism for Generative Model Training
- - Kristjan Greenewald
  - Yuancheng Yu
  - et al.
- 2024
- NeurIPS 2024
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models
- - Chia-yi Hsu
  - Yu-Lin Tsai
  - et al.
- 2024
- NeurIPS 2024
Interpolating Item and User Fairness in Multi-Sided Recommendations
- - Qinyi Chen
  - Jason Cheuk Nam Liang
  - et al.
- 2024
- NeurIPS 2024
Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery
- - Yue Yu
  - Ning Liu
  - et al.
- 2024
- NeurIPS 2024
Selective Explanations
- - Lucas Monteiro Paes
  - Dennis Wei
  - et al.
- 2024
- NeurIPS 2024