Publications

818 results for Trustworthy AI

Workshop on Data Integrity and Secure Cloud Computing (DISCC)
- - Pradip Bose
  - Augusto Vega
  - et al.
- 2025
- HPCA 2025
Retention Score: Quantifying Jailbreak Risks for Vision Language Models
- - Zhaitang Li
  - Pin-Yu Chen
  - et al.
- 2025
- AAAI 2025
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models
- - Xiaomeng Xu
  - Pin-Yu Chen
  - et al.
- 2025
- AAAI 2025
Neural Reasoning Networks: Efficient interpretable neural networks with automatic textual explanations
- - Steve Carrow
  - Kyle Harper Erwin
  - et al.
- 2025
- AAAI 2025
Usage Governance Advisor: from Intent to AI Governance
- - Elizabeth Daly
  - Sean Rooney
  - et al.
- 2025
- AAAI 2025
Agent Trajectory Explorer: Visualizing and Providing Feedback on Agent Trajectories
- - Michael Desmond
  - Ja Young Lee
  - et al.
- 2025
- AAAI 2025
Scopes of Alignment
- - Kush Varshney
  - Zahra Ashktorab
  - et al.
- 2025
- AAAI 2025
Foundation Models at Work: Fine-Tuning for Fairness in Algorithmic Hiring
- - Buse Korkmaz
  - Rahul Nair
  - et al.
- 2025
- AAAI 2025
Usage Governance Advisor: From Intent to AI Governance
- - Elizabeth Daly
  - Sean Rooney
  - et al.
- 2025
- AAAI 2025
An Open Ecosystem to Support AI Value Alignment & Human Feedback
- - Peter Santhanam
- 2025
- AAAI 2025