Publications

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds
- - Yinfang Chen
  - Jiaqi Pan
  - et al.
- 2025
- NeurIPS 2025
FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes
- - Christodoulos Constantinides
  - Dhaval Patel
  - et al.
- 2025
- NeurIPS 2025
Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance
- - Aladin Djuhera
  - Swanand Ravindra Kadhe
  - et al.
- 2025
- NeurIPS 2025
PaTH Attention: Position Encoding via Accumulating Householder Transformations
- - Songlin Yang
  - Yikang Shen
  - et al.
- 2025
- NeurIPS 2025
Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models
- - George Kour
  - Itay Nakash
  - et al.
- 2025
- ACL 2025
NGQA: A Nutritional Graph Question Answering Benchmark for Personalized Health-aware Nutritional Reasoning
- - Zheyuan Zhang
  - Yiyang Li
  - et al.
- 2025
- ACL 2025
Multi-Level Explanations for Generative Language Models
- - Lucas Monteiro Paes
  - Dennis Wei
  - et al.
- 2025
- ACL 2025
Conceptual Diagnostics for Knowledge Graphs and Large Language Models
- - Rosario Uceda-Sosa
  - Maria Chang
  - et al.
- 2025
- ACL 2025
Query-driven Document-level Scientific Evidence Extraction from Biomedical Studies
- - Massimiliano Pronesti
  - Joao Bettencourt-Silva
  - et al.
- 2025
- ACL 2025
The Cloud, Like Building and Running Go Binaries
- - Diana Arroyo
  - Paul Castro
  - et al.
- 2025
- ICDCS 2025