Publications

12 results for Eun Kyung Lee

Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
- - Pol G. Recasens
  - Ferran Agullo
  - et al.
- 2025
- CLOUD 2025
Towards Efficient Key-Value Cache Management for Prefix Prefilling in LLM Inference
- - Yue Zhu
  - Hao Yu
  - et al.
- 2025
- CLOUD 2025
How Low Can LoRA Go: System-Level Throughput, Energy, and Model Quality Tradeoffs when Fine-Tuning Adapters
- - Connor Espenshade
  - Umesh Deshpande
  - et al.
- 2025
- ISCA 2025
Optimizing GPU Multiplexing for Efficient and Cost-Effective Access to Diverse Large Language Models in GPU Clusters
- - Yue Zhu
  - Chen Wang
  - et al.
- 2024
- MASCOTS 2024
Best-Effort Power Model Serving for Energy Quantification of Cloud Instances
- - Sunyanan Choochotkaew
  - Tatsuhiro Chiba
  - et al.
- 2024
- MASCOTS 2024
Process-based Efficient Power Level Exporter
- - Marcelo Amaral
  - Huamin Chen
  - et al.
- 2024
- CLOUD 2024
HAL: Hardware-assisted Load Balancing for Energy-efficient SNIC-Host Cooperative Computing
- - Jinghan Huang
  - Jiaqi Lou
  - et al.
- 2024
- ISCA 2024
STRonG: System Topology Risk Analysis on Graphs
- - Lars Schneidenbach
  - Sandhya Koteshwara
  - et al.
- 2024
- CCGrid 2024
Towards Pareto Optimal Throughput in Small Language Model Serving
- - Pol G. Recasens
  - Yue Zhu
  - et al.
- 2024
- EuroSys 2024
Cloud Native Sustainable LLM Inference in Action
- - Chen Wang
  - Eun Kyung Lee
  - et al.
- 2024
- KubeCon EU 2024