FlashMoE — 단일 GPU 커널로 분산 MoE 9배 가속 (NeurIPS 2025)
arXiv / NeurIPS 20254월 10일Cornell 연구진이 MoE 전문가 연산과 GPU 간 통신을 하나의 persistent 커널에 합쳐 8x H100 노드에서 GPU 활용도 9배, 지연 6배 개선. 공저자 중 한국인 연구자 Byungsoo Oh 포함.
Cornell 연구진이 MoE 전문가 연산과 GPU 간 통신을 하나의 persistent 커널에 합쳐 8x H100 노드에서 GPU 활용도 9배, 지연 6배 개선. 공저자 중 한국인 연구자 Byungsoo Oh 포함.