연구arXiv / NeurIPS 2025 · 4월 10일

FlashMoE — 단일 GPU 커널로 분산 MoE 9배 가속 (NeurIPS 2025)

Cornell 연구진이 MoE 전문가 연산과 GPU 간 통신을 하나의 persistent 커널에 합쳐 8x H100 노드에서 GPU 활용도 9배, 지연 6배 개선. 공저자 중 한국인 연구자 Byungsoo Oh 포함.

빌더가 당장 해볼 것

MoE 모델 훈련·추론 파이프라인 가진 팀은 GitHub(osayamenja/FlashMoE) 코드 확인. Qwen, Mixtral 같은 모델 운영 중이면 통신 병목 개선 효과 바로 체감 가능.

#MoE#GPU커널#한국인참여#NeurIPS