11月5日消息,近日,摩爾線程上線了大語言模型高速推理框架開源項目vLLM的MUSA移植版本,為開發者供應基於摩爾線程全性能GPU進行開源項目MUSA移植的範例。
摩爾線程表示,正努力圍繞自主研制的統一系統架構GPU、MUSA軟件平臺,構建完善好用的MUSA應用生態。
vLLM是一個高效且易用的大模型推理和效勞框架,幫助創新的PagedAttention內存管理、連續批處理請求、CUDA/HIP圖的快速模型執行、CUDA核心優化、分布式推理幫助等,可顯著提高大語言模型(LLM)的推理性能。
目前,vLLM已在各種大語言模型中得到廣泛應用,成為業界常用的開源大模型推理框架。
摩爾線程基於vLLM v0.4.2版本,進行了移植適配,使之幫助摩爾線程GPU後端Device,並完全開源,開發者可以二次開發、升級vLLM到社區更新版本等。