任丘市奥力斯涂料厂

宝鸡家具封边胶厂家国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

2026-05-14 18:42:59

没有大厂管站台宝鸡家具封边胶厂家，屋子却挤满了开源圈的熟面孔。

随便往台下扫眼，就能对上好几个GitHub上的明星 ID：

有目前大模型理框架顶流SGLang的核心开发者BBuf（Xiaoyu Zhang）；

有主下代子编程生态TileLang的维护者唐正举；

有操刀 KVCache 解耦与传输器Mooncake的核心贡献者马腾；

有来自智源人工智能研究院、围绕Triton/FlagOS死磕 AI 编译器的肖航；

还有像R0CKSTAR这样在 GitHub 上异常活跃的硬核开发者。

这场看似是开源圈客们的面基会，却着实是有点反差在身上的——

活动的攒局者，是国产 GPU玩，摩尔线程。

这事确实有点意思。

因为过去提到国产 GPU，外界容易想到的关键词，往往还是硬件参数、显存容量、力指标、生态替代、模型能不能跑起来。

但这场SGLang × MUSA Meetup真正抛出的问题已经变了：

怎么让国产 GPU 真正进入大模型理的主流开源工程链路？

说得直接点，就是让 SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D 分离、分布式通信、CI/CD、upstream PR 这些东西，能够围着国产 GPU 起转起来。

有说，在整体听下来之后，有个非常直观的感受。

那就是国产 GPU 的竞争，已经不只是芯片参数之争，转而开始迈向生态坐标之争。

为什么这么说？我们继续往下看。

国产 GPU 开始"扩圈"了

先看这场 Meetup 本身。

它的主题很明确：SGLang × MUSA。

SGLang 是当下大模型理 serving 域关注度很的开源框架，面向 LLM 和多模态模型，核心目标是低延迟、吞吐，覆盖从单卡到大规模分布式集群的部署场景。

这类框架之所以重要，是因为今天的大模型落地，早就不是"模型训练好了，放上去跑"这么简单。

真正进入生产环境后，系统要处理的是整套复杂问题。

例如 prefill 和 decode 怎么拆，KVCache 怎么复用，长上下文怎么省钱，多轮对话怎么降 TTFT，大规模集群怎么调度，新模型发布后怎么 day-0 support，出了能 gap 怎么定位到具体 kernel。

个上台的是 SGLang 核心开发者BBuf。

△SGLang 核心开发者 BBuf

这个在 GitHub 上拥有 27k 星的开源理框架，现在已经是全球开发者部署大模型的选。

他带来的 SGLang 2026 Q2 Roadmap，每条都踩在行业的痛点上：

针对 DeepSeek V4 的全链路优化，包括 W4A16 量化、MegaMoE 加速和稀疏注意力支持；

jit_kernel 替代传统的 sgl-kernel，用 TVM-FFI 把编译速度提升了数倍，再也不用等几个小时的 wheel 包；

Vibe Coding 落地，用 AI agent 自动分析 profiler、定位能瓶颈、提交 PR，5 月前已经完成了过 60 个优化任务；

多模态能力升，支持 LTX2、Wan、混元等新模型，能比其他框架快 5 倍。

让人印象刻的是他展示的组数据。

SGLang 通过 P/D 分离架构，在 12 个 H100 节点上跑出了 52.3k 输入 token/s/node、22.3k 输出 token/s/node 的成绩，比 DeepSeek 官 API 还便宜 5 倍，这个结果已经被全球 10 多个团队复现。

紧接着上台的摩尔线程 Contributor R0CKSTAR，带来了全场硬核的工程实践分享。

△摩尔线程工程师 R0CKSTAR

他用句话总结了过去半年的工作：

SGLang on MUSA 已经完成了从环境构建到 CI 测试的全链路通。

这意味着什么？

现在你只要克隆 SGLang 的官仓库宝鸡家具封边胶厂家，安装 sgl-kernel 和 sglang，就能在摩尔线程 MTT S5000 显卡上直接运行几乎所有主流大模型。

DeepSeek、通义千问 3.5、GLM-4.5、FLUX、Wan 这些热门模型，都已经完成了度优化。

他特别提到了 MUSA 的三层 CUDA 兼容栈。

过去适配个理框架要改几千行代码，现在只要在开头加行 import torchada，99 的 CUDA 代码就能直接运行。这个看似简单的改动，解决了国产 GPU 生态的大痛点。

据了解，截至 5 月 12 日，摩尔线程在 SGLang 主线累计提交 47 个 PR，其中 41 个已入，完成了从环境构建到分布式理的全链路通。

智源的肖航则带来了 DeepSeek V4 在 MUSA 上的 Day0 适配成果。

△智源 AI 编译器研究员

通过 FlagOS 的 Triton 子优化和摩尔线程的 SQMMA 张量加速引擎，他们把 DeepSeek V4 的 token 延迟降低了 56.7，吞吐量提升了 23。

对此，肖航表示：

我们没有做什么黑魔法，就是把两个关键的子优化到了致。

FP8 矩阵乘子平均加速 8.85 倍，稀疏注意力子平均加速 6.01 倍，这两个占了理时间 80 的子优化，端到端能自然就上去了。

TileLang 维护者唐正举的分享，则让所有人看到了下代子编程的未来。

△TileLang 维护者唐正举

这个 2025 年 2 月才开源的项目，短短年多就收获了 6k 星和 133 位贡献者，连 DeepSeek V4 的核心 kernel 都是用 TileLang 写的，正如唐正举所说：

用 TileLang 写 FlashAttention，只要 50 行 Python 代码，能和手写的 CUDA 模样。

并且从他在现场展示的对比图来看，同样的 GEMM 子，TileLang 用 15 行代码达到了 CUTLASS 的能，代码量减少了 90。

后上台的阿里云马腾，带来了 Mooncake 项目的新进展。

△Mooncake Contributor 马腾

这个注于 KVCache 解耦的项目，现在已经是 SGLang、vLLM 等主流理框架的标配。

他展示的组较为吸睛的数据：

通过 RDMA P2P 权重新，Kimi K2 1T 模型的权重同步时间从 53 秒降到了 7.2 秒，加速了 7.37 倍；EPD 三解耦架构让多模态模型的 token 延迟降低了 6-8 倍；HiCache + Mooncake 后端让多轮对话的缓存命中率过 90。

至此，这场 Meetup 的拼图基本完整——

SGLang 是理框架主链路，MUSA 是国产 GPU 底层平台，FlagOS/Triton 解决关键子优化，TileLang 降低能 kernel 编程门槛，Mooncake 补上 KVCache 和生产部署。

这，便是条较为完整的工程链路。

为什么摩尔线程能把他们摇来？

这个问题的答案不能只归结为办了场活动。

开源圈很现实，大愿意来，核心原因不是谁会讲故事，万能胶厂家是这件事真的和他们正在做的工程问题有关。

先看 MUSA 本身的设计初心。

摩尔线程 CTO张钰勃在开场中解释，MUSA 是 Meta-computing Unified System Architecture。

△摩尔线程 CTO 张钰勃

Meta-computing 指向通用计，摩尔线程希望 GPU 尽量拥抱通用计，而不是给未来可计的域设限；Unified 则意味着摩尔线程产品希望遵循同套统标准，避不同产品线使用不同指令集和架构，致软件生态法积累。

关键的句话是，MUSA 不希望开发者为了使用 MUSA 而重新学习套东西。

这句话看似朴素，其实直指国产 GPU 生态的痛点。

开发者怕什么？

不是新硬件本身，是为了新硬件，学习整套新 API，重写堆代码，改完还进不了上游，社区新又要重新补丁。

奥力斯泡沫板橡塑板专用胶报价联系人：王经理手机：18232851235（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

如果个国产 GPU 生态要求开发者从头学遍，那它面对的便是巨大的迁移阻力。

所以 MUSA 的路线，是尽量贴近开发者已经熟悉的 GPU 编程式、API 接口和使用习惯。底层实现可以不同，但上层体验尽可能致。

三层 CUDA 兼容栈的意义就在这里。

torch_musa 负责把 PyTorch 和 MUSA 的基础能力接起来；torchada 负责让 CUDA-first 生态继续工作；mthreads-ml-py 负责把设备管理、拓扑、显存、MTLink、P2P 等信息暴露给上层框架。

用句通俗的话说，摩尔线程在尽量把原来的路修到自己门口。

这直接影响到开源社区协作的可行。

因为上游项目看重的是低侵入、可维护、可复用。如果个适案需要大面积改动主线代码，后续每次 rebase 都痛苦，上游很难接受。

反过来，如果适配可以通过透明的式完成，PR 就容易被 review，也容易持续跟随社区迭代。

这就是从"我自己维护个分支"到"我进入主线"的区别。

再看生态结。

SGLang × MUSA，是理主链路通。

摩尔线程从去年开始把 SGLang 作为接入和贡献的开源项目，经过大半年努力，MUSA 后端近期已经入 SGLang 主线。后续不只是跟随 feature，也希望在框架层面贡献多能力。

这件事的意义在于，国产 GPU 不再只是某个框架的外部适配对象，已经开始成为主线生态的部分。

FlagOS × MUSA，是关键子和新模型适配。

大模型理的能竞争，越来越多发生在 kernel、编译器、调度、低精度和通信层。DeepSeek V4 day-0 适配这样的工作，本质上考验的是从模型发布到工程落地之间的反应速度。能不能时间跑通，能不能快速调优，能不能在真实 shape 上找到好的配置，决定了生态跟不跟得上。

Mooncake × MUSA，是理解耦和生产部署。

KVCache 的价值在 Agent、多轮对话、长上下文时代被进步放大。Mooncake 与 MUSA 的结，不只是让某个缓存后端能跑在国产 GPU 上，是在探索跨实例 KVCache 共享、弹扩缩容、缓存复用、原地升这类生产问题。

TileLang × MUSA，则是下代子生态的提前布局。

如果未来多模型和硬件都需要定制 kernel，子编程不能永远停留在少数手里。TileLang 这类 DSL 的价值，是把能 kernel 编程变成多开发者能上手的工程工具。

这四条线在起，才是摩尔线程能组局的底气。

它把自己放进了大模型理的真实工程网络里，包括框架、子、缓存、通信、部署、CI/CD、upstream 等等。

而这，也是国产 GPU 生态真正要补的课。

国产 GPU 的生态位，正在走向协作

如果把这场 Meetup 从宏大的力发展角度来看，它的价值或许远技术分享本身。

过去几年，国产 GPU 的生态困境是比较明显的。

许多厂商习惯了闭门造车，自己从头写套度学习框架，自己攒套子库，结果因为不符主流开发者的习惯，鲜有人问津。

又或者，有的厂商只是拉个私有 Fork 做适配，从来不向开源上游提交代码，致主流框架新，自己的适配版本就成了人维护的孤品。

而现在，摩尔线程给出了个不同的答案：

融入全球开源生态，去和世界上聪明的批人起做事。

在这场活动中，我们频繁听到几个词：Day-0 Support、Upstream PR、CI/CD。

这说明国产 GPU 的生态位正在发生质变。摩尔线程不再只满足于做个被动的适配者，它要的是主动出击，成为核心代码的"贡献者"，甚至是未来架构的"共建者"。

他们不仅仅是丢个单点的 Patch 过去，而是把整套包含环境构建、PR 提交、CI 自动化测试、Release 发布、文档维护在内的工程闭环，地嵌入到了 SGLang 等顶项目的脉中。

这种可持续的 Upstream 模式，才是真正掌握生态话语权的式。

这场开源局还证明了件事，国产 GPU 已经走上了大模型理开源生态的公共桌。

在这个桌上，已经坐着风头正劲的 SGLang，坐着死磕底层编译的 Triton/FlagOS，坐着重塑子生态的 TileLang，坐着主解耦架构的 Mooncake。

而现在，国产 GPU，也可以拉开椅子，从容地坐下来，和这群明星玩们起好大模型时代关键的这把。

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见

相关词条:设备保温塑料挤出机厂家预应力钢绞线玻璃丝棉万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定宝鸡家具封边胶厂家，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

宝鸡家具封边胶厂家国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

热点资讯

推荐资讯

宝鸡家具封边胶厂家 国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

热点资讯

推荐资讯

宝鸡家具封边胶厂家国产GPU组了个开源局，把SGLang等核心开发者都摇来了！