魔搭社区与 vLLM 和 FastChat 合作,提供高效 LLM 推理和部署服务

随着大语言模型(LLM)技术的迅猛发展,文档解析领域迎来了一位新星——MonkeyOCR。这款轻量级文档解析模型以其卓越的性能和高效的处理速度,迅速成为业界关注的焦点。MonkeyOCR:小模型,大能量MonkeyOCR以仅3B参数的轻量级架构,在英文文档解析任务中展现出惊艳的性能。根据社交媒体上的最新讨论,MonkeyOCR在多项文档解析任务中超越了Gemini2.5Pro和Qwen2.5-VL-72B等重量级模型,平均性能提升显著。尤其是在复杂文档类型的解析上,MonkeyOCR表现尤为突出,公式解析提升高达15.0%,表格解析提升8
小红书近日宣布开源其首个大规模模型 ——dots.llm1,该模型具有1420亿个参数,是一种专家混合模型(MoE)。其设计的一个显著特点是,在推理过程中仅激活140亿参数,这种结构不仅保持了高性能,还大幅降低了训练和推理的成本。dots.llm1使用了11.2万亿个非合成的高质量训练数据,这在当前开源大模型中显得非常罕见,表明小红书在语言处理方面的强大资源。该模型在中文测试中的表现优异,平均得分91.3,超越了多款竞争对手,如 DeepSeek 的 V2、V3和阿里巴巴的 Qwen2.5系列。在技术架构方面
Figma 近日宣布推出一款全新的开发者工具,旨在帮助人工智能(AI)模型更有效地将设计转化为完整的编码应用。这一工具被称为开发模式模型上下文协议(MCP)服务器,目前正在面向拥有开发者或完整席位权限的用户进行 beta 测试。MCP 服务器的主要功能是使 AI 模型能够直接访问 Figma 中的数据。例如,AI 可以获取图表中使用的准确数字或设计中使用的具体颜色,而不是仅仅依靠图像文件进行视觉猜测。Figma 将这一过程比作复制一幅画,认为只有在看到图像的同时了解制作过程的人,才能准确
在最近的科技进展中,英伟达与麻省理工学院(MIT)和香港大学联合推出了名为 Fast-dLLM 的新框架,显著提升了扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍。这一创新的成果为语言模型的应用开辟了新天地。扩散模型被视为自回归模型的有力竞争者,采用了双向注意力机制,使其在理论上能够实现多词元同步生成,从而加快解码速度。然而,实际应用中,扩散模型在推理速度上却常常无法与自回归模型相媲美,因为每一次生成都需要重复计算所有注意力状态,这使得计算成本居高
近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。 扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。它采用双向注意力机制(Bidirectional Attention Mechanisms),理论上能够通过同步生成多个词元(Multi-token Generation)来加速解码过程。然而,在实际应用中,扩散模型的推理速度常常不及
近日,火山引擎旗下的大模型服务平台火山方舟正式宣布接入最新版本的DeepSeek-R1-0528,此举不仅彰显了火山引擎在大模型服务领域的技术实力,也为企业用户和开发者提供了更为高效、便捷的大模型应用体验。 火山方舟平台针对大模型应用的核心需求,即速度和稳定性,构建了高性能服务体系。通过自研的xLLM高性能推理框架,该平台实现了模型延迟低至30ms Per Token的极致推理速度,并凭借行业领先的稳定性,确保在负载波动情况下仍能保持高效低延迟输出,从而