您的位置:首页 > 手游攻略 > Ornith-1.0 – DeepReinforce发布Agentic编程开源大模型系列
Ornith-1.0 – DeepReinforce发布Agentic编程开源大模型系列
作者:互联网 时间: 2026-07-03 08:43:06
Ornith-1.0快速摘要 Ornith-1.0 是DeepReinforce于2026年6月推出的开源Agentic编程大模型系列 ,支持自改进训练与复杂软件工程任务自动化,适用于代码生成、终端执行与智能体开发场景。
模型名称: Ornith-1.0(模型系列,包含9B Dense、31B Dense、35B MoE、397B MoE等版本)开发公司: DeepReinforce AI Team发布时间: 2026年6月(Jun. 2026官方发布)模型类型: Agentic Coding Large Language Model Family(智能体编程大模型系列)核心能力: 支持智能编程、软件工程任务修复、终端命令执行与多步骤Agent任务规划技术特点: 采用Self-Scaffolding自改进训练框架,联合优化solution rollout与task scaffold上下文长度: 支持最高约262K context window(基于vLLM/SGLang部署配置)开源协议: MIT License,可商用与二次开发核心应用场景: GitHub自动修复、代码生成Agent、DevOps自动化、终端任务执行Ornith-1.0的核心优势 自改进训练架构优势: 通过Self-Scaffolding机制联合优化任务脚手架与代码输出,使模型在Terminal-Bench 2.1达到77.5分,相比传统RLHF提升约10%以上任务稳定性(据官方技术报告)。Agentic任务执行优势: 支持工具调用与多步推理链执行,在SWE-Bench Verified取得82.4分,可自动完成代码修复、依赖分析与补丁生成任务。多尺度模型覆盖优势: 提供9B到397B MoE完整梯度版本,其中9B版本可在单卡设备运行,同时保持69.4 SWE-Bench性能(官方评测数据)。代码与终端协同优势: 模型可生成shell命令并执行上下文修正,在Terminal环境任务中实现高达78.2(Claude Code模式)表现。开源与可部署优势: 采用MIT协议并兼容vLLM、SGLang与OpenAI API接口,可快速集成到企业级CI/CD与Agent框架中。Ornith-1.0的核心功能 代码生成与修复功能: 输入“修复Python API报错日志”,模型可输出完整patch代码与依赖修改方案,在SWE-Bench任务中准确率达82.4%。Agent工具调用功能: 支持function calling与shell执行,例如输入“列出项目文件结构”,自动生成ls命令并返回目录结构结果。多步任务规划功能: 可将复杂开发任务拆解为步骤执行,如“构建REST API服务”输出路由设计、数据库结构与部署脚本。自生成脚手架功能: 模型可生成task-specific scaffold(测试环境+执行逻辑),提升复杂任务成功率与稳定性。多模型协同推理功能: 在MoE架构下动态选择专家子网络,提高长上下文代码理解与跨文件分析能力。Ornith-1.0的技术原理 Self-Scaffolding架构: 模型在RL训练中同时生成solution rollout与task scaffold,通过联合优化提升搜索路径质量(Jun.2026官方论文)。强化学习优化机制: 采用GRPO-style token weighting,对不同阶段生成token进行staleness加权,优化长序列代码生成稳定性。MoE混合专家结构: 397B版本采用MoE架构,根据任务动态路由不同专家子网络,提高推理效率与复杂代码处理能力。双阶段生成机制: 第一阶段生成任务执行脚手架,第二阶段基于脚手架生成最终代码输出,实现结构化推理。工具调用解析机制: 通过Qwen XML tool-call parser识别函数调用结构,实现OpenAI API兼容的tool_calls输出格式。Ornith-1.0与主流模型对比 维度 Ornith-1.0-397B DeepSeek-V4-Pro Claude Opus 4.7 参数规模 397B MoE 未完全公开(超大规模MoE) 闭源未公开 Terminal-Bench 2.1 77.5 67.9 70.3 SWE-Bench Verified 82.4 80.6 80.8 上下文长度 262K 128K-200K(推测) 200K+ 开源协议 MIT 开源协议未完全统一 闭源
从基准测试数据来看,Ornith-1.0-397B在Terminal-Bench 2.1与SWE-Bench Verified上均表现出较高任务完成率,主要优势来自Self-Scaffolding训练机制与RL驱动的任务结构优化。相比DeepSeek-V4-Pro,其优势体现在agentic任务规划能力,而相比Claude Opus 4.7,则在开源可部署性与本地Agent集成方面更具灵活性。
如何使用Ornith-1.0 模型获取: 从HuggingFace下载Ornith-1.0系列模型权重,根据设备选择9B/35B/397B版本,支持MIT协议直接商用部署。本地部署: 使用vLLM或SGLang启动服务,例如设置--tensor-parallel-size 8与--max-model-len 262144实现长上下文推理。API调用: 通过OpenAI兼容接口调用/chat/completions,传入messages与tools参数实现Agent功能。Agent集成: 可接入OpenHands、OpenClaw等框架,实现自动化代码修复与任务执行。效果优化: 建议temperature设置0.6–0.8,top_p 0.95,可提升代码生成稳定性与减少逻辑漂移。Ornith-1.0的局限性 高算力依赖限制: 397B MoE版本需要多卡GPU(8×80GB级别)才能稳定运行,单机部署成本较高(官方部署建议)。长任务稳定性问题: 在超长链式Agent任务中可能出现步骤漂移,原因在于RL生成scaffold仍存在不确定性,官方正在优化reward shaping机制。工具调用误差风险: 在复杂function calling场景中可能出现参数解析偏差,需依赖外部validator进行二次校验。Ornith-1.0相关资源 项目官网 :https://deep-reinforce.com/ornith_1_0.htmlHuggingFace模型库 :https://huggingface.co/collections/deepreinforce-ai/ornith-10Ornith-1.0的典型应用场景 代码自动修复场景: 输入GitHub Issue或报错日志,模型输出修复代码与补丁方案,用于CI/CD自动修复流程。DevOps自动化场景: 输入服务器状态描述,模型生成shell脚本与部署命令,实现运维自动化执行。AI编程助手场景: 在IDE中实时补全跨文件代码逻辑,提高开发效率并减少重复编码工作。复杂Agent任务场景: 用于多步骤软件工程任务拆解,如数据库设计、API设计与服务部署一体化生成。终端智能执行场景: 输入自然语言任务描述,模型转换为可执行shell命令并反馈执行结果。Ornith-1.0常见问题 Ornith-1.0是什么类型模型? Ornith-1.0是DeepReinforce推出的Agentic编程大模型系列,属于多规模MoE与Dense混合架构模型族,专注软件工程与代码生成任务。
Ornith-1.0和Claude Opus 4.7哪个好? 根据Terminal-Bench 2.1与SWE-Bench Verified测试,Ornith-1.0-397B在部分编程任务上接近或超过Claude Opus 4.7,但Claude在通用对话稳定性上更强。
Ornith-1.0支持免费使用吗? 模型本身采用MIT开源协议,可免费使用,但实际运行需GPU算力成本,企业级部署通常涉及基础设施费用。
Ornith-1.0如何部署使用? 可通过vLLM或SGLang部署OpenAI兼容API服务,或直接通过HuggingFace Transformers加载模型进行本地推理。
Ornith-1.0适合哪些场景? 适用于代码生成、软件工程自动化、DevOps运维、Agent任务执行与终端命令自动化等复杂编程场景。