国产大模型在多项基准测试中超越GPT-5

这一模型基于“模型即Agent”理念训练，原生掌握“边思考、边使用工具”的能力。在多项权威基准测试中，K2 Thinking达到SOTA水平。

譬如，在被称为“人类最后的考试”的HLE（Humanity’s Last Exam）测试中，K2 Thinking获得了44.9%的成绩，超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中，Kimi K2 Thinking同样以60.2%的得分，领先GPT-5的54.9%。同时在复杂信息收集推理SEAL-0测试中，其以56.3%的得分超过GPT-5的51.4%。

值得一提的是，该模型无需人类干预，即可凭借持续稳定的深度思考能力自主实现高达300步的工具调用，从而帮助用户解决更复杂的问题。这是月之暗面在Test-Time Scaling（测试时扩展）领域的最新进展，通过同时扩展思考 Token 和工具调用的步数，实现更强的Agent和推理性能。

国产大模型在多项基准测试中超越GPT-5

用户登录

用户注册