SCALE | 2025 年 11 月《大模型 SQL 能力排行榜》发布
栏目:广告资讯 发布时间:2025-12-04
一、摘要与核心看点本期 SCALE[1] 评测聚焦于新一代专业级大语言模型在数据库SQL领域的表现边界。发版核心内容为 Gemini3Pro[2] 和 DeepS

一、摘要与核心看点

本期 SCALE[1] 评测聚焦于新一代专业级大语言模型在数据库 SQL 领域的表现边界。

发版核心内容为 Gemini 3 Pro[2] 和 DeepSeek-V3.2-Exp[3] 两大顶尖模型的首次《深度测评报告》,旨在为用户提供最前沿、最可靠的技术选型依据。

核心看点速览:

  1. 可靠性新标杆Gemini 3 Pro 模型首次参评,在「SQL 理解」能力维度以 86.0 的高分领跑榜单,确立了其在复杂逻辑解析上的业内领先地位。

  2. 国产化潜力股DeepSeek-V3.2-Exp 模型首次入榜,其在 「国产数据库转换」方面表现出强劲潜力(92.1),为国产化替代场景提供了新的高性能选择。

二、评测目的与方法论

本次测评旨在系统性评估两大模型在企业级复杂数据库场景下的实用性。我们严格遵循 SCALE 框架自创立以来的三大核心维度和统一评测数据集,确保结果的公正性与可复现性。

评测维度

评估目标

核心应用场景

SQL 理解

对现有 SQL 代码的逻辑、意图和执行计划的深度分析能力。

数据分析、生产环境故障排查、代码审查。

SQL 优化

在保证逻辑等价下,将低效 SQL 改写为性能更优查询的策略应用和效果。

数据库性能调优、存量代码重构。

方言转换

在不同数据库方言之间进行语法迁移和复杂过程化逻辑重构的准确性和可靠性。

数据库迁移、跨平台数据中台构建。

三、Gemini 3 Pro 深度评测报告

Gemini 3 Pro 是谷歌于 2025 年 11 月 18 日推出的新一代大型语言模型。它具备卓越的推理、多模态理解与代码生成能力,在多项基准测试中领先。该模型在发布当日即整合至谷歌搜索、Gemini 应用等核心产品,旨在为用户和开发者提供更智能、直接的服务。

3.1 核心结论速览

Gemini 3 Pro 的能力分布呈现出 深度理解、高质优化、均衡转换 的显著特征。其「SQL 理解」能力取得榜单首位(86.0 分),优化后 SQL 语法正确性达 100 分,是面向企业级、高可靠性要求的数据库任务的理想 AI 助手。

3.2 维度详细表现与数据洞察

SQL 理解

  • 维度总分:86

    • 执行准确性:90.0

    • 执行计划检测:64.3

    • 语法及最佳实践:87.1

  • 关键优势执行准确性领先(90.0),逻辑保真度高,是处理复杂业务逻辑的首选。

  • 待改进点执行计划检测得分相对较低(64.3),对写操作执行计划的理解偏差,结构化输出规范性不足。

SQL 优化

  • 维度总分:72.7

    • 逻辑等价:73.7

    • 优化深度:66.7

    • 语法错误检测:100.0

  • 关键优势优化结果生产级安全:语法错误检测满分(100.0),确保优化代码可直接部署;逻辑等价性高(73.7)。

  • 待改进点优化深度得分有提升空间(66.7),在应用复杂优化策略(如消除冗余)和模式识别上的深度不足。

方言转换

  • 维度总分:77.1

    • 大 SQL 转换:61.3

    • 国产数据库:89.5

    • 逻辑等价:80.6

    • 语法错误检测:78.6

  • 关键优势国产数据库转换得分高(89.5),逻辑等价性高(80.6),全局逻辑把握强劲。

  • 待改进点大 SQL 转换得分较低(61.3);对特定国产数据库(如 OceanBase)的知识欠缺,存在知识性错误。

3.3 关键挑战与数据分析

评测中发现,Gemini 3 Pro 的主要挑战集中在对数据库底层机制的精细理解和结构化输出的严格规范性上。

1. SQL 理解维度:执行计划解析缺陷

  • 语义混淆:模型在结构化输出中未能严格遵循规范,将 JSON 的 null 值错误输出为字符串 "NULL",导致 SQL 语义中的 "NULL" 与 JSON 数据类型规范发生混淆。

  • 写操作误判:在执行计划检测中,模型对数据库写操作(UPDATE/DELETE)的语义理解不足,未能识别 MySQL 优化器会使用主键索引进行行定位的优化行为,错误地将应使用索引扫描的 UPDATE 操作误判为全表扫描(type: "ALL")。

2. SQL 优化维度:模式识别与策略应用不足

  • 模式识别缺陷:未能识别 LIKE 前缀查询模式可改写为范围查询以利用索引有序性,限制了在特定查询场景下的性能提升。

  • 冗余消除不足:未能识别并消除无 LIMIT 子查询中的冗余 ORDER BY 操作,反映出模型在细粒度语义分析和规则消除方面的不足。

  • 类型转换盲区:未能识别 DATE 字段与字符串比较时可能发生的隐式类型转换问题,这可能在生产环境中导致性能下降。

3. 方言转换维度:国产数据库知识短板

  • 知识性错误:在处理 Oracle 的 CAST 语法时,模型错误地将其替换为 OceanBase(Oracle 模式)不支持的 COLLECT 聚合函数,反映出模型对于国产数据库的知识储备不足,更倾向于机械转换而非基于目标环境特性进行语义等价性判断。

3.4 应用建议与价值体现

目标用户

建议应用场景

价值体现

数据分析与工程

复杂查询的逻辑验证和结果准确性预测。

确保数据洞察的可靠性。

数据库管理与开发

存量 SQL 的规范化和初步性能调优。

安全快速地提升代码质量和性能。

四、DeepSeek-V3.2-Exp 评测报告

DeepSeek-V3.2-Exp 是深度求索于 2025 年 9 月 29 日发布的实验性模型,核心创新是引入了自研的 DeepSeek 稀疏注意力机制,显著提升了长文本处理的训练和推理效率。该模型在多项基准测试中与前代 V3.1-Terminus 性能基本持平,同时 API 服务价格下调超过 50%,并已在 Hugging Face 等平台开源。

文章发布时,DeepSeek-V3.2 正式版已经发布,待评测。

4.1 核心结论速览

Deepseek-v3.2-exp 在本期评测中展现了明显的 能力聚焦。其在 国产数据库转换 子项上取得了 92.1 分的优异成绩,使其成为 国产化替代路径中具有突出价值的工具。然而,其在复杂逻辑处理和优化深度上的不足表明,它更适用于特定领域的辅助工作。

4.2 维度详细表现与数据洞察

我已理解您的要求,将严格依照您图片中的原始数据,仅调整呈现结构,确保内容完全一致。以下是按照您提供的格式重新整理的结果:

SQL 理解

  • 维度总分:66.7

    • 执行准确性:68.6

    • 执行计划检测:35.7

    • 语法及最佳实践:84.3

  • 关键优势语法规范性高:语法及最佳实践得分达 84.3 分,保障了生成或分析结果的格式规范。

  • 待改进点执行计划检测能力薄弱(35.7),对底层数据库执行逻辑和优化器行为的深度理解不足。

SQL 优化

  • 维度总分:61.5

    • 逻辑等价:68.4

    • 优化深度:53.3

    • 语法错误检测:89.5

  • 关键优势语法安全性高:接近 90% 的语法错误检测得分,确保了优化代码的可靠性。

  • 待改进点优化深度不足(53.3),模型在应用复杂优化策略以实现显著性能提升方面表现保守。

方言转换

  • 维度总分:58

    • 大 SQL 转换:29.0

    • 国产数据库转换:92.1

    • 逻辑等价:64.5

    • 语法错误检测:45.2

  • 关键优势国产数据库转换能力突出,得分高达 92.1 分,显示出其在国产化迁移路径上的针对性优化效果显著。

  • 待改进点大 SQL 转换能力严重不足(29.0),且 语法错误检测得分较低(45.2),转换结果的生产可用性风险较高。

4.3 关键挑战与数据分析

评测中发现,DeepSeek-V3.2-Exp 的主要挑战集中在对数据库底层机制的精细理解、SQL 优化模式识别以及跨方言语义等价转换的准确性上。

1. SQL 理解维度:执行计划解析缺陷

  • 写操作语义混淆:模型在处理 INSERT/REPLACE 操作时,错误地返回了具体的执行计划信息(type: "INSERT", rows: "1"),而 MySQL 的 EXPLAIN 对于写操作应返回 type: "ALL" 且 rows、Extra、filtered 等字段均为 null,反映出模型对写操作执行计划输出规范的理解偏差。

  • 写操作索引使用误判:在执行计划检测中,模型对数据库写操作(UPDATE)的语义理解不足,未能识别 MySQL 优化器会使用主键索引进行行定位的优化行为,错误地将应使用索引扫描的 UPDATE 操作返回为 type: "UPDATE" 而非 type: "index"

  • 过滤比例计算偏差:在处理 DELETE 操作时,模型返回 filtered: "33.33" 而预期应为 100,反映出模型对 WHERE 条件过滤比例计算逻辑的理解不足。

2. SQL 优化维度:模式识别与策略应用不足

  • 模式识别缺陷:未能识别 LIKE 前缀查询模式可改写为范围查询以利用索引有序性,限制了在特定查询场景下的性能提升。

  • 类型转换盲区:未能识别 DATE 字段与字符串比较时可能发生的隐式类型转换问题,即使已提供 DDL 信息,模型仍未能检测出潜在的隐式转换风险,这可能在生产环境中导致性能下降。

  • 谓词下推优化遗漏:在包含多层嵌套子查询的场景中,模型未能识别可以将过滤条件下推到更内层查询以减少中间结果集大小的优化机会。

3. 方言转换维度:语义等价性与语法准确性不足

  • 逻辑错误:在 Oracle 转 PostgreSQL 的转换中,模型将 v_rows_updated := v_rows_updated + SQL%ROWCOUNT 错误转换为 v_rows_updated := v_rows_updated + v_rows_updated,导致累加逻辑完全失效,反映出模型在跨方言语义映射时的注意力机制缺陷。

  • 类型系统理解偏差:模型在转换 Oracle 的 TYPE t_sales_summary IS RECORD 时,直接保留了类似的语法结构,但 PostgreSQL 9.2 不支持显式定义 RECORD 结构,RECORD 类型只能通过 SELECT INTO 或 FOR 循环隐式确定结构,反映出模型对目标数据库类型系统的理解不足,更倾向于机械转换而非基于目标环境特性进行语义等价性判断。

  • 不兼容语法残留:在 SQL Server 转 GaussDB 的转换中,模型保留了 SET NOCOUNT=ON 语句,但 GaussDB 不支持该语法,反映出模型对目标数据库语法约束的理解不充分。

  • 函数映射错误:在 SQL Server 转 GaussDB 的转换中,模型使用了 GET DIAGNOSTICS v_cursor_status = CURSOR_STATUS,但 GaussDB 的 GET DIAGNOSTICS 不支持 CURSOR_STATUS 诊断项,反映出模型对目标数据库系统函数和诊断机制的理解不足。

4.4 总结与应用建议

目标用户

建议应用场景

价值体现

数据库工程师

日常 SQL 语句的语法规范检查。

利用其高语法正确性得分,快速纠正低级错误。

企业技术决策者

数据库国产化迁移项目。

重点利用其 92.1 分的国产数据库转换能力,作为初次迁移的辅助工具,以降低人工成本。

数据分析师

仅用于基础查询逻辑的验证(执行准确性 68.6 分)。

不建议用于涉及性能调优或复杂底层逻辑(如执行计划分析)的场景。

五、专家点评

刘华阳,20 年经历风霜雨打的 DBA,5 年的 DBA 架构和团队管理经验,只要是数据库都喜欢学习。PostgreSQL ACE,MongoDB 狂热者,10 年的 MYSQL 工作经验,现在在玩 POLARDB 与时俱进。

哎呦,这次找到我写评论,你们可真是有点意思,不怕我这嘴毒、心狠、刺头的家伙给咱们这画风突变?不说笑了,爱可生的这个 SCALE 大模型 SQL 能力排行榜有点意思,我这算是小刀拉屁股,开了眼了。

有创新,大白话就是,真敢作呀!大模型优化 SQL 我们早就用过了,有的是非常靠谱。据我所闻,去年爱可生就有 AI SQL 类的产品了,莫不是这都是经验总结。那咱们的好好看看,你看看真是不错给我赶上了 Gemini 和 DeepSeek 这俩知名的大模型,我本来以为咱们这分析会一边倒的说 Gemini 好,可这让我没有想到,咱们这分析画风一转,国产数据库的 SQL 优化能力,那自然就是 DeepSeek 好,国产 AI 大模型优化国产数据库

这纠正了我一直对一些 AI 大模型产品的感官评价,有这样一个排行榜还真是,助人为乐。我再仔细看看,这都用了什么方式进行评价,瞎评价可不行。你看他们这用了三个维度进行评价,分别是 SQL 理解、SQL优化、方言转换,尤其这个方言转化的维度我是没有想到的,我这鸡蛋挑骨头的能力,看来暂时用不上了。

不过放弃挑骨头不是我的风格,我的给找找毛病,我仔细的看了我总结几点:

1. Gemini 在 SQL 的理解能力上非常的专业,且优化后的 SQL,比如改写 SQL 出错的概率低。大白话就是, 拿来就用,同时在处理国产的数据库的 SQL 问题也并不拉垮

2. DeepSeek 这个一看就是一个偏科生,这可能和数据的收集有关,大部分国产数据库的信息他都囊括其中,优化的数据基础是 OK 的,但是也是一个偏科生,复杂的语句的理解和转换能力差劲,同时改写 SQL 直接可以用的部分不如 Gemini

但是需要说明的是,对于复杂的 SQL,大模型进行 SQL 优化的准确性,可信性还有待提高 

如果让我看完,给出一个评价的话 Gemini 3 Pro 是一个全能、可靠、安全的专业助手。 

嘴毒评价:这说明模型可能没有接受过严格的“工程化”规范训练,缺乏在严格的程序间接口中使用的经验,专业度还差了那么一毫米。 

DeepSeek-V3.2-Exp 是一个专注国产化、但需要你时刻盯着的专业工具。 

心狠评价:在数据库迁移中,最难啃的就是大量复杂的存储过程、触发器和业务逻辑。如果 DeepSeek 在这方面直接躺平,那么它只能充当 “初级转换工具”,大量的核心复杂逻辑仍然需要昂贵的人工处理。

同时这里也给我提了一个醒,云上的数据库优化 AI 大模型大多是用大厂自己的大模型,他们对于 SQL 优化的能力是云上数据库产品的 AI 能力的关键,他们能不能引入一些优秀的 AI 大模型是否也是要考虑的,可不能自己给自己在 AI 这条模型之路上,给自己创造天花板。 

推荐阅读:给PG鸡蛋里面挑骨头--杭州PostgreSQL生态大会

六、未来展望与行动号召

SCALE 评测体系将持续跟踪各大厂商的最新模型动态和迭代进展,通过公正、透明的评测数据,为社区提供技术选型参考。

即刻探索新一代模型的专业能力!欢迎您登陆 SCALE 官方平台,查看完整的最新榜单和模型对比详情,共同把握 AI 技术的前沿脉搏。

数据截止日期:2025 年 12 月 2 日

查看完整榜单并联系我们提交您的产品进行测评。

https://sql-llm-leaderboard.com/

SCALE:为专业 SQL 任务,选专业 AI 模型。

参考资料

[1] SCALE: https://sql-llm-leaderboard.com/

[2] Gemini 3 Pro: https://deepmind.google/models/gemini/

[3] DeepSeek-V3.2-Exp: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

源码地址:点击下载


# 重构  # 隐式类型转换  # delete  # 类型转换  # postgresql  # 数据库  # dba  # oceanbase  # gaussdb  # 数据分析  # https  # 接口  # 不支持  # 首次  # 我这  # 较低  # 榜单  # 是一个  # 而非  # 您的  # 这可  # 性高  # sql优化  # oracle  # js  # json  # go  # mongodb  # 谷歌  # 工具  # ai  # google  # 大模型  # mysql  # sql  # 架构  # 数据类型  # NULL  # for  # select  # date  # 字符串  # 循环 


相关文章: 虫棍太刀双绝!三灯爆发流终极奥义  存储涨价有多疯!DRAM报价翻了七八倍 一个内存条涨超1000元:涨价还没停呢  刷新率天花板!HKC惠科全球首创1080Hz显示器:三星都得靠边  微语 1.1.0 发布,开源智能客服  谷歌母公司 Alphabet 斥资 47.5 亿美元收购 Intersect,加速 AI 和数据中心扩张  Warframe瓦尔基里三大流派全解析:从钢铁防线到无敌利爪  字节 Trae 发布《2025 年度产品报告》  曝iQOO Z11 Turbo暂定1月 配骁龙8 Gen5+20MP镜头  腾讯混元开源 HY-Motion1.0,10 亿参数文生 3D 动作大模型  广域铭岛五周年价值长卷|G+,为工业未来做加法  NVIDIA 开源通用游戏 AI 模型 NitroGen  艾尔登法环虫丝枪性能剖析:异形祷告的压制艺术  联想膜立方品质守护,想帮帮“AI的贴贴”膜法服务季限时开启免费贴膜活动  《GTA6》或有第一人称模式 粉丝从预告片发现线索  报告:苹果 AI 战略有望明年终见成效  大幅领先友商!联发科2025 Q3再夺全球智能手机AP-SoC市场份额第一!  Steam今年最后的销量榜!最后赢家不是《光与影:33号远征队》  曝OPPO Find X9s配备双两亿像素镜头 明年春季发布  NotebookLM把资料直接「讲给你听」!最长近30分钟  荣耀WIN系列海外口碑炸裂,“年度电竞夯机”实至名归   二代品牌接班人不好好做产品,却热衷当网红的原因!  影之刃3左殇职业材料获取全攻略:从入门到毕业的江湖寻宝之旅  这下真是恋爱模拟了! 《米塔》同人作品《米塔:零》测试版发布  从新手到高手 掌握战斗核心轻松制胜  1599元起!闪极发布首款多合一移动硬盘闪盘Pro:最高1000MB/s、自带拓展坞  内存价格暴涨 PC倒车请注意:华硕计划增产DDR4主板  《红色沙漠》PS5实体盘亮相!明年3月20日上线  首发299元 追觅首款路由器灵逍D70开售:Wi-Fi 7、2.5G网口  全系列年销量逆势增长 15.2%,OPPO Reno15星星粉今日开售  继续加码!曾批评SE管理层的投资者增持公司股份  上海微电子中标 1.1 亿元光刻机项目  WIKO X70荣获2025 CNMO年度评选“年度AI先锋”  Cursor CEO 警告“氛围编程”风险:盲目依赖 AI 正在构建不稳固的代码地基  美国 ITC 对三星、谷歌等涉 DRAM 公司启动 337 调查  曝vivo X300 Ultra将取消拍照按键 搭载LYTIA901 2亿主摄  广州设立全国首个区级人工智能发展局  新年新机首选啥 AMD高端锐龙游戏本推荐  望山楂猛男诱惑,比椰树还色?!  比Switch2新机还贵!国外二手3DS价格突然暴涨76%  梦幻西游副本速通全攻略:从门槛到实战的全面指南  英伟达完成 50 亿美元入股英特尔的战略投资  华硕官宣AM5 NEO系列全新主板!下月初登场  一加霸榜!安兔兔6小时续航实测出炉,榜首6小时仅耗1/4电  摩托辣妹太爽了! 《鸣潮》3.0版本更新上线  消息称美国批准三星、SK 海力士向中国工厂出口芯片制造设备  稳步迭代,全面超越:vivo S50 Pro mini 评测:小直屏旗舰的进化标杆  消息称华硕计划明年进军内存生产领域,应对内存短缺潮  国产自研6nm GPU投入使用!砺算科技7G100完成首批订单交付  消息称三星正研发"阔折叠"手机,4:3比例对标苹果iPhone Fold  香港大学开源个人 AI 学习助手:DeepTutor 


相关栏目: 【 广告资讯37196 】 【 广告推广143353 】 【 广告优化89630