新华视点：AI界拼多多DeepSeek实力如何？几轮实测后我有了答案

智趣 | 2024-12-31| 9

大家好，今天小编来为大家解答【AI界拼多多DeepSeek实力如何？几轮实测后我有了答案】这个问题，很多人还不知道，现在让我们一起来看看吧！

训练一个AI大模型需要多少钱？

OpenAI CEO山姆·奥特曼曾表示，GPT-4的训练成本大约1亿美元（约合人民币7.3亿元），未来训练大模型的成本将高于10亿美元。尚未完成训练的GPT-5大模型，为时约半年的一轮训练就消耗了大约5亿美元，可见AI公司的支出成本有多高。

然而在AI行业却有一个异类，被广大网友奉为“AI行业的拼多多”，这家公司就是DeepSeek（深度求索），网传其大模型训练成本压缩到极致，最新推出的DeepSeek-V3大模型训练成本仅为557.6万美元（约合人民币4070万元），大概是GPT-4的二十分之一，总计约消耗了278.8万个GPU小时，参数为6710亿，其中激活参数为370亿。

DeepSeek官网的价格表示显示，缓存命中输入价格仅为0.1元/百万tokens，缓冲未命中输入价格为1元/百万tokens，输出价格则为2元/百万tokens，在诸多AI大模型中属于最低的一档。（注明：1token约等于1.5个汉字或3个英文字母）

（图源：DeepSeek截图）

豆包、通义千问等AI大模型，能力较低的版本差不多也是这个价格，但性能较强的大模型如Doubao-pro-128k，输入价格5元/百万tokens，输出价格为9元/百万tokens，Kimi的moonshot-v1-128k输出价格更是高达60元/百万tokens。（注明：数据来自AI公司官方）

（图源：雷科技制作）

DeepSeek-V3超低的训练成本和最低一档的输入、输出价格，令人不禁疑惑，到底是其他AI公司资源利用率太差，还是DeepSeek技术实力太强，抑或DeepSeek-V3的能力是吹的？

好在，尽管DeepSeek-V3的大模型主打开源和API接口使用，但也为用户准备了可以便捷使用的网页版。只要对其测试一番，对比与主流大语言模型的差距，我们就能获知DeepSeek的真正实力。

DeepSeek-V3实测，结果令人惊讶

DeepSeek页面极为简洁，主框仅有深度思考、联网搜索、上传文件、发送四个按钮。如果不打开联网搜索功能，将无法搜索网上相关的信息，只能当作本地大模型使用，且深度思考和联网搜索无法同时开启，但依然需要电脑联网将问题发送给DeepSeek。

针对DeepSeek-V3，小雷准备了四轮测试，包括通用问答、内容总结、专业数学题、金融知识问答，部分测试还将与豆包、Kimi等大语言模型进行对比，以便于更直观地观察DeepSeek-V3的能力。

一、常规问答：简短整洁、可读性高。

作为一名科技编辑，小雷每天都会向AI询问“今天科技圈有什么新闻”，让AI大模型帮助我快速收集新闻，绝大多数大模型也能够轻松胜任。于是，小雷将其作为第一轮测试题目。

DeepSeek为我寻找了10条新闻，新闻之间用分割线划分，视觉上更加清晰明了。每一段新闻的末尾，还会提供可一键直达的网页链接。该项目的测试中，DeepSeek的亮点在于，新闻的总结简洁且突出了重点，所收集的内容也不局限于国内平台，部分消息来自海外新闻媒体，点击链接可直达海外的新闻网站。有趣的是，DeepSeek还找到了自己的“黑料”，DeepSeek-V3大模型会称自己是ChatGPT，山姆·奥特曼发文回应，认为原因是数据污染。

（图源：DeepSeek截图）

小雷用豆包和Kimi收集新闻时，豆包回复的内容文字太多，内容不够简洁清晰，Kimi则过于精简，新闻的总结基本只有一句话。

随后小雷还让AI推荐几首古典音乐，在未联网的状态下，DeepSeek依然可以准确回答我的问题，只是所有内容全部变成了英文。而切换至联网模式后，再次提问相同的问题，回答的内容则又变成了中文。

本着求真的心态，小雷又进行了几次测试，发现未联网状态下询问西方古典音乐时，DeepSeek给出的回答是英文，询问中国相关的音乐内容，如周杰伦的歌曲，DeepSeek就会是中文。DeepSeek居然是根据回答内容的相关性选择语言，而不是提问所用的语言，令小雷多少有点诧异。

总而言之，在常规问答项目中，DeepSeek表现出色，无论是联网状态还是非联网状态都能准确回答出小雷提出的问题，表现丝毫不逊色豆包、Kimi等国内第一梯队的AI大模型。

二、内容总结：结果很精简，重点有缺失。

在之前大模型横评中，小雷曾让豆包、Kimi、文心一言、讯飞星火等多款AI大模型总结小红书发布的《潮流数码白皮书》，结果大模型总结出的内容普遍缺失重点，有车轱辘话来回转的情况。

与大多数大模型相同，DeepSeek给出的内容遗失了太多重点，尤其是《潮流数码白皮书》给出的部分事例，DeepSeek完全没有归纳出来。（著名：浅色部分为思考步骤，深色部分为正文）

（图源：DeepSeek截图）

AI大模型基本存在相同的问题，总结内容时容易变成“归纳大纲和标题”，导致大量信息无法展现出来，用户仅凭“脑补”也难以还原出原本内容。

就生成的内容而言，DeepSeek的表现与Kimi、文心一言较为接近，略强于讯飞星火，稍逊于豆包。能够达到这个效果，已经很出乎小雷的意料了。

三、数学题解答：快速、准确、有过程。

在数学题解答中，小雷先后准备了三道数学题，第一道题是较为简单的小学数学题，第二道题则是经典的三门问题，DeepSeek全部轻松回答正确，因而小雷不再展示AI给出的答案，小伙伴们可以自己思考一下。

在DeepSeek取得两连胜后，小雷决定给AI大模型上一上强度，拿出了曾经击败过多个AI大模型的第三道题：

某班有39名同学参加短跑、跳远、投掷三项体育比赛，人数分别为23人、18人、21人，其中三项比赛全部参加的有5人，仅参加跳远的有3人，仅参加投掷的有9人，请问仅参加短跑的有多少人？（正确答案：9人）

此前的测试中，唯有付费版o1-preview计算出了该问题的正确答案，豆包、Kimi、文心3.5、免费版GPT-4o等大模型全部回答错误。令小雷没想到的是，DeepSeek居然给出了正确答案。

（图源：DeepSeek截图）

一时间小雷怀疑，是不是经过这段时间的训练，所有大模型都能计算出该问题的答案了，于是小雷又测试了几款大模型，结果豆包和文心3.5依然未能回答正确，分别给出了3人和12人的答案，升级了k1视觉思考模型的Kimi和讯飞星火则给出了正确答案。

除了能够正确回答问题，DeepSeek还够详细展示了思考步骤，部分问题还会反复验证答案，甚至使用其他方式再计算一次，而且解答问题的速度更是独一档。

在本轮测试中，DeepSeek的表现堪称优秀，所有问题全部答对、解答速度快、有思考步骤，反而是赫赫有名的豆包、文心3.5再次折戟，未能解答出第三道题，DeepSeek表现出的实力远远大于它的名气。

四、金融问题答疑：精准理解，给出了适当建议。

面向所有消费者的大语言模型，至今大多仍免费提供服务，反而主攻是B端市场和主打专业功能的AI大模型，逐渐收费服务。C端市场用户众口难调，且许多人不愿意付费使用，唯有打造专业使用场景，面向有对应需求的用户，AI公司方能有机会实现盈利。因而在第四轮测试中，小雷准备了一道金融知识问题：

当市场利率上升或下降时，债券价格会如何变化？投资者应如何应对利率波动以保护债券投资组合价值？

这一轮测试中，所有AI大模型给出的答案大同小异，均能准确解读市利率变化和债券价格的关系，并给出一些投资建议，包括分散投资、缩短久期、投资债券基金等方案。

（图源：DeepSeek截图）

网上金融相关的信息过于繁杂，查询、挑选、提纯信息的流程也较为麻烦，AI能很好地解决这一问题，帮助我们汇集相关信息并提取有用的内容。

金融问题相关测试中，小雷仍未开启联网搜索功能，DeepSeek给出的答案中规中矩，与其他AI大模型拉不开差距，但这已足够证明DeepSeek的优秀，毕竟它的训练成本仅557.6万美元。

总结：能力出乎意料，功能有待丰富

测试DeepSeek-V3之前，小雷有点看不起这款大模型，OpenAI训练GPT的成本以“亿美元”为单位，一个训练成本仅557.6万美元的AI大模型，表现能高到哪去？结果实测结果狠狠给了小雷一巴掌。

几轮测试下来，除了几乎所有大模型都存在丢失重点的内容总结环节，其他几轮测试DeepSeek都拿到了高分，表现丝毫不逊色国内赫赫有名的文心一言、Kimi、豆包等AI大模型。

在数学题解答项目中，即便面对豆包、文心3.5都未能给出正确答案的难题，DeepSeek依然迅速解出答案。讯飞星火和Kimi上次测试给出了错误答案，这次成功答对，进步幅度不小。

部分小伙伴看到这里可能就会觉得，DeepSeek花几百万美元就能训练出这么优秀的大模型，OpenAI、百度、字节跳动都是在浪费钱。其实不然，DeepSeek纵然在逻辑推理方面表现出色，但其功能缺乏是最大的问题，无法用于创作图片、PPT，也不提供智能体可选，功能相对较少。

（图源：豆包生成）

豆包、文心一言、ChatGPT等，则在朝着“万能大模型”进发，即Any To Any，用户可以输入任何模态的内容，并输出任何模态的内容。针对许多专业领域，豆包、文心一言纷纷推出了对应的智能体，涵盖生活、学习、创作等方方面面，这是DeepSeek远不能及的。

对于以文字生成为主要需求的用户来说，DeepSeek-V3是一款不错的AI大模型，但若有更多需求，如写长篇小说、创作图片、投资计算，豆包、Kimi等免费服务的AI大模型及其提供的智能体或许更合适。

当然，DeepSeek也确实做到了花小钱办大事，通过更先进的MoE架构、多技术融合优化、FP8混合精度训练框架等技术，以及与开源社区合作的方法，在成本较低的情况下，就训练出文字生成和逻辑推理能力不输乃至领先主流AI大模型DeepSeek-V3。

训练成本高昂、竞争愈发激烈已成趋势，未来几年国内外将有大量AI公司倒闭，如何开源与节流已成AI公司必须思考的难题，DeepSeek降低成本的方法值得其他AI公司学习。

以上就是【AI界拼多多DeepSeek实力如何？几轮实测后我有了答案】相关内容，更多资讯请关注科技网

Tags: 模型#豆包

天天观察：AI成为工业机器人“大脑”，场景落地已有实例

头条资讯：AI教父、诺奖得主Hinton支持起诉OpenAI，阻止“转盈利”

新华视点：AI界拼多多DeepSeek实力如何？几轮实测后我有了答案

相关推荐

时事热点：台积电2nm，太贵了

看点!现在，很多人都在靠ADI芯片搞钱

时事热点：雷军新年第一天收到200元红包自侃年入百万的开始

【世界时快讯】“中国液晶之父”挑战半导体

最新资讯：游戏业裁员潮肆虐，任天堂成2024年唯一“零裁员”巨头

天天新消息|比亚迪亮相央视“科晚”，打造中国科技出海新名片

世界滚动:字节70亿美元购买英伟达芯片？抖音副总裁李亮回应

世界速读：2024 年度明日产品，都在这了 | Tomorrow’s Product Award

全球关注：智能小家电怎么不香了？

环球热文：骁龙8s Elite最强劲敌！联发科天玑9350已在路上：性能仅次于天玑9400

更多>