头条资讯:AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了

智趣 | 2024-12-28| 8

大家好,今天小编来为大家解答【AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了】这个问题,很多人还不知道,现在让我们一起来看看吧!

延续便宜大碗的特点,DeepSeek V3发布即开源。

还用53页论文 ,分享训 练细节。

更重要的是,大家第一时间在论文中发现了关键细节:

训练过程,便宜又省钱!

DeepSeek 用十分之一的算力,做出了和 GPT-4o 及 Claude-3.5-Sonnet 性能相当的模型!

DeepSeek V3整个训练过程仅用了不到280万个GPU小时。

对比参考:Llama 3 405B的训练时长是3080万GPU小时。

训练671B的DeepSeek V3的成本是557.6万美元(约合4070万人民币)。

而同类模型,大概需要1.5万块 H100,DeepSeek用了 2048 块H800就做出来了。

海外对deepseek的赞叹和不解,远高于国内。

OpenAI创始成员AK对此赞道:

DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。

DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。

Meta科学家田渊栋,说DeepSeek V3的训练,看上去是“黑科技”: 这是非常伟大的工作。

Menlo Venture的投资人也感慨: “53 页的技术论文是黄金” (53-page technical paper is GOLD)。

英伟达高级研究科学家Jim Fan,转发OpenAI创始成员AK的推文表示: 资源限制是一件美好的事情。 在残酷的人工智能竞争环境中,生存本能是取得突破的主要动力。

“我关注 DeepSeek 很久了。去年他们推出了最好的开源模型之一,卓越的OSS模型给商业前沿 LLM 公司带来了巨大压力,迫使它们加快步伐。”

前阿里巴巴副总裁贾扬清认为:

DeepSeek 的成功是简单的智慧和实用主义在起作用,在计算和人力有限的情况下,通过智能研究产生最佳结果。

论文结尾,再次强调了 「以开源精神和长期主义追求普惠 AGI」。

当然“小力出奇迹”也是相对的,因为公司自身家底殷实。

幻方量化是国内唯一公开宣称有拥有万张英伟达A100显卡的企业,其算力储备量就算是在一众互联网公司科技公司里也豪不逊色。

如此厉害的大模型,不是互联网科技巨头研发的,国内最牛的AI巨头(之一),竟然是炒股的?

金融领域的头部量化:幻方量化。

梁文锋 是幻方量化的实际控制人,他在DeepSeek最终受益的股份比例超80%。

他本硕就读于浙江大学,攻读人工智能,念书时就笃定 「AI定会改变世界」。

毕业后,梁文锋没有走程序员的既定路线,而是下场做量化投资,成立幻方量化。幻方量化成立仅6年管理规模即曾达到千亿,被称为「量化四大天王」之一。

幻方量化也是迄今为止,业内唯一规模曾迈过千亿大关的量化私募。

DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。

DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,在性能上和世界顶尖模型 GPT-4o 以及 Claude-3.5-Sonnet相差无几。

此前DeepSeek一直被冠以 “AI界拼多多”。

它开启了中国大模型价格战。

2024年5月,DeepSeek发布的一款名为DeepSeek V2的开源模型,提供了史无前例的性价比:

推理成本被降到每百万token仅 1块钱,在当时约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里、kimi等AI公司跟随降价。

现在,登录deepseek官网,即可与最新版 V3 模型对话。当前版本的 DeepSeek-V3 暂不支持多模态输入输出。

更新上线的同时,DeepSeek 调整了 API 服务价格——模型 API 服务定价调整为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。

官方还为全新模型设置长达 45 天的优惠价格体验期:

即日起至 2025 年 2 月 8 日,DeepSeek-V3 的 API 服务价格仍然是每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元,已经注册的老用户和在此期间内注册的新用户均可享受以上优惠价格。

国内不少公司习惯于跟随海外科技公司,参考技术做应用变现。

即使是互联网大厂在创新方面也较为谨慎,更加重视应用层面。

DeepSeek逆向而行,选择了一条更具挑战的道路。它不满足于仅仅成为跟随者,而是从架构创新入手,提出了突破性的MLA架构,在全球AI大模型领域留下了独特的中国印记。

正如DeepSeek创始人梁文峰所说:「中国也要逐步成为贡献者,而不是一直搭便车。」

以上就是【AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了】相关内容,更多资讯请关注科技网

相关推荐相关推荐

头条资讯:AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了

头条资讯:AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了

大家好,今天小编来为大家解答【AI界拼多多!杭州大模型DeepSeek,训练仅花4000万元,美国AI大佬全炸出来了】这个问题,很多人还不知道,现在让我们一起来看看吧!延续便宜大碗的特点,DeepSeek V3发布即开源。还用53页论文 ,分享训 练细节。更重要的是 ...

智趣 8 2024-12-28
今日热文:中国AI的进步之快,让美国人开始怀疑现实了

今日热文:中国AI的进步之快,让美国人开始怀疑现实了

大家好,今天小编来为大家解答【中国AI的进步之快,让美国人开始怀疑现实了】这个问题,很多人还不知道,现在让我们一起来看看吧!文 | 阑夕这几天刷推很明显的感觉到英文技术社区对中国AI产业的进步速度处于一种半震动半懵逼的状态,应激来源主要是两个 ...

智趣 8 2024-12-28
今日热讯:国内外车企跑步入场“造人”,只因机器人与汽车技术共通?

今日热讯:国内外车企跑步入场“造人”,只因机器人与汽车技术共通?

大家好,今天小编来为大家解答【国内外车企跑步入场“造人”,只因机器人与汽车技术共通?】这个问题,很多人还不知道,现在让我们一起来看看吧!写汽车的自媒体都去写机器人了?那是因为汽车公司都下场做机器人了。小鹏、比亚迪、长安、广汽、特斯拉、丰田 ...

智趣 9 2024-12-28
快讯!AI零食真能吃吗?我们买了AI薯条尝了尝,结果很意外

快讯!AI零食真能吃吗?我们买了AI薯条尝了尝,结果很意外

大家好,今天小编来为大家解答【AI零食真能吃吗?我们买了AI薯条尝了尝,结果很意外】这个问题,很多人还不知道,现在让我们一起来看看吧!如果让AI创造一款新的食品,吃起来会是怎样的体验?前段时间,奥利奥的母公司亿滋就宣布将会开发一种全新的AI工具 ...

智趣 7 2024-12-28
[看点]基于openGauss的关系型数据库产品占比达28.5%,成三个主流开源技术路线之首

[看点]基于openGauss的关系型数据库产品占比达28.5%,成三个主流开源技术路线之首

大家好,今天小编来为大家解答【基于openGauss的关系型数据库产品占比达28.5%,成三个主流开源技术路线之首】这个问题,很多人还不知道,现在让我们一起来看看吧!凤凰网科技讯 12月28日,openGauss Summit 2024昨日在北京举行,会议主题为“汇聚数据库创 ...

智趣 6 2024-12-28
环球百事通|哈佛大学取消20个系30门课 文科消亡成为一股全球性浪潮

环球百事通|哈佛大学取消20个系30门课 文科消亡成为一股全球性浪潮

大家好,今天小编来为大家解答【哈佛大学取消20个系30门课 文科消亡成为一股全球性浪潮】这个问题,很多人还不知道,现在让我们一起来看看吧!12月28日消息,今天,话题#文科消亡成为一股全球性浪潮#登上热搜,引发了关于“文科无用论”的热议。据报道,哈 ...

智趣 6 2024-12-28
当前报道:小米SU7不仅在国内疯,在海外市场也杀疯了,最高卖到100万

当前报道:小米SU7不仅在国内疯,在海外市场也杀疯了,最高卖到100万

大家好,今天小编来为大家解答【小米SU7不仅在国内疯,在海外市场也杀疯了,最高卖到100万】这个问题,很多人还不知道,现在让我们一起来看看吧!不管大家承认不承认,小米SU7绝对是今年最火的新能源汽车,没有之一。前27分钟订单破5万,24小时接9万,这 ...

智趣 6 2024-12-28
世界速读:英伟达RTX 5090裸板曝光:Blackwell架构GB202核心面积巨大

世界速读:英伟达RTX 5090裸板曝光:Blackwell架构GB202核心面积巨大

大家好,今天小编来为大家解答【英伟达RTX 5090裸板曝光:Blackwell架构GB202核心面积巨大】这个问题,很多人还不知道,现在让我们一起来看看吧!距离英伟达新一代旗舰游戏显卡“GeForce RTX 5090”正式公布还有大约十天的时间,显卡主板的谍照近日陆续被曝 ...

智趣 11 2024-12-28
环球观速讯|网易云年度报告被吐槽不准,算法忽略了一个关键内容

环球观速讯|网易云年度报告被吐槽不准,算法忽略了一个关键内容

大家好,今天小编来为大家解答【网易云年度报告被吐槽不准,算法忽略了一个关键内容】这个问题,很多人还不知道,现在让我们一起来看看吧!你我的年度之歌又到了甩出经典梗图的时节了:哦不,错了,应该是这张:嘲讽归嘲讽,但又怎么样,没人能阻止每年网 ...

智趣 6 2024-12-28
快播:谷歌CEO皮查伊:明年风险高、赌注大,推广Gemini是首要任务

快播:谷歌CEO皮查伊:明年风险高、赌注大,推广Gemini是首要任务

大家好,今天小编来为大家解答【谷歌CEO皮查伊:明年风险高、赌注大,推广Gemini是首要任务】这个问题,很多人还不知道,现在让我们一起来看看吧!IT之家 12 月 28 日消息,据美媒 CNBC 今日报道,谷歌 CEO 皮查伊上周告诉员工 2025 年“风险高、赌注大”, ...

智趣 18 2024-12-28