网络通信 频道

DeepSeek的崛起及其全球影响分析

  【IT168评论】2025 年 1 月 20 日,DeepSeek 发布了 R1 语言模型,其研发成本仅为其他厂商的一小部分。同时,DeepSeek 还以开源许可的方式提供 R1 模型,使其可以免费使用。

  发布后短短几天内,DeepSeek 推出的 AI 助手——一款基于 DeepSeek-R1 的聊天机器人移动应用,迅速登顶苹果 App Store 榜首,超越了 OpenAI 的 ChatGPT 应用。这一现象级增长引发了 2025 年 1 月 27 日的股市抛售潮,投资者开始质疑美国大型 AI 企业的市场价值,包括英伟达(Nvidia)。微软(Microsoft)、Meta、甲骨文(Oracle)、博通(Broadcom)等科技巨头的股价也出现大幅下跌,投资者重新评估 AI 公司的估值。

  DeepSeek公司背景及技术创新

  DeepSeek 是一家总部位于中国杭州的 AI 开发公司,由浙江大学毕业生梁文峰于 2023 年 5 月创立。他同时也是中国量化对冲基金 High-Flyer 的联合创始人,而 DeepSeek 目前作为 High-Flyer 旗下的独立 AI 研究机构运营。DeepSeek 的具体融资金额和估值尚未公开。

  DeepSeek 专注于开源 大模型 的研发,首款模型于 2023 年 11 月发布。公司不断迭代核心模型,并推出多个变种。但直到 2025 年 1 月发布 R1 推理模型后,DeepSeek 才真正声名鹊起,成为全球瞩目的 AI 企业。

  目前,DeepSeek 提供多个服务,包括 Web 端、移动端应用以及 API 接入。

  DeepSeek 与 OpenAI 的对决

  DeepSeek 成为 OpenAI 的最新挑战者。OpenAI 自 2022 年推出 ChatGPT 以来,一直是生成式 AI 领域的领军者,并推动了 GPT 系列以及 o1 级推理模型的发展。

  尽管两家公司都专注于 大模型 的研发,但它们采用了不同的方法。

  DeepSeek 的训练创新

  DeepSeek 在训练 R1 模型时采用了不同于 OpenAI 的方法,其训练时间更短、所需 AI 加速器更少、成本更低。DeepSeek 的目标是实现通用人工智能(AGI),而 R1 在推理能力上的突破性进展,标志着 AI 发展迈出了重要一步。

  DeepSeek 在研究论文中披露了 R1 模型的多个创新点,包括:

  ●强化学习(Reinforcement Learning):DeepSeek 采用大规模强化学习技术,专注于推理任务。

  奖励工程(Reward Engineering):研究人员设计了一套基于规则的奖励系统,其性能优于常见的神经奖励模型。奖励工程是 AI 训练过程中引导学习的激励机制设计。

  知识蒸馏(Distillation):通过高效的知识转移技术,DeepSeek 研究人员成功将强大的能力压缩至仅 15 亿参数的小型模型中。

  涌现行为网络(Emergent Behavior Network):DeepSeek 发现,在强化学习过程中,复杂的推理模式可以自然形成,而无需显式编程。

  DeepSeek 语言模型的发展

  自 2023 年成立以来,DeepSeek 已推出多代生成式 AI 模型,每一代都在能力和性能上不断提升:

  DeepSeek Coder(2023 年 11 月):首款专为编程任务设计的开源模型。

  DeepSeek 大模型(2023 年 12 月):首个通用 大模型 版本。

  DeepSeek-V2(2024 年 5 月):第二代 大模型,提升性能并降低训练成本。

  DeepSeek-Coder-V2(2024 年 7 月):参数量达 2360 亿,支持 128,000 个 token 的上下文窗口,专为复杂编程任务设计。

  DeepSeek-V3(2024 年 12 月):采用专家混合(Mixture-of-Experts)架构,具备 6710 亿参数和 128,000 的上下文窗口,可处理多种任务。

  DeepSeek-R1(2025 年 1 月):基于 DeepSeek-V3,专注推理能力,与 OpenAI 的 o1 模型正面竞争,但成本更低。参数量 6710 亿,支持 128,000 的上下文窗口。

  Janus-Pro-7B(2025 年 1 月):一款具备视觉理解和生成能力的 AI 模型。

  为何在美国引发警报?

  DeepSeek-R1 的发布不仅引发市场关注,也在美国引起了警觉,导致科技股大跌。2025 年 1 月 27 日,纳斯达克指数开盘下跌 3.58%,英伟达股价暴跌 13.48%,市值蒸发约 4477 亿美元。

  美国对 DeepSeek 的担忧主要包括以下几点:

  成本颠覆:DeepSeek 宣称 R1 模型的开发成本不到 600 万美元,远低于美国科技公司投入的数十亿美元。同时,DeepSeek 的 AI 服务成本低于 OpenAI,对现有商业模式构成威胁。

  技术突破:尽管美国限制向中国出口高端 AI 加速器和 GPU,DeepSeek 仍然实现了领先的 AI 研发,打破了技术封锁的预期。

  商业模式冲击:与 OpenAI 采用的封闭专有技术不同,DeepSeek 选择开源模式,挑战了美国公司依赖订阅收费的盈利模式。

  地缘政治因素:DeepSeek 作为一家中国公司,正在挑战美国在 AI 领域的主导地位。风险投资人 Marc Andreessen 将其称为 AI 版的“斯普特尼克时刻”,类比于 20 世纪 50 年代苏联在太空竞赛中的突破。

  DeepSeek 禁令

  全球多个国家和机构因伦理、隐私和安全问题对 DeepSeek 进行了封禁。主要原因是所有用户数据均存储在中国,可能存在数据泄露风险。此外,该模型的训练内容可能带有中国的意识形态倾向。

  已禁用 DeepSeek 的机构包括:

  澳大利亚政府机构

  印度中央政府

  意大利

  美国 NASA

  韩国工业部

  台湾政府机构

  美国得克萨斯州政府

  美国国会

  美国海军

  美国五角大楼

  DeepSeek 遭遇网络攻击

  DeepSeek 的快速崛起也吸引了黑客的注意。

  2025 年 1 月 27 日,DeepSeek 报告称其服务遭受大规模恶意攻击,被迫暂时限制新用户注册。这次攻击的时间点正好与其 AI 助手应用超越 ChatGPT,成为苹果 App Store 下载量第一的时刻相吻合。

  尽管遭受攻击,DeepSeek 仍然保持对现有用户的服务。1 月 28 日,公司表示已识别问题并完成修复。

  DeepSeek 数据泄露

  2025 年 1 月 29 日,云安全公司 Wiz 旗下研究团队披露,DeepSeek 的后端数据库存在安全漏洞,导致聊天记录、日志流、API 密钥及运营数据意外暴露。DeepSeek 在得知问题后迅速下线该数据库,但尚不清楚数据暴露的时间长度。

  DeepSeek 的崛起,不仅在 AI 领域引发震动,也对全球科技格局带来了深远影响。

0