DeepSeek基础知识-2025资源.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

DeepSeek的背景知识

什么是DeepSeek

-DeepSeek公司:杭州深度求索人工智能基础技术研究有限公司。

-DeepSeek大模型:DeepSeek公司推出的一系列大模型的统称。

DeepSeek的背景知识

DeepSeek公司

-成立时间:2023年7月;

-创始人:梁文峰(幻方量化的联合创始人);

-所在城市:浙江省杭州市拱墅区;

-公司口号:探索未至之境;

-公司业务方向:专注于通用人工智能(AGI)技术的研发和应用;

-“杭州六小龙”之一;

-团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。

DeepSeek的背景知识

梁文峰

-出生年份:1985年;

-籍贯:广东省湛江市吴川市覃巴镇米历岭村;

-学历背景:

·2002年,考入浙江大学电子工程系电子信息工程专业;

·2007年,考上浙江大学信息与通信工程专业研究生;2010年,获得硕士学位;

-工作背景:

·2008年,开始带领团队使用机器学习等技术探索量化交易;

·2015年,创立了幻方科技(杭州幻方科技有限公司);

·2019年,其资金管理规模突破百亿元;

·2023年7月,幻方量化宣布成立大模型公司DeepSeek,进入通用人工智能(AGI)领域。

DeepSeek的背景知识

DeepSeek大模型发布时间表

-2024年01月05日,正式发布首个大模型DeepSeekLLM;

-2024年01月25日,正式发布DeepSeek-Coder,由一系列代码语言模型组成;

-2024年02月05日,正式发布DeepSeek-Math,以DeepSeek-CoderV1.57b为基础;

-2024年03月11日,正式发布DeepSeek-VL,是一个开源的视觉-语言(VL)模型;

-2024年05月07日,正式发布第二代开源MoE模型DeepSeek-V2;

-2024年06月17日,正式发布DeepSeek-Coder-V2,支持的编程语言从86种扩展到338种;

-2024年09月06日,合并DeepSeek-Coder-V2和DeepSeek-V2-Chat两个模型,升级推出DeepSeek-V2.5;

-2024年11月20日,正式发布DeepSeek-R1-Lite预览版;

-2024年12月13日,正式发布DeepSeek-VL2,用于高级多模态理解的专家混合视觉语言模型;

-2024年12月26日,正式发布DeepSeek-V3,并同步开源模型权重;

-2025年01月20日,正式发布DeepSeek-R1、DeepSeek-R1-Zero,并同步开源模型权重。

DeepSeek的背景知识

掀起本次DeepSeek热潮的,主要是——

DeepSeek-V3

DeepSeek-R1

DeepSeek-R1-Zero

PART02DeepSeek的技术特点

DeepSeek的技术特点

DeepSeek-V3的基本情况

-DeepSeek-V3是一款高性能、低成本的开源通用语言模型。

-适用场景:高性能对话、复杂任务处理和高精度场景,例如长文档分析、多模态推理、科研计算等。

-设计目标:进一步提升开源模型的能力,缩小与闭源模型的差距,同时保持训练成本的经济性。

-参数规模:共有6710亿个参数。但每次处理一个token时只激活370亿个参数。这种设计降低了计算成本。

-训练成本:总计278.8万H800GPU小时(Meta的Llama3.1需要3080万GPU小时)。假设每小时2美元,费

用约557.6万美元(约为GPT-4的二十分之一)。

-价格费用:模型API服务定价为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出

tokens8元。

您可能关注的文档

文档评论(0)

专注于金融公司,实体制造业,销售代理公司的企业文化和实体项目或者互联网项目的策划编写润色,曾经协助多家基金公司,保险代理公司,房地产代销公司等初创企业完成企业文化和人事营销等制度的编写,由于疫情影响离开了喜欢的首都。

1亿VIP精品文档

相关文档