2025年1月30日星期四

横空出世的“ DeepSeek ”

 

话说英国《每日电讯报》(The Daily Telegraph) 27日发文称,2025年1月20日川普在举行总统就职典礼上大放厥词,将美国成为“ 世界人工智能之都” 的雄心作为其讲话的核心要点,而开发人工智能的科技富翁们全被安排在国会大厦前排的最佳观赏位置。

然而就在当天,杭州一家AI初创公司DeepSeek 悄无声息的推出了新模型 DeepSeek 3.0 版本,即刻,这个消息让硅谷的天被捅成了马蜂窝,掀翻了巨头的AI 霸权,90% 以上的美国AI 公司都被搞崩了心态。有如从天上突然掉下一颗炸弹,华尔街被炸了街,美国人工智能主题股票遭抛售,芯片巨头Nvidia 股价历史性暴跌,纳斯达克综合指数大副下跌。

做么这个DeepSeek V3会带来如此大的震撼?

据《华尔街日报》报道:DeepSeek 仅用了550万美元做了其他开发商通常要用数亿美元开发的AI 模型。

最让大家惊讶的是,DeepSeek的训练时间非常的短,仅化了2个月的时间,它的成本也非常的低。由於中国遭到了美国对芯片的管制,它只能用2千多个像H800这种落后的芯片来训练它的模型,而其他开发商则需要数万个芯片。Deep Seek 用极低的成本做了与Chat GPT 性能差不多的产品。

2023年,梁文锋成立DeepSeek,一家专注於人工智慧大模型技术研发的创新公司,成立一年后,DeepSeek 就拿出让业界关注的产品。2024年5月,公司发布DeepSeek -V2,以其创新的模型架构和史无前例的性价比(CP值)引发关注。

DeepSeek 的团队只有139人,当中人才皆来自清华、北大、北航等大学的应届博士毕业生及在校学生,没有留学海外的,只重用国内本土人才。

一个模型开源的好处,对於使用者来说,就是可以免费的使用这些技术,并且可以根据自己的需求,对这些代码进行进一步的优化。DeepSeek 的代码都是公开的,所以它的工作的原理会更加透明,大家对它的信任度也会更高。

目前所有的这些大语言模型(large language model,简称LLM)主要的盈利方式,就是通过向企业提供自己的API 接口(application programming interface =应用程序接口 ),如果企业使用自己的服务越多,那就可以赚更多的钱。由於DeepSeek 的训练成本较低,它接口调用的费用是其他大语言模型的1/10,甚至1/100,显然DeepSeek 的价格兢争力在其他大语言模型中是超强的。

更有的是,DeepSeek训练它的模型用的是英伟达(Nvidia)的H800 显卡,这是特别在H100 显卡基础上降低了某些参数才卖給中国的,而DeepSeek 竟然拿着H800 显卡做出和其他大语言模型相同的能力。这可让大家意识到,原来硬件的差异,是可以通过软件上的进步来弥补的。

2025年1月28日凌晨,DeepSeek突然发布 Janus-Pro-7B多模态大模型,进军文生图领域。在GenEval 和 DPG-Bench基准测试中,Janus-Pro-B 不仅击败了Open AI 的DALL-E3,还击败了Stable Diffusion,Emu 3- Gen 等热门模型。Janus -Pro采用MIT 开源协议,这意味着可无限制用於商业场景。(模态=modal,多模态大模型=Large -Multimodal- Model)

相比前代模型,Janus-Pro 优化训练策略、扩展了训练数据,模型也更大。得益於此,Janus - Pro 在多模态理解和文本到图像的指令跟踪功能方面取得重大进步,同时还增强了文本到图像生成稳定性。作为多模态模型,Janus-Pro 不仅能文生图,还能对图片进行描述,识别地表景点,识别图像中的文字,并能对图片中的知识进行介绍。

在国外AI 公司的中国人员在小红书爆料:美国现在有许多想要挤进大模型第一梯队的初创公司普遍感到泄气,因为他们做不到用有限的资金、技术去实现DeepSeek 的水平。而一些需要AI 技术的公司则十分兴奋,因为他们可以利用DeepSeek 来完成自己产品的开发。

美国试图通过禁止Nvidia 向中国出口高端H100 芯片来遏制AI 发展,偏偏DeepSeek就通过优化算法和硬件利用率,以性能较低的H800 芯片实现了高效训练。

《自然》杂志(Nature Jounal)指出,这一成就不仅挑战了“ 算力霸权”的逻辑,还证明了中国在资源受限下的创新能力。

《MIT科技评论(麻省理工学院科技评论)-MIT Technology Review》表示:考虑到中国人工智能公司面临的限制,即美国加强对尖端芯片的出口管制,使得DeepSeek的成功更加引人注目------制栽非但没有削弱中国的人工智能能力,反而似乎正在推动像DeepSeek 这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。

埃默里大学(Emory University)信息系统助理教授告诉《MIT 科技评论》,以DeepSeek 为代表的中国大模型“ 是一个真正的平等突破,对於资源有限的研究人员和开发人员来说非常有用,尤其来自全球发展中国家的研究人员和开发人员。”

美国人工智能大模型的价格昂贵,一方面可以让美国的AI 公司获利颇丰,同时形成技术垄断,这对人类整体的科技发展绝非好事。如今中国的AI 大模型正在打破垄断,惠及全世界全人类,这简直让美国感到前所未有的恐慌。

CNBC 警告称:“ 若中国开源模型成为全球开发者的默认选择,美国将面临市场份额和生态系统控制权的双重流失”。

所以这几天DeepSeek 官网显示,其线上服务受到大规模恶意攻击,IP 地址都在美国。


没有评论:

发表评论