2025年1月30日星期四

横空出世的“ DeepSeek ”

 

话说英国《每日电讯报》(The Daily Telegraph) 27日发文称,2025年1月20日川普在举行总统就职典礼上大放厥词,将美国成为“ 世界人工智能之都” 的雄心作为其讲话的核心要点,而开发人工智能的科技富翁们全被安排在国会大厦前排的最佳观赏位置。

然而就在当天,杭州一家AI初创公司DeepSeek 悄无声息的推出了新模型 DeepSeek 3.0 版本,即刻,这个消息让硅谷的天被捅成了马蜂窝,掀翻了巨头的AI 霸权,90% 以上的美国AI 公司都被搞崩了心态。有如从天上突然掉下一颗炸弹,华尔街被炸了街,美国人工智能主题股票遭抛售,芯片巨头Nvidia 股价历史性暴跌,纳斯达克综合指数大幅下跌。

做么这个DeepSeek V3会带来如此大的震撼?

据《华尔街日报》报道:DeepSeek 仅用了550万美元做了其他开发商通常要用数亿美元开发的AI 模型。

最让大家惊讶的是,DeepSeek的训练时间非常的短,仅化了2个月的时间,它的成本也非常的低。由於中国遭到了美国对芯片的管制,它只能用2千多个像H800这种落后的芯片来训练它的模型,而其他开发商则需要数万个芯片。Deep Seek 用极低的成本做了与Chat GPT 性能差不多的产品。

2023年,梁文锋成立DeepSeek,一家专注於人工智慧大模型技术研发的创新公司,成立一年后,DeepSeek 就拿出让业界关注的产品。2024年5月,公司发布DeepSeek -V2,以其创新的模型架构和史无前例的性价比(CP值)引发关注。

DeepSeek 的团队只有139人,当中人才皆来自清华、北大、北航等大学的应届博士毕业生及在校学生,没有留学海外的,只重用国内本土人才。

一个模型开源的好处,对於使用者来说,就是可以免费的使用这些技术,并且可以根据自己的需求,对这些代码进行进一步的优化。DeepSeek 的代码都是公开的,所以它的工作的原理会更加透明,大家对它的信任度也会更高。

目前所有的这些大语言模型(large language model,简称LLM)主要的盈利方式,就是通过向企业提供自己的API 接口(application programming interface =应用程序接口 ),如果企业使用自己的服务越多,那就可以赚更多的钱。由於DeepSeek 的训练成本较低,它接口调用的费用是其他大语言模型的1/10,甚至1/100,显然DeepSeek 的价格兢争力在其他大语言模型中是超强的。

更有的是,DeepSeek训练它的模型用的是英伟达(Nvidia)的H800 显卡,这是特别在H100 显卡基础上降低了某些参数才卖給中国的,而DeepSeek 竟然拿着H800 显卡做出和其他大语言模型相同的能力。这可让大家意识到,原来硬件的差异,是可以通过软件上的进步来弥补的。

2025年1月28日凌晨,DeepSeek突然发布 Janus-Pro-7B多模态大模型,进军文生图领域。在GenEval 和 DPG-Bench基准测试中,Janus-Pro-B 不仅击败了Open AI 的DALL-E3,还击败了Stable Diffusion,Emu 3- Gen 等热门模型。Janus -Pro采用MIT 开源协议,这意味着可无限制用於商业场景。(模态=modal,多模态大模型=Large -Multimodal- Model)

相比前代模型,Janus-Pro 优化训练策略、扩展了训练数据,模型也更大。得益於此,Janus - Pro 在多模态理解和文本到图像的指令跟踪功能方面取得重大进步,同时还增强了文本到图像生成稳定性。作为多模态模型,Janus-Pro 不仅能文生图,还能对图片进行描述,识别地表景点,识别图像中的文字,并能对图片中的知识进行介绍。

在国外AI 公司的中国人员在小红书爆料:美国现在有许多想要挤进大模型第一梯队的初创公司普遍感到泄气,因为他们做不到用有限的资金、技术去实现DeepSeek 的水平。而一些需要AI 技术的公司则十分兴奋,因为他们可以利用DeepSeek 来完成自己产品的开发。

美国试图通过禁止Nvidia 向中国出口高端H100 芯片来遏制AI 发展,偏偏DeepSeek就通过优化算法和硬件利用率,以性能较低的H800 芯片实现了高效训练。

《自然》杂志(Nature Jounal)指出,这一成就不仅挑战了“ 算力霸权”的逻辑,还证明了中国在资源受限下的创新能力。

《MIT科技评论(麻省理工学院科技评论)-MIT Technology Review》表示:考虑到中国人工智能公司面临的限制,即美国加强对尖端芯片的出口管制,使得DeepSeek的成功更加引人注目------制栽非但没有削弱中国的人工智能能力,反而似乎正在推动像DeepSeek 这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。

埃默里大学(Emory University)信息系统助理教授告诉《MIT 科技评论》,以DeepSeek 为代表的中国大模型“ 是一个真正的平等突破,对於资源有限的研究人员和开发人员来说非常有用,尤其来自全球发展中国家的研究人员和开发人员。”

美国人工智能大模型的价格昂贵,一方面可以让美国的AI 公司获利颇丰,同时形成技术垄断,这对人类整体的科技发展绝非好事。如今中国的AI 大模型正在打破垄断,惠及全世界全人类,这简直让美国感到前所未有的恐慌。

CNBC 警告称:“ 若中国开源模型成为全球开发者的默认选择,美国将面临市场份额和生态系统控制权的双重流失”。

所以这几天DeepSeek 官网显示,其线上服务受到大规模恶意攻击,IP 地址都在美国。


2025年1月16日星期四

《泊船瓜洲》

 

《泊船瓜洲》——王安石

京口瓜洲一水间,钟山只隔数重山。

春风又绿江南岸,明月何时照我还。

长期以来,后人对王安石写这首诗的时间有不少争议,具体主要有三种意见:(1)宋神宗熙宁元年(1068年),王安石应召自江宁府赴京任翰林学士,途经瓜洲后所作。

(2)神宗熙宁七年(1074年),王安石第一次罢相自京还金陵,途经瓜洲所作。

(3)神宗熙宁八年(1075年),王安石第二次拜相,自江宁赴京途经瓜洲时所写。

而南京大学徐有富教授则认为,从王安石的行程和心态来推算,《泊船瓜洲》的写作时间应当在神宗熙宁元年春天。

宋仁宗嘉祐八年八月(1063年),王安石因母亲病逝,遂辞官回江宁钟山(今江苏南京)守丧。宋英宗在位时(1063年至1066年),屡次征召王安石赴京任职,他均以服母丧和有病为由拒绝入朝,此后王安石便一直在江宁钟山为母亲居丧。

宋神宗即位,治平四年(1067年)闰三月,王安石出知江宁府,复被任命为翰林学士。神宗熙宁元年春,四月,王安石以翰林学士身份应诏入京,由京口渡江泊船瓜州时,写下了这首被后人广为称道的七言绝句——《泊船瓜洲》。

王安石在离开钟山前还写了《题南涧楼诗》以表达他当时的心态:

“ 北山云漠漠,南涧水悠悠。

去此非吾愿,临分更上楼。” 

虽然王安石出生在江南抚州临川县,江宁却是王安石长期读书生活工作的地方,也是他父母和兄弟的墓园所在地,因此对他心目中的第二故乡——江宁尤其是钟山特别的依恋。

“京口瓜洲一水间,钟山只隔数重山。

春风又绿江南岸,明月何时照我还。” 

王安石站在瓜洲的渡口,放眼南望,京口和瓜洲只隔着一条长江,舟行迅疾,顷刻就到,回望自己居住的钟山,已经隐没在几座山峦的后面。

暖和的春风又一次吹绿了江南的田野,自己应当留在家乡与家人一起共度美好的春光。由於公务缠身,不得不与家乡背道而行,留给自己的是对家乡无尽的思念。“ 明月何时照我还”,对着象征团圆的月亮,王安石寄重回钟山与家人团聚的希望,对家乡眷念之情溢於言表。

王安石,字介甫,号半山,真宗天喜五年(1021年)出生在抚州临川镇(今江西抚州),为北宋时期政治家、文学家、思想家、改革家。仁宗景祐四年,十七岁的王安石跟随着身为判官的父亲王益调往江宁上任。仁宗宝元二年,王益病逝任上,葬在江宁牛首山,自此王家子孙遂以江宁为家。

据南宋人洪迈《容斋续笔》卷八对王安石这首诗有一段记载:王荆公(熙宁九年—1076年王安石罢相后退居江宁,封荆国公,世称荆公)绝句云:“ 京口瓜洲一水间,钟山只隔万重山,春风又绿江南岸,明月何时照我还”。吴中士人家藏其草,初云“ 又到江南岸”。圈去“ 到”字,注曰“ 不好”,改为“ 过” ,复圈去而改为“ 入”,旋改为“ 满” ,凡如是十许字,始定为“ 绿” 。

原来王安石写这首诗时,曾经改了十几个字最后才决定用“ 绿”字。本来是个形容词的“ 绿”字,在句中却用成了动词,既起了动词的作用,也收到形容词的效果。一个“绿”字不仅使全句神韵顿生,而且成为修辞学上的著名例子。王安石的《泊船瓜洲》因一字生辉而万口流传,也为后代的诗人在创作上提供了一个典范。