DeepSeek单周下载量高达约240万次,可能超过豆包在前一年春节期间通过广告投放达到的下载量;
引发美股大跌的是两个模型DeepSeek-V3和DeepSeek-R1,前者是类4o模型,后者是类o1模型;
DeepSeek-V3训练成本只有Llama 3的1%,DeepSeek-R1推理成本只有OpenAI o1的3%;
DeepSeek-V3的大量创新都与克服使用H800(而不是H100)所带来的内存和带宽不足有关;
R1系列模型放弃了RLHF的HF(人类反馈)部分,只留下纯粹的RL(强化学习),这个过程中模型涌现了「反思」能力;
DeepSeek还用其80万条思维链数据微调了阿里的Qwen模型,结果后者的推理能力也提升了;
DeepSeek尚未推出金融投资大模型,不过这只是时间问题。
如果你还在用各种"专业提示词"和"模板",那就是走错了方向。
DeepSeek根本不吃这一套。
为什么?
因为它的核心是推理型大模型,不是指令型大模型。
这就像两个实习生:
一个小书呆子,需要你事无巨细地安排任务步骤。(指令型) 一个小机灵鬼,只要你说明目的,他就能自己思考怎么做。(推理型)
用一个真实案例来说明,社群一位运营同学的实测,进行新能源行业分析,用于准备与比亚迪供应商谈判。
传统方式:
请你扮演一位新能源行业分析师,按照以下步骤分析:1. 市场规模2. 竞争格局3. 技术路线4. 未来趋势要求:每部分800字,引用权威数据...
我下周要和比亚迪的供应商谈判,但对动力电池不懂。
帮我用最通俗的语言说明:1. 他们的技术优势在哪2. 可能要价多少3. 有什么谈判时能用的专业术语
重点是让我听得懂,能装得像内行
DeepSeek不需要你写"专业提示词",
它需要的是真实场景和具体需求。
送您一个通用公式:
我要xx,要给xx用,希望达到xx效果,但担心xx问题...
这个神奇的提示词是:
说人话。
没错,就这三个字。
为什么?
因为DeepSeek的思维方式,比GPT-o1更智慧。
用一个真实案例来对比:
GPT-o1线性罗列,像个高级文档工具 DeepSeek深度思考,像个思考伙伴
免费的DeepSeek,直接让整个硅谷AI公司的牛马连夜加班,
幸亏他们不用过春节。
但最近,发现一个现象:
但对于我们用户来说,如何继续激发它的深度思考能力?
整理了三个核心提示词,为了装逼,称为深度思考三件套:
请在你的思考分析过程中同时进行批判性思考至少10轮,务必详尽 请在你的思考分析过程中同时从反面考虑你的回答至少10轮,务必详尽 请在你的思考分析过程中同时对你的回答进行复盘至少10轮,务必详尽
如此一来,深度思考将从5秒恢复为20秒左右。
斜体的部分,可以自由替换成你所擅长的形式,也可以组合叠加,
提示词很简单,哪怕口述就行:
模仿xxx的文风,撰写关于xxxxx的一篇xx文体。
但要注意两点局限:
一方面,它更适合模仿经典作家,因为训练数据充足,风格特征明显。
另一方面,不要期待100%还原,80%相似度已经很厉害,重点是能抓住神韵。
我觉得deepseek肯定是训练了大量的文学语料,尤其是中国古典文学。
我要xx,要给xx用,希望达到xx效果,但担心xx问题...
例如:
我要写一篇关于赞颂王星女友机智勇敢用心的赋,用来小红书上面炫技,希望重点放在模仿王勃的篇文上,重点是让我本人的文采装逼,在小红书获得一个亿的赞,但担心别人看不懂太晦涩了……"
说了这么多优点,也必须说说它的局限性。
以下场景不建议使用DeepSeek:
超过4000字的文章容易出现逻辑断裂,建议用Claude200k。
这种情况怎么解决呢?
但很难通过精确控制来确保你想要的风格写作效果。
这其实不算deepseek的缺点,只能算特性。
-end
__________________________
文章资料:央视网、 新皮层NewNewThing、鹤竹子
如有侵权,请后台联系小编删除