Su的技术博客

  • 首页
  • 原创
  • 视频
  • Java
  • MySQL
  • DDD
  • 事故复盘
  • 架构方案
  • AI
  • Other
  • 工具
    • AI工具集
    • 工具清单
    • JSON在线格式化
    • JSON在线比较
    • SQL在线格式化
  • 打赏
  • 关于
路很长,又很短
  1. 首页
  2. AI
  3. 正文
                           

【deepseek】使用DeepSeek R1的19条经验

2025-02-11 1823点热度 0人点赞 0条评论
  • DeepSeek R1 使用总览

    • 核心:理解模型特点,掌握沟通技巧,避免无效策略
    • 目标:更有效地利用 R1 完成任务
  • 五大语言模型的特点

    • Token 化
      • 模型在训练时会将内容进行 Token 化。
      • 大模型所看到和理解的世界与人类不同。
      • 所有训练数据(书籍、网页、对话记录等)会被切割成 Token 的基本单元,类似于文字碎片。
      • Token 会被转化为数字编码,类似于模型能理解的密码本。
      • 局限性:不擅长处理数单词中的字母数量或精确字数的要求。
    • 知识截止时间
      • DeepSeek R1 的基础模型训练数据有时间窗口,会在发布前关闭。
      • 三重时间壁垒:
        • 预训练阶段处理 PB 级别原始数据,数据清洗耗时。
        • 训练后需要经过监督微调、强化学习以及基于人类反馈的强化学习。
      • 知识滞后性:
        • 模型训练完成后出现的新事物无法自动识别和理解。
        • 对训练后发生的重大事件不太了解。
      • 突破知识限制的方法:
        • 激活联网搜索功能,让 R1 自主搜索信息。
        • 自主补充必要知识,例如上传文档或在提示词中补充信息。
    • 缺乏自我认知
      • 多数模型不知道自己叫什么或是什么模型。
      • 问题:
        • AI 有时会给出错误的自我认知,例如认为自己是 ChatGPT。
        • 无法让 R1 告诉你它自己有什么特点或使用技巧。
    • 记忆限制
      • 模型有上下文长度限制,DeepSeek R1 目前提供 64K Token 的上下文长度。
      • 问题:
        • 无法一次投喂太长的文档。
        • 对话轮次过多时,可能遗忘最初的聊天内容。
    • 输出长度限制
      • 多数模型会将输出长度控制在 4K 或 8K,即单次对话最多回答 2000-4000 个中文字符。
      • 问题:
        • 无法一次性完成长文翻译或写作。
      • 解决方法:
        • 长文翻译:多次复制或通过代码调用 API 多次执行。
        • 长文写作:先让 R1 梳理框架列出提纲目录,再根据目录生成不同阶段的内容。
  • 七项与 R1 对话的技巧

    • 提出明确的要求
      • 清楚表达需要 AI 帮你做什么,做到什么程度,避免让 AI 猜测。
      • 示例:
        • 复制英文文本时,明确告知需要翻译、总结还是出题。
        • 想写一篇 500 字的文章,明确表达文章主题和字数要求。
    • 要求特定的风格
      • R1 在特定风格写作方面表现出色。
      • 示例:
        • 用李白的风格写诗。
        • 按贴吧暴躁老哥的风格骂人。
        • 用鲁迅的文风进行讽刺。
        • 模仿任意作家风格进行写作。
        • 按脱口秀演员风格创作脱口秀脚本。
      • 有效表达方式:
        • 让 R1 说人话,或让 R1 认为你是初中生,简化解释复杂概念。
    • 提供充分的任务背景信息
      • 告诉 R1 你为什么要做这件事,面临的现实背景或问题是什么,让 R1 将其纳入思考。
      • 示例:
        • 生成减肥计划时,告知身体状况、饮食摄入和运动情况。
    • 主动标注自己的知识状态
      • 清晰的知识坐标能让 AI 输出更精确地匹配你的理解层次的内容。
      • 示例:
        • 告诉 R1 我是初中生或小学生,把自己放置在知识背景约等于 0 的知识状态。
        • 希望深入探讨某些内容时,清晰表达你在该领域的知识状态或是否存在关联领域的知识。
    • 定义目标而非过程
      • 提供清晰的目标,让 R1 具有一定的思考空间,更好地执行任务。
      • 像产品经理提需求那样描述你想要什么,而不是像程序员写代码那样规定怎么做。
      • 示例:
        • 产品评审会后整理录音文字稿,可以进一步思考总结出的材料要如何使用,为 R1 提供目标,让它创造性地完成任务。
    • 提供 AI 不具备的知识背景
      • 当任务涉及到模型训练截止后的新信息时,需要帮助 R1 拼上缺失的拼图。
      • 通过结构化的输入帮助 AI 突破知识限制,避免因信息缺乏而出现错误回答。
    • 从开放到收敛
      • R1 的思维链是透明展开的,从 R1 思考的过程中能收获很多信息。
      • R1 在展开思考时会进行可能性预测,补充完善信息可以避免 R1 猜测,从而提供更精确的结果。
      • 示例:
        • R1 在思考涨价方案时,提供分阶段涨价、增加产品价值、通过营销活动转移注意力三种方案,并预测可能具有保持市场份额或提升品牌形象的需求。可以借此思考倾向的方法和目标,进一步收敛提示词。
  • 七种被验证为无效的提示策略

    • 思维链提示
      • R1 经过强化学习后已经能产生更好的思维链,无需手动提供。
    • 结构化提示词
      • 依然可以用 Markdown 格式的语句使信息结构更清晰,但必要性不强。
    • 扮演专家角色
      • R1 本身就是一个专家模型,会尝试专家思维,无需额外指定。
    • 完成任务后给奖励
      • 无效,甚至会被 AI 认为是笑话。
    • 少示例提示 (Few-shot)
      • 应该规避。
      • DeepSeek 团队在发布 R1 技术报告时也明确提到应规避此技巧。
    • 角色扮演
      • R1 不太擅长情感化的角色扮演。
      • 情感化的对话依赖直觉,而 R1 每次都要进行深思熟虑。
    • 对已知的概念进行解释
      • R1 非常理解知名作家和人物的风格,且思考时会进行更深入和更丰富的结构。

 

来源:AI进化论-花生

 

 

更多文章:

  1. ChatGPT完胜DeepSeek、通义千问
  2. 【2024.1】仍然活跃的开源LLM
  3. Prompt之【翻译】
  4. OpenAI震撼技术圈!0代码构建Assistants API,技术原理探秘
  5. Google Gemini技术报告要点提炼
  6. AI辅助编码,应该怎么选?
  7. LLM下半场之Agent基础能力概述:Profile、Memory、Plan、Action、Eval学习笔记
  8. 26 条有效的AI提示词技巧
  9. 2023 年 AI 盘点(转译)
  10. 如何写好提示词?(上)
标签: deepseek GPT AI 人工智能
最后更新:2025-02-11

秋天0261

关注Java领域,后端开发、Netty、Zookeeper、Kafka、ES、分布式、微服务、架构等。分享技术干货,架构设计,实战经验等。

打赏 点赞
< 上一篇
下一篇 >
广告
文章目录
  • DeepSeek R1 使用总览
  • 五大语言模型的特点
  • 七项与 R1 对话的技巧
  • 七种被验证为无效的提示策略
最新 热点 推荐
最新 热点 推荐
视频笔记:微服务架构P4 设计模式:每服务数据库、API 网关和事件驱动架构 干货 | 论Elasticsearch数据建模的重要性 马蜂窝消息总线——面向业务的消息服务设计 基于 MySQL Binlog 实现可配置的异构数据同步 视频笔记:Google发布Agent2Agent协议 视频笔记:什么是微服务,为什么是微服务? 视频笔记:什么是AI 智能体? 视频笔记:什么是Flink?
Elasticsearch 使用误区之六——富文本内容写入前不清洗基于 MySQL Binlog 实现可配置的异构数据同步马蜂窝消息总线——面向业务的消息服务设计视频笔记:微服务架构P4 设计模式:每服务数据库、API 网关和事件驱动架构干货 | 论Elasticsearch数据建模的重要性你可以不用RxJava,但必须得领悟它的思想!如何秒级实现接口间“幂等”补偿:一款轻量级仿幂等数据校正处理辅助工具视频笔记:什么是Flink?
用了@Autowired注入,竟然被警告 JVM 内存大对象监控和优化实践 干货 | Elasticsearch基础但非常有用的功能之二:模板 Spring事务无法生效的11个场景 云音乐贵州机房迁移总体方案回顾 从滴滴的故障我们能学到什么 理解领域驱动设计DDD 笔记08 | 搜狗面试题:IO多路复用之select、poll、epoll的区别

CRUD (1) Event Sourcing (1) graphql (1) id (1) NoSQL (1) quarkus (1) rest (1) RocketMQ (2) Spring Boot (1) zk (1) zookeeper (1) 上下文 (1) 事务消息 (1) 二级缓存 (1) 值对象 (1) 关系数据库 (1) 分布式缓存 (1) 原子性 (1) 唯一ID (1) 商品 (1) 多对多 (1) 子域 (1) 字符集 (1) 客户端心跳 (1) 幂等 (2) 干货 (1) 并发 (1) 应用场景 (1) 应用架构图 (1) 康威定律 (2) 异步复制 (1) 微服务架构 (3) 总体方案 (1) 技术方案 (2) 技术架构 (2) 技术架构图 (1) 技能 (1) 持续集成 (1) 支撑域 (1) 故障恢复 (1) 数据架构图 (1) 方案选型 (1) 日记 (1) 服务发现 (1) 服务治理 (1) 服务注册 (2) 机房 (1) 核心域 (1) 泄漏 (1) 洋葱架构 (1) 消息队列 (5) 源码剖析 (1) 灰度发布 (1) 熔断 (1) 生态 (1) 画图工具 (1) 研发团队 (1) 线程 (2) 组织架构 (1) 缓存架构 (1) 编码 (1) 视频 (19) 读写分离 (1) 贵州 (1) 软件设计 (1) 迁移 (1) 通用域 (1) 集群化 (1) 雪花算法 (1) 顺序消息 (1)

推荐链接🔗
  • AI工具集
  • 工具箱🛠️

COPYRIGHT © 2014-2025 verysu.com . ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备15033072号-2

x