DeepSeek-R1 安卓手机部署

“DeepSeek-R1-Distill-Qwen-1.5B 安卓手机部署”

徐静
发布时间:2025 年 02 月 03 日
https://github.com/DataXujing/DeepSeek-R1-Android

CONTENTS

Outline

1. DeepSeek-R1模型报告解读

1.DeepSeek-R1-Zero

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

2.DeepSeek-R1

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

3.蒸馏DeepSeek-R1

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

4.GRPO

PPO:

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

  • Actor Model:由SFT之后的模型初始化而来,作为Policy模型,用于接收上下文做出动作预测下一个字符,学习完后最终用的就是Actor Model.
  • Reference Model:和Actor Model同样初始化自SFT模型,训练过程中冻结参数,用于和Actor Model做对比保证Actor Model不要偏离SFT模型太多.
  • Reward Model: 通常比SFT模型小,作为环境训练过程中被冻结,针对于每一个状态给出奖励分数.
  • Critic Model: 由Reward Model初始化而来,用于近似价值函数,输入状态,估计当前的价值.
徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

RL + LLM 知识:On Policy 与 Off Policy 差异在哪?

  • on policy (PPO):
    • 每次训练都基于自己的生成模型(Actor),通过教练(Critic)反馈奖励优
    • 优势是效率高,没有模型自生成自然效率高,问题是训练后模型能力可能不够
  • off policy (DPO):
    • 基于现有标注的情况进行分析,存在训练样本可能与模型不匹配的问题
    • 优势是更有可能达到模型能力的上限,问题是效率较低
徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

PPO存在的问题

从PPO的优化过程分析,其存在如下缺点:

  1. 需要训练一个与策略模型大小相当的价值模型(Critic Model),这带来了巨大的内存和计算负担
  2. LLM 通常只有最后一个 token 会被奖励模型打分,训练在每个 token 上都准确价值函数难
  3. GRPO 避免了像 PPO 那样使用额外的价值函数(Critic Model)近似,而是使用同一问题下多个采样输出的平均奖励作为基线
徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

GRPO的优点

  • 无需额外的价值函数:
    • GRPO 使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。
  • 与奖励模型的比较性质对齐:
    • GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。
  • KL惩罚在损失函数中:
    • GRPO 直接将训练策略 和参考策略 之间的 KL 散度添加到损失中,而不是像 PPO 那样在奖励中添加 KL 惩罚项,从而避免了复杂化 的计算。
徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

5.DeepSeek-R1中尝试的失败的慢思考的案例

Unsuccessful Attempts

  • Process Reward Model (PRM)

  • Monte Carlo Tree Search (MCTS)

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

2. DeepSeek-R1-Distill-Qwen-1.5B模型下载和转MNN

  1. 下载DeepSeek-R1-Distill-Qwen-1.5B
  1. DeepSeek-R1-Distill-Qwen-1.5B转MNN
python llmexport.py \
        --path /deepseek-r1 \
        --export mnn \
        -quant_bit 4 --quant_block 128
徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

3. 基于QT和MNN的DeepSeek-R1安卓端部署

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日

4. Demo

#c

徐静 DeepSeek-R1 安卓手机部署 2025年02月03日
The End
Thanks For Your Attention!

<div class="icons"> - <i class="fa-solid fa-envelope"></i> - 274762204@qq.com - <i class="fa-brands fa-weixin"></i> - 花开富贵 - <i class="fa-solid fa-house"></i> - 虹鹄山庄 <div>