Kee's
  • Home
  • Archives
  • Categories
  • Tags
  • About
  • todo
leetcode hot 100 题解

leetcode hot 100 题解

leetcode hot 100 题解1. 深度搜索(recursive 解法)78. 子集给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集(幂集)。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 示例 1: 12输入:nums = [1,2,3]输出:[[],[1],[2],[1,2],[3],[1,3],[2,3],[1,2,3]] 示例 2:
2025-09-23
笔记
#笔记 #leetcode #算法
大模型算法学习笔记(1) - PPO 算法

大模型算法学习笔记(1) - PPO 算法

大模型算法学习笔记(1) - PPO 算法1. 前置概念PPO 算法 最开始用在 强化学习 中 强化学习思想:在环境中试错并获得奖励(正或负),然后将其视作反馈从而学习 其中,负责决策和试错的智能体我们成为 agent ,可以简单的类比成监督学习中的机器学习或深度学习模型 ,是一个可学习的函数 。 我们将传统强化学习的过程应用在大模型中: episode :语言模型生成一个句子 step:句
2025-09-23
笔记
#笔记 #强化学习 #大模型

Search

Hexo Fluid