Kee's

leetcode hot 100 题解

leetcode hot 100 题解

leetcode hot 100 题解1. 深度搜索（recursive 解法）78. 子集给你一个整数数组 nums ，数组中的元素互不相同。返回该数组所有可能的子集（幂集）。解集不能包含重复的子集。你可以按任意顺序返回解集。示例 1： 12输入：nums = [1,2,3]输出：[[],[1],[2],[1,2],[3],[1,3],[2,3],[1,2,3]] 示例 2：

2025-09-23

笔记

#笔记 #leetcode #算法

大模型算法学习笔记（1） - PPO 算法

大模型算法学习笔记（1） - PPO 算法

大模型算法学习笔记（1） - PPO 算法1. 前置概念PPO 算法最开始用在强化学习中强化学习思想：在环境中试错并获得奖励（正或负），然后将其视作反馈从而学习其中，负责决策和试错的智能体我们成为 agent ，可以简单的类比成监督学习中的机器学习或深度学习模型，是一个可学习的函数。我们将传统强化学习的过程应用在大模型中： episode ：语言模型生成一个句子 step：句

2025-09-23

笔记

#笔记 #强化学习 #大模型