
RoPE外推优化——支持192K上下文长度 - 知乎
Sep 26, 2025 · Baichuan2-Turbo-192k 今天,我们要介绍的就是其背后的技术, 通过 dynamic ntk 等方法提升大模型的长文本理解、外推能力。 在上一篇文章中,我们详细介绍了旋转位置编 …
神经正切核 (ntk)的进展如何,好像热度不高了? - 知乎
我对神经正切核的理论进展了解不多,只是看过维基的程度,理论上的进展确实可能热度没那么高了,毕竟像NTK这样的大突破不是天天有。 但是在应用方面,我认为它的热度依然很高。目 …
再论大模型位置编码及其外推性(万字长文) - 知乎
Sep 23, 2025 · 图4-6 不同插值方法的效果(这里的scale是指位置插值中扩大的倍数k,alpha是指NTK中的lambda参数或者是公式(15)中的alpha参数) 从图中可以看出在 时,NTK可以在 …
深度学习理论之Neural Tangent Kernel第一讲:介绍和文献总结
基本介绍在神经网络中,neural tangent kernel (NTK) 是描述无限宽深度神经网络在梯度下降训练过程中演化的核。它最开始由Arthur Jacot, Franck Gabriel, 和Clément Hongler在2018年发表 …
基于Transformer的LLM的context length是由什么决定的? - 知乎
Jul 7, 2025 · Dynamic NTK Scaling: 一种更复杂但效果显著的 RoPE 缩放变体。 不仅仅是线性缩放频率,而是对 RoPE 中的旋转角频率 θ 作分层或非线性放大/压缩。 源于神经正切核 …
神经网络损失函数由多部分组成怎么设置权重? - 知乎
关于损失的 数学分析 (NTK) 与导数信息。 Wang等人 [3]从Neural Tangent Kernel (NTK)视角来理解PINN训练中的梯度传播,提出在NTK的基础上合理分配损失项的权重,并在训练过程中每 …
深度学习理论研究之路 - 知乎
深度学习理论之Feature Learning 综述和介绍 继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。 不同于NTK,feature …
深度学习理论方向的综述性论文有哪些? - 知乎
深度学习理论方向的综述性论文有哪些? 指以数理方法来研究深度学习原理,或者对相关现象进行动力学解释,子研究方向暂时只能想到NTK、Mean Field、Feature Learning相关… 显示全部 …
深度学习中有哪些从数学模型或相关理论出发, 且真正行之有效的 …
从表达式子看,有一点和Neural Tangent Kernel (NTK)不同的是,有一个 1/N 的系数。 而在NTK理论中,系数是 (1/N)^½ 。 假设我们使用,squared loss,那么考虑stochastic gradient …
十分钟读懂旋转编码(RoPE)
Sep 23, 2025 · 旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self …