News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

科学家建议为大型模型建造物理桥梁,建议“

图 | 刘子鸣(来源:https://kindxiaoming.github.io/)资料来源:DeepTech最近,北京大学的本科校友Liu Ziming博士及其团队提出了神经溶质动力学定律(NTL),这是热力学和法律的概念,自然而然地为培训模型提供了出色的培训。关于这一结果,刘Ziming写信给X:“叠加和神经尺度定律的状态是语言模型中的两个神秘现象。这项新研究表明,它们实际上是同一枚硬币的两个方面!实际上,人们可以通过接近“负面”的权重来控制叠加状态,从而控制扩张。”他还说:“ AI最终是自然的(自然),而不是人造(人造)。”大型型号的物理桥的建造。通常,此结果的基本贡献如下:首先,研究团队表达了快速和缓慢的动态分解的数学。在河流的景观中 - 瓦利损失景观,他们分解了在两个动态过程中的训练过程:第一个是一个快速的动态过程,即沿山谷方向或以学习衰减速度的固定研究速率η处的平衡状态;第二个是一个缓慢的动态过程,即朝着河的方向漂流。其次,研究团队创建了一个可以精确解决的简化河流 - 瓦利损失模型,该模型可以同时获得快速和动态流,并可以为研究率提供分析解决方案,并为研究率提供最佳计划。同样,由联合团队表明,该结果与大型模型之间的经验关系是独一无二的。具体来说,他们表明,这个简单模型的观点通常可以在真正的大型模型的实践中,并且可以轻松理解和有效的灵感来安排学习率。同时,神经网络和热力学上的训练之间的双重二元提供了科学的BASI为了深刻了解深入研究,建造了大型模型的物理桥。基于团队,他们认为研究率具有三个主要操作:温度控制,熵控制和时间控制。这项研究还证明,可以通过热力学概念来理解大型模型训练的许多方面。将来,Kopesthen将根据目前获得的科学观点设计算法,以提高大型模型培训的效率。照片|动态运动与热力学(起源:ARXIV)尸体之间的关系 - 大型神经网络与热力学系统(如研究过程)之间的均匀性,如前所述,该团队建议河流-Valley损失景观,这简化了这一研究模型。同时,他们还审查了随机梯度下降(SGD,随机梯度下降)和符号梯度下降(SignGD,符号梯度的动态练习)下降)。重要的是要说,河流 - 瓦利的损失格局是一种用于描述神经网络期间损失损失的拓扑的概念隐喻。其中:河流指的是一个低维,温和的优化路径,其梯度较小但稳定的方向,对应于带有参数更新的良好通道。山谷是指被陡峭区域包围的平坦区域,对应于当地的最低限度。景观损失是指在神经网络的参数空间中丢失值的几何分布,这反映了在不同参数组合下模型的性能。大型神经网络在热力学系统中具有令人惊讶的均匀性,既涉及大量的自由度,又显示出随机动力学。因此,以前已经探索过神经网络与热力学之间的联系。但是,这些研究主要集中于机器学习的经典您,相对s触发且易于理解景观损失。此前,一个研究团队揭示了大型模型的景观损失的复杂特性。这种称为River-Valley的结构由两种类型的方向组成:河流的平坦而缓慢的方向以及山谷的陡峭而快速的方向。从直觉上讲,快速的动态将迅速达到山谷内部的平衡,而缓慢的动态将逐渐改变河流的方向,并适合快速动态。这种快速的分离机制使人们能够独立处理山谷方向的动力学和河流方向,从而获得了分析解决方案。特别是:快速动力学反映了热平衡和退火的特性,而慢速动力学则显示出一种利润过程。在质量水平和某些情况下,这些分析解决方案与经典概念和热力学定律相似。大型国防部的景观损失El提出了河谷结构的共同特征。这项研究的目的是通过神经动力学定律的理论框架正式化上述直观的理解。因此,该结果与大型模型培训直接相关。这种优化理论与热力学理论之间的双重偶尔为理解和分析现代优化者的全新理论前景提供了全新的看法,这是由研究人员撰写的。 (应该指出的是,现代优化器是一种专门针对神经网络培训设计的高级梯度下降算法。当选,他们说,他们通过最大程度地减少损失损失和训练AI模型的基本技术来改善模型的性能。大型模型的动态。在实际层面上,这项研究提供了针对研究量的直觉指导原理。调整基本深入研究中的训练参数及其本质是通过组织,在快速搜索解决方案和最佳解决方案的平稳调整之间取得平衡来更新步骤的长度。)仅是深层概念和理论上的意义,但也为MGA实践设计提供了巨大的指南,例如研究研究率。在大型培训模型中,一种常用的研究率调度方法是温暖 - 纪念日(WSD,热身稳定 - 纪念日)。根据以前的文献,可以看出稳定阶段对应于河流方向的运动,并伴随着山谷方向的变化。而衰减阶段将阻止山谷方向的变化。受到这一点的启发,该团队推出了基于河流瓦利损失现场的简化模型。该模型不仅是分析性可溶性,而且还可以自然地作为热力学系统翻译,并显示高水平的经验l在模型中实际大规模动态训练中的一致性。基于快速和缓慢动力学之间的时间尺度分离属性,团队研究的衰减是两个部分的总损失:快速部分ℓF和缓慢的零件,从而激发了构建山谷景观模型的构建。通过固定的研究速率,快速动力学与稳定的状态分布相互作用,类似于热平衡状态。随着研究率逐渐降低,分布状态将相应变化,这一过程类似于退火。此外,快速动力学在缓慢动力学中的熵强度产生了有效的效果,类似于熵在物理学上的强度。值得注意的是,研究率在所有这些现象中起关键作用。通过消除研究小组的复杂性,有时甚至是矛盾的机制,研究小组提出了一系列直观而出色的指南研究率。与以前的研究结果相比,基于经验或现象(尤其是优化的研究率计划设计)对模型优化进行了大规模研究的结果相比,对此结果的认识更多地集中在机制的研究上。目前,该论文纸已经发表在Arxiv [1]中,标题为“大型语言模型培训的神经热力学定律”。照片|相关论文(来源:Arxiv)Liu Ziming博士正在Max Tegmark,Max Tegmark研究,并主要研究了人工智能和物理科学的交集。他将研究方向分为AI科学,AI科学和AI科学的科学。目前,他正在寻找PospostDoctoral。参考材料:https://arxiv.org/pdf/2505.10559https://x.com/zimingliu11https://kindxiaoming.github.io/type:liu Yakun
Tel
Mail
Map
Share
Contact