问鼎娱乐app苹果下载 绕开DeepSeek技术思路,马普所团队开源推理模型新路线

绕过DeepSeek Technology Ideas,这是Mapsoviet团队开源推理模型的新途径

直播02.1219:21

综合训练器怎么选择_综合训练器训练视频_综合训练器使用

目前,许多AI开发人员正在研究DeepSeek的技术路线。但是,一个外国团队提出了一种独特的新方法。他们提出了一条新的推理模型途径,该途径绕过了思维链,并通过采用深层循环隐含的推理方法来开辟大规模模型性能扩展的新维度。

具体来说,来自麦克斯波克姆智能系统,马里兰大学和美国劳伦斯·利弗莫尔国家实验室的研究人员提出了一种新型的语言模型架构,可用于隐含潜在空间中的推理。在扩展测试时计算。 (注意:潜在空间是指生成模型学到的低维连续矢量空间,其中每个点对应于数据特征的压缩表示。)

通过此,研究人员创建了一个名为Huginn的概念验证模型问鼎娱乐,参数量表为3.5B,并在800B代币数据上进行了预培训。

该模型通过迭代循环块来起作用,以便在测试时可以将其扩展到任何深度,这与主流推理模型形成鲜明对比,该模型通过生成更多令牌来扩展计算。

与基于思维的方法不同,本研究中使用的方法可以在较小的上下文窗口中起作用,而无需使用任何专用的培训数据,并且可以捕获很难用文字清晰表达的推论。类型。

目前,研究人员已经发布了所有培训数据,预先培训的代码和一些中间模型检查点。

关于进行这项研究的最初意图,研究人员在论文中说,人们以前在提高大型模型的功能时采用了扩展模型参数的做法,这需要大量的数据和计算。

尽管已经探索了通过扩展测试时间计算来增强模型推理功能的方法,但对于主流方法,它涉及长链思维示例的训练后训练,以便模型可以在其上下文窗口中表达中间计算。 ,从而将思维过程外部化。

这种方法的缺点是,对于那些昂贵的内部推理过程,它们必须始终归因于单个书面的下一个标记,这可能会导致浪费资源。

如果模型可以在其连续的潜在空间中“思考”,则可以表现更好。

培训是在世界上第一个“ 100亿个子级”超级计算机前沿进行的培训

为了实现上述,一种方法是在模型中添加一个循环单元。该单元以循环运行,迭代处理并更新其隐藏状态,从而使计算无限地继续。

研究人员说,该模型是使用仅包含解码器的变压器模块构建的。这些模块分为三个函数组:前奏,复发板和尾声。

前奏模块使用多个变压器层将输入数据嵌入潜在空间中。循环模块是执行递归计算并修改状态的中央单元。结尾模块使用多个层从潜在空间中认为,还包含模型的预测头。 (注意:预测标头是深度学习模型中的一个组件,通常用于在模型末尾执行特定的预测任务。)

核心模块设置在前奏模块和结束模块之间。通过循环核心模块,可以将任何数量的“诗歌节”添加到“歌曲”中。这里的“歌曲”可以理解为模型的处理流,“经文”可以理解为处理步骤或周期的数量,等等。

在确认小型测试模型可以可靠地训练并且训练数据量达到10B代币之后,研究人员开始进行大规模的实验。

鉴于研究人员的计算资源有限,他们只有两种选择:要么训练多个小但不令人满意的模型;或训练单个中型尺寸的单个型号。经过全面考虑,研究人员准备了一个单尺度的操作实验。

具体来说:他们将培训设置分为几个部分:体系结构,优化设置和预训练数据。由于研究人员只能获得一次进行大规模模型培训的计算资源,因此他们使用数据集组合方法,旨在最大程度地提高模型的推理能力,而不是追求最佳的基准测试性能。

这种结合数据集的方法在很大程度上偏向于代码数据和数学推理数据,还包含适当数量的一般网络文本,以便该模型可以获得标准的语言建模功能。

根据以前的人提出的方法,研究人员将相关的指导数据直接混合到培训前数据中。同时,研究人员通过“ BPE”(字节对编码)制造了一个带有65,536个标记的词汇。 (注意:字节对编码是一种在自然语言处理中使用的子词单词分割技术,旨在解决传统单词分割方法的局限性,以处理未知和稀有单词。)

与传统的单词parter培训方法不同,研究人员直接在预先训练的语料库中的一部分指令数据上构建单词分析器,以最大程度地提高目标领域的令牌化效率。

同时,他们还显着修改了预分会的正则表达式,以更好地支持代码,缩写和乳胶格式含量。 (注意:前部是单词分割过程中的初步步骤。正则表达式是一种用于匹配字符串模式的工具。预分会的正则表达式是在预分会阶段中使用的正则表达式。)

研究人员在每个文档的开头添加了一个标记。对验证的语料库进行令牌化后,他们将令牌化的文档打包为长度4096的序列。

在包装过程中,除了保留几个包含数学内容的较长文档外,研究人员还丢弃了文档的结尾部分,这些部分缺乏以前文本的上下文来解决上下文关联的问题。

然后,他们使用了Frontier群集分配的计算时间,Frontier群集是世界上第一个从美国Oak Ridge National Laboratory的“ 100亿个子”超级计算机来训练该模型。边界群集是一个大规模的高性能计算系统,其中包含8个配备AMD MI250X GPU的节点。这些节点通过4个HPE弹弓网络接口卡互连。 (注意:HPE弹弓是由HP拥有的超级计算机制造商Cray开发的高性能以太网互连技术。)

对于调度系统,研究人员通过Slurm进行了策划问鼎娱乐官网下载,并接受了BFLOAT16混合精度进行培训。 (注意:Slurm是用于Linux群集的资源管理软件,可以有效地分配和管理集群中的计算资源。Bfloat16混合精度是用于深度学习计算的特殊浮点格式,旨在提高计算效率和数值稳定性。)

通过广泛使用Pytorch并为隐藏尺寸进行优化,它们已经达到了108.75Tflop/s的单节点训练速度,实现了87%的可实现的氟替代化(可实现的floputilization)。

同时,研究人员使用数据并行训练,仅使用优化器碎片技术和梯度检查点技术优化了训练过程。其中:优化器碎片技术是一种降低记忆使用并提高培训效率的技术;梯度检查点技术是一种在深度神经网络训练期间减少视频记忆消耗的技术。

当每个GPU的批处理大小为1时,每个步骤的全局批处理大小最终达到1600万个令牌,从而最大程度地减少了GPU之间的通信带宽。

当研究人员在4096 GPU上进行大规模操作时,每个GPU的速度可以每秒52-64万亿Tflop/s,可以达到可实现的浮点利用率的41%-51%。这意味着每秒可以处理100万到120万个令牌。

编程功能击败了所有常见的开源模型

同时,研究人员为最终模型培训了800B令牌,为非环保基线模型培训了180B令牌,然后在其他完全公共数据集上训练了这些检查点,类似于类似规模的数据集。开源模型的比较。

此外,他们还通过LM-Eval开源工具库和通过BigCodeBench执行所有标准基准测试。 (注意:BigCodeBench是一个Python库,用于评估大型模型在代码理解和生成任务中的性能。)

但是,直接将该模型与其他大型模型进行比较并不容易,因为参与比较的其他大型模型是固定深度变压器模型的小型变体。

由于研究人员的模型仅具有3.5B参数,因此预训练期间所需的互连带宽相对较小,但是在预训练期间,它消耗的浮点操作的实际数量接近一个与变压器模型一起使用的,预训练期间的32B参数。此外,通过使用扩展方法,可以连续提高该模型的性能,直到使用标准的50B参数达到固定深度变压器模型的浮点操作预算水平为止。

实验结果表明,该模型比上一代Python系列模型更好,并且在大多数指标中大致等于Olmo的第一代模型Olmo7b。但是,与新一代的Olmo模型相比,该模型训练有更大的规模和更好的数据集,该模型的表现略有下度。

此外,研究人员还评估了该模型的数学和编程能力。在数学能力测试中,他们使用GSM8K数据集,遵循密涅瓦评估规则的数学数据集和MathQA数据集。在编程能力测试中,他们对两个基准进行了测试:MBPP和HumaneVal。结果表明,就数学能力而言,该模型远远超过了所有模型,除了最新版本的Olmo -2模型。在编程功能方面,该模型击败了所有其他一般的开源模型。但是,它没有超过STARCODER2,这是一种代码模型,该代码模型使用数万亿个代币进行特殊训练的代码。

结语:潜在的推理是有希望的,可以补充测试时间计算的缩放方法

考虑到培训过程的局限性,研究人员认为结果是有希望的。原因是这种推理能力不需要在培训期间使用专门的数据集,也不需要在推理过程中使用语言表达式。这使研究人员认为潜在的推理是一个潜在的研究方向,可以补充测试时间的缩放方法。

尽管该模型仍然只是概念验证的原型,但研究人员观察到,一些有趣的行为从环状训练中自然出现。此外,研究人员观察到上下文依赖性收敛速度,路径无关和各种零样本能力。

将来问鼎app官方下载,研究人员打算使用更优化的学习率计划,数据组合和加速器在培训过程中进行培训。

参考:

操作/类型:他钦隆

关键词:

客户评论

我要评论