新加坡国立大学在读博士薛复昭：大型语言模型的 Token 危机-新辰未来留学网

摘要

　　「AI新青年讲座」由智东西公开课出品，致力于邀请青年学者，主讲他们在生成式AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

　　AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

　　7月起，AI新青年讲座开辟推出「大型语言模型专场」。阿卜杜拉国王科技大学在读博士朱德尧、新加坡国立大学在读博士薛复昭、美国威斯康星大学麦迪逊分校在读博士柳昊天和加州大学伯克利分校人工智能实验室（BAIR）在读博士张天均将参与此次专场。

　　四位AI新青年将分别针对MiniGPT-4、LLaMA、Gorilla，以及大型语言模型所面临的Token危机进行直播讲解。

　　在大型语言模型（LLMs）的研究中，近期的研究强调了数据集大小在扩展语言模型能力中的重要性。然而，在预训练期间，LLMs对标记的需求量十分巨大，并且网络上的高质量文本数据已接近LLMs的扩展限制。为进一步增强LLMs的能力，一个简单的方法是将预训练数据重复使用多个epoch。

　　新加坡国立大学的研究人员从实证角度探讨了这一方法的三个关键方面。首先，他们研究了多次重复预训练数据可能带来的后果，发现模型容易过拟合，从而导致多epoch的性能下降。其次，他们也分析了导致多epoch性能下降的关键因素，发现显著的因素包括数据集大小、模型参数和训练目标，而数据集质量和模型FLOPs的影响较小。

　　最后，他们探讨了广泛使用的正则化方法是否能够缓解多次epoch下降。实验证明，大多数正则化技术并没有显著改进性能，唯有dropout表现出了卓越的效果，但在扩大模型规模时需要进行谨慎调整。此外，他们还发现利用混合专家（MoE）能够实现对具有相近可训练参数的计算密集型密集型LLMs进行具有成本效益和高效的超参数调整，这对更广泛范围上的高效LLM开发可能产生重要影响。

　　7月18日晚7点，新加坡国立大学在读博士薛复昭，将围绕主题《大型语言模型的Token危机》向大家分享他们针对此问题的研究。

　　薛复昭首先将介绍重复使用预训练数据进行额外迭代影响是什么？进而分析预训练大模型的性能下降原因，之后将讲解降低多epochs影响的方法：正则化（Dropout），以及基于混合专家（MoE）的超参数调整等。最后，他也将对LLM高效开发的未来进行探讨。

　　第二讲

　　主题

　　《大型语言模型的Token危机》

　　提纲

　　1、大型语言模型训练中epoch次数设置问题

　　2、预训练大模型的性能下降原因分析

　　3、Dropout及基于专家混合MoE的最佳超参数调整

　　4、对LLM高效开发的未来探讨

　　主讲人

　　薛复昭，新加坡国立大学在读博士；师从新加坡国立大学（NUS）尤洋教授；硕士（研究型）毕业于南洋理工大学（NTU），师从ChngEng-Siong和孙爱心教授；目前主要研究方向为LargeLanguageModelPre-training、TransformerScaling和ConditionalComputation；有幸与各个科技巨头的杰出科学家合作，曾在GoogleBrain担任学生研究员，受到YiTay和MostafaDehghani的指导；目前在英伟达AI研究院实习，导师为JimFan和YukeZhu。