如何有效微调 LLM 进行分类的新教程 + 实验。 本视频解释如何将解码器式 LLM 转换为分类器。许多业务问题都是文本分类问题,如果分类是给定任务所需的全部内容,那么使用“较小”且更便宜的 LLM 就非常有意义了!(但当然,也请始终运行简单的逻辑回归或朴素贝叶斯基线来确定您是否需要小型 LLM。) 🧪此外,我还进行了一系列 19 项实验,以回答有关微调预训练 LLM 进行分类的一些“假设”问题。在这里,我把事情做得简单而小巧(例如,在玩具二元分类任务上使用 GPT-2): 以下是一些有趣内容的快照摘要: 1)正如预期的那样,对最后一个 token 进行训练比对第一个 token 产生更好的效果 2)训练最后一个 Transformer 块比仅仅训练最后一层效果好得多 3)LoRA 的性能与完全微调相当甚至更好,同时速度更快、内存效率更高 4)填充到完整上下文长度会影响性能 5)无填充或智能位置选择可实现更高的准确率 6)令人惊讶的是,使用随机权重进行训练并不比使用预训练的 7)对所有 token 进行平均嵌入可以稍微提高性能,而且成本不高 完整视频可在此处观看: youtube.com/watch?v=5PFXJY… PS:如果您想知道为什么是 GPT 而不是 BERT?当然,您也可以使用 BERT。根据对 50k Movie Review 数据集的实验,有趣的是,这个小 3 倍的 LLM 性能与 BERT 相当(实际上略好)。(ModernBERT 再次好 2%。) 程序员 人工智能 编程严选网 LLM
如何有效微调LLM进行分类的新教程+实验。 本视频解释如何将解码器式L
JavaEdge聊AIss
2025-04-06 18:19:24
0
阅读:0