【[63星]LLM360 MegaMath:一个拥有370B Tokens的开源数学预训练数据集,为数学相关的人工智能模型提供强大的数据支持。亮点:1. 数据量庞大,包含3700亿个标记;2. 数据来源多样,涵盖网页数据、代码数据和合成数据;3. 提供多种数据变体,满足不同训练需求】
'MegaMath: An Open Math Pre-trainng Dataset with 370B Tokens.'
GitHub: github.com/LLM360/MegaMath
数学数据集 预训练模型 开源资源 AI创造营