马斯克突然开源 Grok ：史上最大3140亿参数模型，免费可商用，附最新下载地址！

近日，马斯克兑现了他的承诺，正式开源了旗下首个大型语言模型Grok-1。该模型拥有3140亿参数，是专家混合型模型，总大小为296GB，包含权重和网络架构，全部免费开源。这使得Grok-1成为迄今为止参数量最大的开源语言模型。由于Grok-1完全开源，因此可以用于各种应用开发，或者直接用于商业微调，都没有任何问题。

需要注意的是，Grok-1这样的大型模型并非一般人可以轻易运行的。官方提示由于模型规模巨大，运行Grok-1需要拥有足够的GPU和内存的机器。而所谓的”足够的GPU”并非一般的规格，以比特量化来看，最低要求就是8块H100显卡。也许有些人对H100显卡不太了解，我来给大家介绍一下价格吧：一张8GB显存的H100显卡，单价大约是4.4万美元，折合人民币约30多万元。然而，运行Grok-1模型至少需要8张H100显卡，你可以自行计算一下需要多少资金。

如果你是个人想体验一下这个模型，可以购买云端GPU的方式，目前Vultr有这样的服务，并且可以按需购买，按小时计费，这样就可以用最小的费用体验这个强大的Ai模型了。

所有的链接和信息我都放到下方了，按需查看。

1.Grok-1 开源模型下载：【磁力链接】，然后使用【Torrent 客户端】进行下载即可！

2.Grok 开源项目：【Github】

3.如果需要在云端安装Grok-1大模型，可以通过【租赁H100 云GPU】进行云端搭建

4.当然也可以直接调用HuggingFace 🤗 Hub：

git clone https://github.com/xai-org/grok-1.git && cd grok-1
pip install huggingface_hub[hf_transfer]
huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False

模型详情:

基于大量文本数据训练,未针对任何特定任务微调
3140亿参数MoE模型,激活权重25%
使用旋转嵌入而非固定位置嵌入
Tokenizer词汇大小131,072,嵌入大小6,144
64层Transformer,每层解码器层包含多头注意力块和密集块
多头注意力:48头查询,8头键/值,键值大小128
密集块:加宽因子8,隐藏层大小32768
每个token从8个专家选择2个
旋转位置嵌入大小6,144
上下文长度8192 tokens,精度bf16

模型能力:

在标准LM基准测试中表现超过同等计算量模型
HumanEval编码任务63.2%,MMLU 73%
在匈牙利高中数学考试中获C级(59%)
整体在推理和编码任务中表现出色

局限性:

缺少独立搜索网络能力,需结合搜索工具增强
可能产生幻觉,需人工审查
目前无法像X平台付费版实现实时获取信息

开源意义:

遵循Apache 2.0许可证,用户可自由使用修改分发
体现了xAI追求透明化和社区开放的理念
为进一步研究和创新提供了宝贵资源

总的来说,Grok-1作为一款大规模开源语言模型,在模型能力和透明度方面都具有重要意义,值得业内外人士关注和探索。当然,模型的实际应用还需要结合其他工具和人工审查,以发挥其最大潜能。

发送评论 编辑评论

发送评论编辑评论