AI大观日报 | 23.07.11

今日热点：
1.王小川大模型25天再升级！13B版本开源免费可商用，3090即可部署
2.GPT-4内幕大泄露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

王小川大模型25天再升级！13B版本开源免费可商用，3090即可部署

文章来源：量子位

概述

百川智能发布了130亿参数的中英文通用大语言模型Baichuan-13B-Base，以及一个对话模型Baichuan-13B-Chat。这些模型都是完全开源、免费可商用的，而且在多个领域和任务上超越了其他同尺寸的开源模型。百川智能的目标是推动大模型的开放和创新。

要点

🚀 百川智能是王小川创办的一家AIGC初创公司，专注于开源大模型的研发和应用。
🌐 Baichuan-13B-Base是一个中英双语大模型，拥有130亿参数，在1.4万亿token数据集上训练，采用了ALiBi位置编码技术，能够处理长上下文窗口。
🗣️ Baichuan-13B-Chat是一个对话模型，基于Baichuan-13B-Base训练，能够生成流畅、有趣、有逻辑的对话，还有INT4/INT8两个量化版本，可以部署在消费级显卡上。
🏆 Baichuan-13B在中英文领域的测评成绩都很优秀，在C-EVAl、LAMBADA等benchmark上领先LLaMA-13B、Vicuna-13B等同尺寸的开源模型。
🎁 百川智能将Baichuan-13B完全开源、免费可商用，为了降低使用门槛，还提供了HuggingFace、GitHub和Model Scope等平台的链接，欢迎开发者申请授权和使用。

GPT-4内幕大泄露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

文字来源：新智元

概述

这篇文章揭示了OpenAI的GPT-4的详细信息，包括其架构、训练和推理的基础设施、参数量、训练数据集、token数、成本等。文章作者是SemiAnalysis的两位撰稿人Dylan Patel和Gerald Wong，他们的信息来源被认为具有较高的可信度。文章还讨论了OpenAI的策略和权衡，以及GPT-4的训练和推理成本。

要点

🧠 GPT-4的架构包括1.8万亿参数，这是GPT-3的10倍以上。
📚 OpenAI使用了13万亿的token来训练GPT-4，这个数据集包含了多个epoch。
💰 OpenAI训练GPT-4的成本大约是6300万美元，这还不包括所有的实验、失败的训练和其他成本，如数据收集、人力成本等。
🔍 GPT-4使用了混合专家模型（Mixture of Experts，MoE），这是一种在推理过程中减少参数量的方法，但同时会增加参数量。
⚖️ OpenAI在训练GPT-4时做出了许多权衡，例如在推理过程中处理MoE非常困难，因为模型的每个部分并不在每个token生成时都被使用，这可能会降低利用率。

（AI大观日报会为您推送每日的AI热点新闻，其中所有的概述及要点都由AI自动总结生成。若想查看详细内容，可点击标题进入原文）

{{userData.name}}已认证

AI大观日报 | 23.07.11

王小川大模型25天再升级！13B版本开源免费可商用，3090即可部署

概述

要点

GPT-4内幕大泄露！1.8万亿巨量参数，13万亿token训练，斥资6300万美元

概述

要点

AI大观日报 | 23.07.10

AI大观日报 | 23.07.12