AI大观日报 | 23.07.11

 

今日热点:
1.王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署
2.GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元

王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署

文章来源:量子位

概述

百川智能发布了130亿参数的中英文通用大语言模型Baichuan-13B-Base,以及一个对话模型Baichuan-13B-Chat。这些模型都是完全开源、免费可商用的,而且在多个领域和任务上超越了其他同尺寸的开源模型。百川智能的目标是推动大模型的开放和创新。

要点

  • 🚀 百川智能是王小川创办的一家AIGC初创公司,专注于开源大模型的研发和应用。
  • 🌐 Baichuan-13B-Base是一个中英双语大模型,拥有130亿参数,在1.4万亿token数据集上训练,采用了ALiBi位置编码技术,能够处理长上下文窗口。
  • 🗣️ Baichuan-13B-Chat是一个对话模型,基于Baichuan-13B-Base训练,能够生成流畅、有趣、有逻辑的对话,还有INT4/INT8两个量化版本,可以部署在消费级显卡上。
  • 🏆 Baichuan-13B在中英文领域的测评成绩都很优秀,在C-EVAl、LAMBADA等benchmark上领先LLaMA-13B、Vicuna-13B等同尺寸的开源模型。
  • 🎁 百川智能将Baichuan-13B完全开源、免费可商用,为了降低使用门槛,还提供了HuggingFace、GitHub和Model Scope等平台的链接,欢迎开发者申请授权和使用。

GPT-4内幕大泄露!1.8万亿巨量参数,13万亿token训练,斥资6300万美元

文字来源:新智元

概述

这篇文章揭示了OpenAI的GPT-4的详细信息,包括其架构、训练和推理的基础设施、参数量、训练数据集、token数、成本等。文章作者是SemiAnalysis的两位撰稿人Dylan Patel和Gerald Wong,他们的信息来源被认为具有较高的可信度。文章还讨论了OpenAI的策略和权衡,以及GPT-4的训练和推理成本。

要点

  • 🧠 GPT-4的架构包括1.8万亿参数,这是GPT-3的10倍以上。
  • 📚 OpenAI使用了13万亿的token来训练GPT-4,这个数据集包含了多个epoch。
  • 💰 OpenAI训练GPT-4的成本大约是6300万美元,这还不包括所有的实验、失败的训练和其他成本,如数据收集、人力成本等。
  • 🔍 GPT-4使用了混合专家模型(Mixture of Experts,MoE),这是一种在推理过程中减少参数量的方法,但同时会增加参数量。
  • ⚖️ OpenAI在训练GPT-4时做出了许多权衡,例如在推理过程中处理MoE非常困难,因为模型的每个部分并不在每个token生成时都被使用,这可能会降低利用率。

(AI大观日报会为您推送每日的AI热点新闻,其中所有的概述及要点都由AI自动总结生成。若想查看详细内容,可点击标题进入原文)

给TA打赏
共{{data.count}}人
人已打赏
AI资讯

AI大观日报 | 23.07.10

2023-7-10 17:19:27

AI资讯

AI大观日报 | 23.07.12

2023-7-12 16:40:45

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索