AI大观日报 | 23.06.08

（AI大观日报会为您推送每日的AI热点新闻，其中所有的概述及要点都由AI自动总结生成。若想查看详细内容，可点击标题进入原文）

谷歌DeepMind打破十年算法封印，AlphaDev惊世登场，颠覆人类算法格局！

文章来源：新智元

概述

谷歌DeepMind的新AI系统AlphaDev，利用强化学习发现了更快的排序和散列算法，打破了十年的瓶颈，颠覆了计算机科学的基础。

要点

🚀 AlphaDev是「Alpha」家族的新成员，基于AlphaZero的思想，将排序问题转化为一个「汇编游戏」，通过选择添加指令来生成算法。
🏆 AlphaDev发现的排序算法比人类的速度快70%，散列算法比传统算法快30%，并创造了新的指令序列，如「AlphaDev swap move」和「AlphaDev copy move」。
🌎 AlphaDev的新算法已经开源到LLVM libc++和Abseil库中，每天被全球开发者使用数万亿次，为整个计算生态系统带来优化和改进。

给语言大模型加上综合视听能力，达摩院开源Video-LLaMA

文章来源：机器之心

概述

本文介绍了达摩院的研究人员提出的 Video-LLaMA，一个具有综合视听能力的大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号，并能理解用户输入的指令，完成一系列基于音视频的复杂任务，例如音 / 视频描述，写作，问答等。本文还展示了 Video-LLaMA 的一些实例，并指出了其存在的一些局限性。

要点

🎥 Video-LLaMA 采用了模块化设计原则，把视频中的视觉和音频模态信息映射到到大语言模型的输入空间中，以实现跨模态指令跟随的能力。
🚀 Video-LLaMA 利用大规模的视频 – 文本数据集和图像 – 文本数据集对视觉分支进行预训练，利用视觉 – 文本数据来训练音频 – 语言分支，从而达到视听综合感知能力。
🌟 Video-LLaMA 表现出了令人印象深刻的能力，能成功识别著名的地标和人物，并能进行常识性问答，也能捕捉视频中的动态事件。
🚧 Video-LLaMA 的视觉听觉能力仍然较为初级，对复杂的视觉声音信息依然难以辨认，也难以处理长视频，并且存在语言模型固有的幻觉问题。

Sam Altman谈OpenAI：面临GPU短缺恐慌，GPT-3或将开源

文章来源：机器之心

概述

本文介绍了 OpenAI 的 CEO Sam Altman 在一次闭门会上分享的 OpenAI 的路线图和面临的挑战，主要涉及 GPU 短缺、GPT-4、API、监管和 AGI 等话题。

要点

🎮 GPU 短缺是 OpenAI 当前最大的问题，影响了 API 的可靠性、速度和扩展性。
🚀 GPT-4 是 OpenAI 的首要任务，将提供更便宜、更快、更长的上下文窗口和更好的微调技术。
🤖 API 将支持状态、多模态和社区模型，但不会提供 ChatGPT 插件。
🚫 OpenAI 不会发布除 ChatGPT 之外的产品，也不会与其客户竞争。
🔓 OpenAI 主张对未来的模型进行监管，但也考虑开源 GPT-3。
🌟 扩展定律仍然成立，增大模型的规模将继续提高性能，有利于实现 AGI。

{{userData.name}}已认证

AI大观日报 | 23.06.08

谷歌DeepMind打破十年算法封印，AlphaDev惊世登场，颠覆人类算法格局！

概述

要点

给语言大模型加上综合视听能力，达摩院开源Video-LLaMA

概述

要点

Sam Altman谈OpenAI：面临GPU短缺恐慌，GPT-3或将开源

概述

要点

AI大观日报 | 23.06.07

AI大观日报 | 23.06.09