(AI大观日报会为您推送每日的AI热点新闻,其中所有的概述及要点都由AI自动总结生成。若想查看详细内容,可点击标题进入原文)
谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
文章来源: 新智元
概述
谷歌DeepMind的新AI系统AlphaDev,利用强化学习发现了更快的排序和散列算法,打破了十年的瓶颈,颠覆了计算机科学的基础。
要点
- 🚀 AlphaDev是「Alpha」家族的新成员,基于AlphaZero的思想,将排序问题转化为一个「汇编游戏」,通过选择添加指令来生成算法。
- 🏆 AlphaDev发现的排序算法比人类的速度快70%,散列算法比传统算法快30%,并创造了新的指令序列,如「AlphaDev swap move」和「AlphaDev copy move」。
- 🌎 AlphaDev的新算法已经开源到LLVM libc++和Abseil库中,每天被全球开发者使用数万亿次,为整个计算生态系统带来优化和改进。
给语言大模型加上综合视听能力,达摩院开源Video-LLaMA
文章来源: 机器之心
概述
本文介绍了达摩院的研究人员提出的 Video-LLaMA,一个具有综合视听能力的大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。本文还展示了 Video-LLaMA 的一些实例,并指出了其存在的一些局限性。
要点
- 🎥 Video-LLaMA 采用了模块化设计原则,把视频中的视觉和音频模态信息映射到到大语言模型的输入空间中,以实现跨模态指令跟随的能力。
- 🚀 Video-LLaMA 利用大规模的视频 – 文本数据集和图像 – 文本数据集对视觉分支进行预训练,利用视觉 – 文本数据来训练音频 – 语言分支,从而达到视听综合感知能力。
- 🌟 Video-LLaMA 表现出了令人印象深刻的能力,能成功识别著名的地标和人物,并能进行常识性问答,也能捕捉视频中的动态事件。
- 🚧 Video-LLaMA 的视觉听觉能力仍然较为初级,对复杂的视觉声音信息依然难以辨认,也难以处理长视频,并且存在语言模型固有的幻觉问题。
Sam Altman谈OpenAI:面临GPU短缺恐慌,GPT-3或将开源
文章来源: 机器之心
概述
本文介绍了 OpenAI 的 CEO Sam Altman 在一次闭门会上分享的 OpenAI 的路线图和面临的挑战,主要涉及 GPU 短缺、GPT-4、API、监管和 AGI 等话题。
要点
- 🎮 GPU 短缺是 OpenAI 当前最大的问题,影响了 API 的可靠性、速度和扩展性。
- 🚀 GPT-4 是 OpenAI 的首要任务,将提供更便宜、更快、更长的上下文窗口和更好的微调技术。
- 🤖 API 将支持状态、多模态和社区模型,但不会提供 ChatGPT 插件。
- 🚫 OpenAI 不会发布除 ChatGPT 之外的产品,也不会与其客户竞争。
- 🔓 OpenAI 主张对未来的模型进行监管,但也考虑开源 GPT-3。
- 🌟 扩展定律仍然成立,增大模型的规模将继续提高性能,有利于实现 AGI。