AI大观日报 | 23.06.08

 

(AI大观日报会为您推送每日的AI热点新闻,其中所有的概述及要点都由AI自动总结生成。若想查看详细内容,可点击标题进入原文)

谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!

文章来源:  新智元

概述

谷歌DeepMind的新AI系统AlphaDev,利用强化学习发现了更快的排序和散列算法,打破了十年的瓶颈,颠覆了计算机科学的基础。

要点

  • 🚀 AlphaDev是「Alpha」家族的新成员,基于AlphaZero的思想,将排序问题转化为一个「汇编游戏」,通过选择添加指令来生成算法。
  • 🏆 AlphaDev发现的排序算法比人类的速度快70%,散列算法比传统算法快30%,并创造了新的指令序列,如「AlphaDev swap move」和「AlphaDev copy move」。
  • 🌎 AlphaDev的新算法已经开源到LLVM libc++和Abseil库中,每天被全球开发者使用数万亿次,为整个计算生态系统带来优化和改进。

给语言大模型加上综合视听能力,达摩院开源Video-LLaMA

文章来源:  机器之心

概述

本文介绍了达摩院的研究人员提出的 Video-LLaMA,一个具有综合视听能力的大模型。Video-LLaMA 能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音 / 视频描述,写作,问答等。本文还展示了 Video-LLaMA 的一些实例,并指出了其存在的一些局限性。

要点

  • 🎥 Video-LLaMA 采用了模块化设计原则,把视频中的视觉和音频模态信息映射到到大语言模型的输入空间中,以实现跨模态指令跟随的能力。
  • 🚀 Video-LLaMA 利用大规模的视频 – 文本数据集和图像 – 文本数据集对视觉分支进行预训练,利用视觉 – 文本数据来训练音频 – 语言分支,从而达到视听综合感知能力
  • 🌟 Video-LLaMA 表现出了令人印象深刻的能力,能成功识别著名的地标和人物,并能进行常识性问答,也能捕捉视频中的动态事件。
  • 🚧 Video-LLaMA 的视觉听觉能力仍然较为初级,对复杂的视觉声音信息依然难以辨认,也难以处理长视频,并且存在语言模型固有的幻觉问题。

Sam Altman谈OpenAI:面临GPU短缺恐慌,GPT-3或将开源

文章来源:  机器之心

概述

本文介绍了 OpenAI 的 CEO Sam Altman 在一次闭门会上分享的 OpenAI 的路线图和面临的挑战,主要涉及 GPU 短缺、GPT-4、API、监管和 AGI 等话题。

要点

  • 🎮 GPU 短缺是 OpenAI 当前最大的问题,影响了 API 的可靠性、速度和扩展性。
  • 🚀 GPT-4 是 OpenAI 的首要任务,将提供更便宜、更快、更长的上下文窗口和更好的微调技术
  • 🤖 API 将支持状态、多模态和社区模型,但不会提供 ChatGPT 插件。
  • 🚫 OpenAI 不会发布除 ChatGPT 之外的产品,也不会与其客户竞争。
  • 🔓 OpenAI 主张对未来的模型进行监管,但也考虑开源 GPT-3
  • 🌟 扩展定律仍然成立,增大模型的规模将继续提高性能,有利于实现 AGI。

给TA打赏
共{{data.count}}人
人已打赏
AI资讯

AI大观日报 | 23.06.07

2023-6-7 17:11:00

AI资讯

AI大观日报 | 23.06.09

2023-6-9 17:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索