GPT-4.5 Turbo提前泄露;Sora核心组件DiT训练提速10倍

chatGPT网址2024-03-13108

chatgpt 欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:

1.全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型

全球首位AI软件工程师Devin诞生了,它掌握全栈技能,云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是,它完全不怕996,老黄的预言是彻底成真了!

一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。

在SWE-bench上,它的表现远远超过Claude 2、Llama、GPT-4等选手,取得了13.86%的惊人成绩!
也就是说,它已经能通过AI公司的面试了。
就在前不久,英伟达CEO黄仁勋表示,自己相信就在不久的将来,人类再也不需要学习如何编码了,孩子们应该停止编程课。

2.GPT-4.5 Turbo提前泄露?Altman亲自暗示新模型要来,传言本周四上线

GPT-4.5 Turbo提前泄露了!预告信息显示,GPT-4.5 Turbo的上下文窗口比之前的版本翻了一倍,将高达256K,相当于约200,000个单词。而知识也更新到了2024年6月。新的GPT就要来了,它将夺回属于自己的一切!
预告信息还透露,GPT-4.5 Turbo的「知识更新截止日期」将会是2024年6月,也就是说新模型很可能原定于6月发布。
显然,从泄露的消息来看,这一时间已经被大大提前。

3.颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

来自Sea AI Lab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征学习策略通过学习语义表征信息来大幅加速Diffusion Transfomer的训练速度,并实现SoTA的图像生成效果。

论文地址:https://arxiv.org/abs/2303.14389

GitHub地址:https://github.com/sail-sg/MDT

近日,Masked Diffusion Transformer V2再次刷新SoTA, 相比DiT的训练速度提升10倍以上,并实现了ImageNet benchmark 上 1.58的FID score。

4.斩获7项奥斯卡大奖,Nature重磅发布《奥本海默》专题!诺兰断言:AI时代人类再次迎来「奥本海默时刻」

在《奥本海默》斩获了7项奥斯卡大奖之后,Nature采访了3位物理学家,作为《奥本海默》的科学顾问,他们向我们还原了诺兰的创作全貌。而诺兰本人认为,在AI时代,人类再次迎来了「奥本海默」时刻!

5.LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!

微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。

与传统的基于词表的语言模型不同,bGPT的独特之处在于其对原始二进制数据的直接处理能力,不受特定格式或任务的限制,其目标是全面模拟数字世界。

论文:https://arxiv.org/abs/2402.19155

代码:https://github.com/sanderwood/bgpt

模型:https://huggingface.co/sander-wood/bgpt

项目主页:https://byte-gpt.github.io

研究团队在其论文中展示了bGPT在建模上的巨大潜力,通过字节级处理,bGPT不仅能生成文本、图像和音频,还能模拟计算机行为——从格式转换算法到CPU状态的建模。将所有数据视为字节序列的做法,使bGPT能够将不同类型的数据纳入同一框架之下。

6.向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

北京智源人工智能研究院、新加坡南洋理工大学、北京大学携手提出通用计算机控制 General Computer Control (GCC),即智能体需要像人一样看屏幕,通过键盘、鼠标完成计算机上的所有任务。在过去很长一段时间里,人工智能研究以游戏为场景,而 GCC 将为通用人工智能研究提供场景,也将进一步促进大模型和 AI Agents 的落地与产业化。
为此,研究团队提出通用计算机控制智能体框架 Cradle,使智能体不依赖任何内部 API 直接控制键盘、鼠标和任何软件交互,无论开源还是闭源,甚至能玩《荒野大镖客 2》这样的商业 3A 游戏大作!
  • 论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
  • 论文链接:https://arxiv.org/abs/2403.03186
  • 项目主页:https://baai-agents.github.io/Cradle/
  • 代码链接:https://github.com/BAAI-Agents/Cradle

7.AI图片橡皮擦来了,清华&阿里合作推出「概念半透膜」模型,还能改头换面

清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型),该模型能够在 Diffusion 架构的 AI 作图模型中,精准、可控地擦除各类具象或抽象概念,并对无关概念做到几乎完全保留。

相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。

  • 项目主页:https://lyumengyao.github.io/projects/spm

  • Github 地址:https://github.com/Con6924/SPM

  • 论文地址:https://arxiv.org/abs/2312.16145

8.127k引用数的AI大牛创业:为机器人造大脑!OpenAI红杉排队塞钱

谷歌学术被引数超127000的大神宣布创业,获OpenAI等机构在内投资7000万美元!

他就是来自UC伯克利的副教授Sergey Levine,创业前任职于电气工程与计算机科学系,是深度强化学习领域超受欢迎的网红老师。

行动代号(公司名称):Pi(读π),即Physical Intelligence。

Pi成立于今年,背后是一支机器人和AI专家团队,在机器人、工程和许多其他领域拥有深厚经验。

他们的计划是“创建可以为各种机器人和机器增添高级智能的软件”,最终目标是创建一种作为通用机器人系统的AI。

9.仅需格式转换提升9%数学推理能力,上交开源新对齐方法ReAlign

大模型对齐新方法,让数学推理能力直接提升9%。

上海交通大学生成式人工智能实验室(GAIR Lab)新成果ReAlign,现已开源。

ReAlign能以较小的人工成本提升现有数据集的质量,进而提升模型整体对齐能力,包含数学推理能力、回答问题的事实性、回答的可读性。

论文地址:https://arxiv.org/pdf/2402.12219.pdf
项目地址:https://gair-nlp.github.io/ReAlign/
代码与数据地址:https://github.com/GAIR-NLP/ReAlign

10.用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

近日,清华大学的研究团队基于大语言模型的多智能体系统,提出一种创新性的心理测量范式

与传统自我报告问卷不同的是,该研究为每位参与者定制化生成一个可交互的叙事类型游戏,用户可自定义游戏的类型与主题

随着游戏剧情的发展,参与者需要以第一人称视角,选择不同的决策行为,决定剧情的走向。通过分析参与者在游戏关键情节中的选择,该研究可以测量其对应的心理特质。

论文链接:https://arxiv.org/abs/2402.12326

11.谷歌开源轻量级CPP Gemma推理引擎

谷歌工程师和科学家开发了一个新的代码库,名为CPP Gemma推理引擎。与llama.cpp类似,该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。

https://github.com/google/gemma.cpp

12.MMedLM-医学领域新突破,多语种医学语言模型

MMedLM 2是一种开创性的多语言语言模型,专为医学领域量身定制。它是在覆盖六种语言的新的255亿令牌语料库上训练的。在医学问答任务中,MMedLM 2的表现优于其他模型,包括GPT-4。

https://github.com/magic-ai4med/mmedlm

本文链接:https://gptwangzhi.top/chatgpt/465.html

chatgpt4.0啥时候发布ChatGPT 科研文献阅读助手ChatGPT是什么

相关文章

网友评论