欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
1.全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型
全球首位AI软件工程师Devin诞生了,它掌握全栈技能,云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是,它完全不怕996,老黄的预言是彻底成真了!
一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。
2.GPT-4.5 Turbo提前泄露?Altman亲自暗示新模型要来,传言本周四上线
GPT-4.5 Turbo提前泄露了!预告信息显示,GPT-4.5 Turbo的上下文窗口比之前的版本翻了一倍,将高达256K,相当于约200,000个单词。而知识也更新到了2024年6月。新的GPT就要来了,它将夺回属于自己的一切!
3.颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
来自Sea AI Lab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征学习策略通过学习语义表征信息来大幅加速Diffusion Transfomer的训练速度,并实现SoTA的图像生成效果。
论文地址:https://arxiv.org/abs/2303.14389
GitHub地址:https://github.com/sail-sg/MDT
近日,Masked Diffusion Transformer V2再次刷新SoTA, 相比DiT的训练速度提升10倍以上,并实现了ImageNet benchmark 上 1.58的FID score。
4.斩获7项奥斯卡大奖,Nature重磅发布《奥本海默》专题!诺兰断言:AI时代人类再次迎来「奥本海默时刻」
在《奥本海默》斩获了7项奥斯卡大奖之后,Nature采访了3位物理学家,作为《奥本海默》的科学顾问,他们向我们还原了诺兰的创作全貌。而诺兰本人认为,在AI时代,人类再次迎来了「奥本海默」时刻!
5.LLM将成历史?开源bGPT或颠覆深度学习范式:直接模拟二进制,开启模拟数字世界新纪元!
微软亚洲研究院推出的最新成果bGPT,这种基于字节的Transformer模型,为我们探索数字世界开辟了新的大门。
与传统的基于词表的语言模型不同,bGPT的独特之处在于其对原始二进制数据的直接处理能力,不受特定格式或任务的限制,其目标是全面模拟数字世界。
论文:https://arxiv.org/abs/2402.19155
代码:https://github.com/sanderwood/bgpt
模型:https://huggingface.co/sander-wood/bgpt
项目主页:https://byte-gpt.github.io
研究团队在其论文中展示了bGPT在建模上的巨大潜力,通过字节级处理,bGPT不仅能生成文本、图像和音频,还能模拟计算机行为——从格式转换算法到CPU状态的建模。将所有数据视为字节序列的做法,使bGPT能够将不同类型的数据纳入同一框架之下。
6.向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了
论文标题:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study 论文链接:https://arxiv.org/abs/2403.03186 项目主页:https://baai-agents.github.io/Cradle/ 代码链接:https://github.com/BAAI-Agents/Cradle
7.AI图片橡皮擦来了,清华&阿里合作推出「概念半透膜」模型,还能改头换面
清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型(concept Semi-Permeable Membrane,SPM 模型),该模型能够在 Diffusion 架构的 AI 作图模型中,精准、可控地擦除各类具象或抽象概念,并对无关概念做到几乎完全保留。
相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。
项目主页:https://lyumengyao.github.io/projects/spm
Github 地址:https://github.com/Con6924/SPM
论文地址:https://arxiv.org/abs/2312.16145
8.127k引用数的AI大牛创业:为机器人造大脑!OpenAI红杉排队塞钱
谷歌学术被引数超127000的大神宣布创业,获OpenAI等机构在内投资7000万美元!
他就是来自UC伯克利的副教授Sergey Levine,创业前任职于电气工程与计算机科学系,是深度强化学习领域超受欢迎的网红老师。
行动代号(公司名称):Pi(读π),即Physical Intelligence。
Pi成立于今年,背后是一支机器人和AI专家团队,在机器人、工程和许多其他领域拥有深厚经验。
他们的计划是“创建可以为各种机器人和机器增添高级智能的软件”,最终目标是创建一种作为通用机器人系统的AI。
9.仅需格式转换提升9%数学推理能力,上交开源新对齐方法ReAlign
大模型对齐新方法,让数学推理能力直接提升9%。
上海交通大学生成式人工智能实验室(GAIR Lab)新成果ReAlign,现已开源。
ReAlign能以较小的人工成本提升现有数据集的质量,进而提升模型整体对齐能力,包含数学推理能力、回答问题的事实性、回答的可读性。
论文地址:https://arxiv.org/pdf/2402.12219.pdf
项目地址:https://gair-nlp.github.io/ReAlign/
代码与数据地址:https://github.com/GAIR-NLP/ReAlign
10.用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品
近日,清华大学的研究团队基于大语言模型的多智能体系统,提出一种创新性的心理测量范式。
与传统自我报告问卷不同的是,该研究为每位参与者定制化生成一个可交互的叙事类型游戏,用户可自定义游戏的类型与主题。
随着游戏剧情的发展,参与者需要以第一人称视角,选择不同的决策行为,决定剧情的走向。通过分析参与者在游戏关键情节中的选择,该研究可以测量其对应的心理特质。
论文链接:https://arxiv.org/abs/2402.12326
11.谷歌开源轻量级CPP Gemma推理引擎
谷歌工程师和科学家开发了一个新的代码库,名为CPP Gemma推理引擎。与llama.cpp类似,该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。
https://github.com/google/gemma.cpp
12.MMedLM-医学领域新突破,多语种医学语言模型
MMedLM 2是一种开创性的多语言语言模型,专为医学领域量身定制。它是在覆盖六种语言的新的255亿令牌语料库上训练的。在医学问答任务中,MMedLM 2的表现优于其他模型,包括GPT-4。
https://github.com/magic-ai4med/mmedlm
网友评论