-
每日AIGC最新进展(57):小红书提出视频理解模型VideoLLM-MoD、香港大学提出脉冲神经扩散模型、香港大学提出使用反球面插值改进基于扩散模型的数据增强方法
Diffusion Models专栏文章汇总:入门与实战 VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation 随着...
-
ChatGPT智能写作助手指导下的论文创作
ChatGPT无限次数:点击直达 ChatGPT智能写作助手指导下的论文创作 在当今信息爆炸的时代,人们需要处理大量文本和信息。为了提高工作效率,许多学者和专业人士转向人工智能工具,如ChatGPT,来协助他们进行文本生成和创作。本文将介绍Chat...
-
OpenAI神秘模型「草莓」两周内上线?数学推理暴涨,月收费200刀已有人付费
就在刚刚,The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月,最大的特色就是比其他模型多思考10到20秒。然而因为「狼来了」太多回,网友们忍不住吐槽:OpenAI现在就是个炒作公司。 最新消息,「草莓」将在两周内发...
-
“AIGC在用户研究中的应用”分析
#AIGC用户研究# AIGC在用户研究中的应用 AIGC(生成式人工智能)在用户研究中的应用主要体现在通过大数据和机器学习技术,根据用户的偏好、历史行为和实时反馈生成个性化和定制化的内容,以提高用户体验和粘性。AIGC技术能够在自然语言对话、写作、...
-
AI诈骗:如何在享受AIGC带来的便利同时确保安全?
随着人工智能技术的迅猛发展,尤其是在生成式内容(AIGC)方面的突破,我们已经见证了这项技术在多个领域中的广泛应用,包括但不限于聊天机器人、自动化写作、艺术创作以及软件开发辅助等。然而,正如任何双刃剑一样,在带来便捷与效率提升的同时,AI也引发了新的安全隐...
-
开源大模型再迎“历史性时刻”,Meta发布Llama 3.1
7月23日晚,Meta正式推出了最新的开源大模型系列Llama 3.1,进一步缩小了开源模型与闭源模型之间的差距。Llama 3.1系列包括8B、70B和405B三个参数规模,其中Llama 3.1-405B参数的模型在多个基准测试中超越了OpenAI的G...
-
DALL-E-3使用指南
OpenAI发布的DALL-E 3无疑是这一领域的佼佼者。本文将深入分析DALL-E 3的技术特点、应用场景及其对未来图像创作的影响。 一、DALL-E-3的技术特点 DALL-E 3是OpenAI在图像生成领域的最新成果,它基于深度学习技...
-
微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!
随着ChatGPT、Copliot等生成式AI产品的快速迭代,对训练数据的需求呈指数级增长,同时也是提升大模型性能的关键环节之一。 为了解决训练数据短缺和质量差的难题,微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Ins...
-
Llama 3.1 92页技术报告详细解读
引言 半个月前,Meta发布了他们的开源大模型Llama3.1,在社区中引起广泛关注和讨论。现在几周的时间过去了,热度逐渐退潮,舆论逐渐降温,整个Llama3家族的技术报告也公开出来。报告数据更新到了Llama 3.1,正是理性地来审视一下这款大模型...
-
深度剖析Google黑科技RB-Modulation:告别繁琐训练,拥抱无限创意生成和风格迁移!
给定单个参考图像,RB-Modulation提供了一个无需训练的即插即用解决方案,用于(a 风格化和(b 具有各种提示的内容样式组合,同时保持样本多样性和提示对齐。例如,给定参考样式图像(例如“熔化的黄金3d渲染样式” 和内容图像(例如(a “狗” ,RB...
-
Llama中的曼巴:通过推测解码加速推理
大型语言模型(LLMs)已经彻底改变了自然语言处理领域,但在处理非常长的序列时面临重大挑战。主要问题来自于Transformer架构的计算复杂度随序列长度呈二次方增长以及其巨大的键值(KV)缓存需求。这些限制严重影响了模型的效率,特别是在推理过程中,使生成...
-
专用于理解游戏场景的开源大模型-VideoGameBunny
大模型在游戏开发领域扮演了重要角色,从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。 为了解决这些难题,加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny(以下简称“VGB”)。 V...
-
WhisperX:革命性的自动语音识别工具
WhisperX:革命性的自动语音识别工具 whisperXm-bain/whisperX: 是一个用于实现语音识别和语音合成的 JavaScript 库。适合在需要进行语音识别和语音合成的网页中使用。特点是提供了一种简单、易用的 API,支持多种语音...
-
探索LLaMA Factory:一站式大模型微调平台
探索LLaMA Factory:一站式大模型微调平台 LLaMA-Factory易于使用的LLM微调框架(LLaMA, BLOOM, Mistral, 百川, Qwen, ChatGLM)。项目地址:https://gitcode.com/gh_mir...
-
Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵测试?
Claude又通过「图灵测试」了?一位工程师通过多轮测试发现,Claude能够认出自画像,让网友惊掉下巴。 最近,Anthropic提示工程师「Zack Witten」惊奇地发现,Claude居然能认出自己的自画像? 是的,它能认出自己,但这并不是故事的全...
-
使用 ORPO 微调 Llama 3
原文地址:https://towardsdatascience.com/fine-tune-llama-3-with-orpo-56cfab2f9ada 更便宜、更快的统一微调技术 2024 年 4 月 19 日 ORPO 是一种新的令人兴奋的微调技...
-
OpenAI大逃亡,AGI安全团队半数出走!奥特曼:攘外必先安内
尽管不断招兵买马,依旧挡不住OpenAI的安全团队「集体出走」。半数员工已离职、公司处在风口浪尖,奥特曼却在此时选择对内部员工展开安全监控。 今年5月发布会后,安全团队负责人Ilya Sutskever和Jan Leike曾前后脚在推特上官宣离职。 加入...
-
一周打完1000场官司,中科院发布首个AI法庭AgentCourt
在人工智能重塑各个行业的今天,法律界也迎来了前所未有的变革。传统的法律实践面临着效率低下、成本高昂等挑战,而AI技术的出现为解决这些问题提供了新的可能。 从最初斯坦福小镇火遍全网,25个由大语言模型(LLMs)驱动的智能体生活交友,打开了多Agent新视角...
-
让AI更懂物理世界,人大北邮上海AI Lab等提出多模态分割新方法
让AI像人类一样借助多模态线索定位感兴趣的物体,有新招了! 来自人大高瓴GeWu-Lab、北邮、上海AI Lab等机构的研究人员提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,视听场景下...
-
GameNGen有哪些功能?谷歌游戏引擎AI模型怎么使用方法详细教程指南
GameNGen 是什么? GameNGen 是一个由神经模型驱动的前沿游戏引擎,专注于实现与复杂环境的实时互动,并在长时间的模拟中保持高质量图像。它能够以每秒超过 20 帧的速度高效模拟经典游戏《DOOM》,并且其下一帧预测的峰值信噪比(PSNR)达到...
-
NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4
在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下文处理能力是指模型能够处理的输入和输出 Tokens 的总数。这个长度有一个限制,超过这个限制的内容会被模型忽略。一般而...
-
GPT-5降临,代号猎户座?OpenAI疑用草莓训练,数学推理暴涨超越所有模型
OpenAI的下一代旗舰大语言模型,要来了? 据悉,新模型代号Orion(猎户座),就是能超越GPT-4的下一代模型。 而猎户座的预训练数据,正是由草莓模型生成的。 而草莓模型驱动的聊天机器人,很可能就会在今年秋天上线! 关于OpenAI的草莓,外媒The...
-
突发!OpenAI展示草莓,很快发布“GPT-5”猎户座!
OpenAI不藏了,终于展示江湖流传已久的秘密项目“草莓”(Strawberry)和猎户座(Orion 。 根据Theinformation消息,OpenAI已经向美国国家安全官员展示了草莓这个秘密项目,保证会在安全、合理的范围内来开发和使用。同时Open...
-
大厂围堵AI创业曝「死亡名单」,前谷歌大佬出走几乎无一幸免!
前谷歌员工出走创立的AI初创公司,一个个都被大科技公司收购了!硅谷吹的这是什么邪风?外媒总结了一波谷歌AI研究人员创业难的原因,更是「扎心」地给出了一个预言名单,一一点名了眼瞅着就要被大公司收购的企业。 万众瞩目的AI初创明星公司,才四个月就风光不再了...
-
中国开源大模型、论文、专利的数量,领先美国
8月26日,美国著名非营利科技智库ITIF在官网发布了,一份名为《中国在AI领域的创新程度如何?》的深度调查报告。 其实这份报告更像是一份成绩单,主要揭示了中国在大模型、生成式AI领域的发展现状,包括开源模型的能力、论文/专利数量、科研机构、顶级AI公司、...
-
【从Qwen2,Apple Intelligence Foundation,Gemma 2,Llama 3.1看大模型的性能提升之路】
从早期的 GPT 模型到如今复杂的开放式 LLM,大型语言模型 (LLM 的发展已经取得了长足的进步。最初,LLM 训练过程仅侧重于预训练,但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和校准,这是由 ChatGPT 推广的。 自 Chat...
-
AI搜索是否能引领信息检索的创新与变革
引言 2024年,人工智能(AI)时代正以前所未有的速度发展。例如,OpenAI推出的Sora模型能够根据文本描述生成视频,震惊了业界;卡内基梅隆大学研究人员发布的基准测试大大提升了大模型在Web上的性能。这些技术创新和突破展示了AI在...
-
WhisperS2T:加速语音转文本的高效解决方案
WhisperS2T:加速语音转文本的高效解决方案 WhisperS2TAn Optimized Speech-to-Text Pipeline for the Whisper Model Supporting Multiple Inference E...
-
非Transformer时代到来!全新无注意力模式超越Llama传奇
来源 | 机器之心 ID | almosthuman2014 Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。 此后,采用 Mamba 架构的模型...
-
【三维重建】Pixel-GS:三维高斯泼溅的像素感知的梯度密度控制(去除浮点,提升精度)
项目:https://pixelgs.github.io/标题:Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting来源:香港大学;腾讯AI Lab...
-
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
文章链接: https://arxiv.org/pdf/2407.18290 亮点直击 概述了视觉生成领域中的各种问题。 这些问题的核心在于如何分解视觉信号,其他所有问题都与这一核心问题密切相关,并源于不适当的信号分解方法。 本文旨...
-
探索音乐的智慧:MU-LLaMA 模型引领文本到音乐生成新纪元
探索音乐的智慧:MU-LLaMA 模型引领文本到音乐生成新纪元 MU-LLaMAMU-LLaMA: Music Understanding Large Language Model项目地址:https://gitcode.com/gh_mirrors/...
-
即刻体验 Llama3.1就在Amazon Bedrock!
引言 在人工智能的浪潮中,大型语言模型(LLMs)不断推动着技术边界的扩展。Meta 最新推出的 Llama 3.1 模型系列,以其卓越的性能和广泛的应用前景,引起了业界的广泛关注。现在,激动人心的消息来了——Llama3.1 已经在 Amazon Be...
-
AI设计自己,代码造物主已来!UBC华人一作首提ADAS,数学能力暴涨25.9%
【新智元导读】AI掌握自我设计的权力,将会怎样?最近,来自UBC等机构研究人员提出了「智能体自动化设计」系统,让元智能体使用搜索算法,自动构建强大的同类。 AI训AI已经老生常谈了,那么,AI能够设计出更强的AI吗? 这不,来自UBC等机构的研究人员提出了...
-
AI爆料人遭全网封禁!OpenAI等25个机构祭大招,一眼辨别AI机器人
【新智元导读】AI智能体遍布整个网络,未来如何防止被骗?如何保护隐私?OpenAI微软MIT等25个机构联手提出「人格凭证」,可以证明自己是真人,还不用披露任何个人信息。 最近半个月,全网竟被一个OpenAI的「AI爆料人」愚弄了。 听到「草莓哥」@iru...
-
和AI「赛博爱情」的时代已经到来
【新智元导读】AI赛博恋人正变得越来越受欢迎,Replika CEO甚至鼓励人们与AI结婚。然而,这是否是一种饮鸩止渴?通过梳理近20篇国外论文,我们还原了学术界对「人机之恋」的研究面貌。 人和机器之间真的能够产生「爱情」吗? 计算机运算先驱、人机之恋旗手...
-
Flux:Stable Diffusion 创始人团队再创开源 AI 巅峰之作
前言 TLDR 还记得 Stable Diffusion 吗?这款开源文本到图像生成模型,现在其部分创始成员成立了新公司 Black Forest Labs,并带来了全新的力作——Flux,一个拥有 120 亿参数的文本到图像模型,也是目前最大...
-
ChatGPT后,人工智能的终极里程碑却倒了
大模型的拟人行为,在让我们产生恐怖谷效应。 「图灵测试是一个糟糕的测试标准,因为对话能力和推理完全是两码事。」最近几天,AI 圈里一个新的观点正在流行。 如今已是生成式 AI 时代,我们评价智能的标准该变了。 「机器能思考吗?」这是艾伦・图灵在他1950...
-
橙篇APP下载地址 AI超长文章写作热点解读使用方法教程
探索橙篇能为你带来哪些改变 为什么选择橙篇? 橙篇不仅仅是一款产品——它是一项革命性的技术,致力于提供全面的生活、学习、工作辅助。橙篇旨在为用户提供智能全网搜索、AI今日热点、多图一键成片、超长文章写作、文件理解总结等强大功能,以提升工作和学习的效率。...
-
盘点目前有关数字人的开源项目
近年来,数字人技术的迅猛发展吸引了众多研究者和开发者的关注。开源社区也涌现出许多优秀的项目,为数字人技术的发展提供了强有力的支持。本文将对一些目前较为热门的数字人生成相关开源项目进行分类整理和总结,以供广大开发者和研究人员参考。 一、动画人像生成与动作...
-
清华唐杰团队新作:一口气生成2万字,大模型开卷长输出
一口气生成2万字,大模型输出也卷起来了! 清华&智谱AI最新研究,成功让GLM-4、Llama-3.1输出长度都暴增。 相同问题下,输出结果直接从1800字增加到7800字,翻4倍。 要知道,目前大模型的生成长度普遍在2k以下。这对于内容创作、问...
-
FLUX.1最强AI绘画开源新模型,本地部署教程!
原文链接:FLUX.1最强AI绘画开源新模型,本地部署教程! (chinaz.com Flux最近收到了很多模型爱好者的好评,出图质量超越SD3和MJ,许多人说Flux才是大家心目中的SD3,所以我也是非常好奇FLux的实力在这里把本地部署的过程分享给...
-
GPT-4o模仿人类声音,诡异尖叫引OpenAI研究员恐慌!32页技术报告出炉
【新智元导读】五颗草莓到底指什么?盼了一天一夜,OpenAI只发来一份32页安全报告。报告揭露:在少数情况下,GPT-4o会模仿你的声音说话,或者忽然大叫起来……事情变得有趣了。 昨天奥特曼率众人搞了一波「草莓暗示」的大阵仗,全网都在翘首以盼OpenAI的...
-
llama模型,nano
目录 llama模型 Llama模型性能评测 nano模型是什么 Gemini Nano模型 参数量 MMLU、GPQA、HumanEval 1. MMLU(Massive Multi-task Language Understanding)...
-
AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【新智元导读】科学家正在通过AI的力量,改变乳腺癌的现状。 在全球范围内,每年有超过60万名女性因乳腺癌而无法存活。 美国有八分之一的女性一生中会被诊断出患有乳腺癌。 这些数字听起来很可怕,但并非毫无希望。 当处于最早的局部阶段时,5年相对生存率为99%...
-
OpenAI高层巨变:联创辞职总裁休假,网友:领导层成了空壳
刚刚,OpenAI高层大地震: 联创John Schulman辞职跑路,联创&总裁Greg Brockman长期休假,产品副总裁Peter Deng也被曝离职。 John Schulman(约翰·舒曼),长年领导OpenAI强化学习团队,被誉为“C...
-
LLaMA模型量化方法优化:提高性能与减小模型大小
LLaMA模型量化方法优化:提高性能与减小模型大小 LLaMA模型量化方法优化:提高性能与减小模型大小 引言 新增量化方法 性能评估 7B模型 13B模型 结果分析 结论 LLaMA模型量化方法优化:提高性能与减小模型大小...
-
贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样
Transformer大模型尺寸变化,正在重走CNN的老路! 看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。 拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象: 在ImageNet时代,研究人员和技术从业者见证了参数规...
-
大模型行业,根本没有什么“真”开源?
最近一段时间开源大模型市场非常热闹,先是苹果开源了 70 亿参数小模型DCLM,然后是重量级的Meta的Llama 3.1 和Mistral Large2 相继开源,在多项基准测试中Llama 3. 1 超过了闭源SOTA模型。 不过开源派和闭源派之间的争...
-
从炒菜到缝针!斯坦福炒虾团队打造自主「AI达芬奇」,苦练神指当外科医生
【新智元导读】斯坦福炒虾机器人作者,又出新作了!通过模仿学习,达芬奇机器人学会了自己做「手术」——提起组织、拾取针头、缝合打结。最重要的是,以上动作全部都是它自主完成的。 斯坦福炒虾机器人作者,又出新作了。 这次,机器人不是给我们炒饭了,而是给我们做外科手...