-
我们尝试用AI创作了一条圣诞动画(附ChatGPT+Pika等制作流程全记录)
最近,AI视频生成领域可以说是迎来了一波小爆发,前有明星产品Runway Gen2,后有黑马Pika1.0爆火,随着越来越多的玩家和产品涌入AI视频赛道,视频创作的门槛似乎越来越低了。 例如,今年圣诞节就有不少网友用Pika1.0整活,生成了各种脑洞大开的...
-
机器学习模型性能的十个指标
尽管大模型非常强大, 但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比,解释现实中的物理现象,未必要用到量子力学。有些相对简单的问题,或许一个统计分布就足够了。对机器学习而言, 也不用言必深度学习与神经网络,关键在于明确问题的边界。 那么在...
-
AI绘画中CLIP文本-图像预训练模型
介绍 OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行...
-
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图...
-
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。 论文链接:https://arxiv.org/abs/2312.03...
-
测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如: 测试数据流应当是时变分布(而非传统领域适应中...
-
[Stable Diffusion进阶篇]LCM提示SD文生图效率,Lcm_lora使用体验
LCM 官方以此训练了一个新的模型 Dreamshaper-V7,仅通过 2-4 步就能生成一张 768*768 分辨率的清晰图像。 以往我们用 SD 生成图片起码需要20步的步数,现在使用 LCM 只需要4步就行,实现所见即所得。 1....
-
MagicAnimate软件内测入口在哪 AI视频生成器推荐
MagicAnimate是一款基于扩散模型的人类图像动画框架,旨在增强时间一致性、忠实保留参考图像,并提高动画的真实感。MagicAnimate软件的体验入口在哪呢,这里我们来看下MagicAnimate的官方体验入口。 >>>点击前往...
-
Midjourney|文心一格prompt教程[基础篇]:注册使用教程、风格设置、参数介绍、隐私模式等
Midjourney|文心一格prompt教程[基础篇]:注册使用教程、风格设置、参数介绍、隐私模式等 开头讲一下为什么选择Midjourney和文心一格,首先Midjourney功能效果好不多阐述;其次文心一格再多次迭代优化后效果也不错,重点也免费,...
-
只需一张图片、一句动作指令,Animate124轻松生成3D视频
近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合...
-
「Animate Anyone」官网体验入口 AI动画角色软件app免费下载地址
Animate Anyone是一款利用扩散模型从静态图像生成角色视频的工具。该软件通过驱动信号将静态图像转换为动画,为角色动画提供了一个专门的新框架。那么,想要体验Animate Anyone吗?下面就给大家带来Animate Anyone官网体验入口和免...
-
IP-Adapter-FaceID官网体验入口 AI人脸图像软件app免费下载地址
IP-Adapter-FaceID是一款基于人脸识别模型的实验性图像生成工具。该模型使用LoRA技术提高面部ID的一致性,能够仅通过文本提示生成各种风格的人脸图像。那么,IP-Adapter-FaceID在哪里可以体验呢?下面就给大家带来IP-Adapte...
-
万媒易发:以RPA自动化和AIGC为基础实现多平台分发
引言 在当今数字化时代,信息传播的速度越来越快,多平台分发成为了内容创作者们必须面对的重要挑战之一。为了解决这一难题,我们可以借助RPA(Robotic Process Automation)自动化和AIGC(Artificial Intelligen...
-
复合人工智能:企业使用AI成功的关键
近日, Dynatrace 发布一份全球报告显示,随着对 AI 的投资不断增加,“复合 AI”将成为企业成功运用 AI 的关键因素。Dynatrace 指出,尽管 83% 的技术领导者认为 AI 是必不可少的,但 95% 的人认为,如果有其他类型的 AI...
-
微软Azure发布GPT-RAG,为LLM部署提供超智能解决方案
微软Azure最近推出了GPT-RAG,这是一项超智能的解决方案,旨在让大型语言模型(LLMs)在企业中更加顺畅地运行。随着人工智能的不断发展,对LLMs的需求因其理解和生成类似人类文本的能力而迅速增长。然而,在企业中使这些工具正常运行并不容易。我们需要确...
-
欧盟扩大对AI初创公司的支持,提供超级计算机进行模型训练
欧盟计划通过提供超级计算机的处理能力,支持本土 AI 初创公司进行模型训练。该计划于去年9月宣布,并于上个月开始实施。 根据欧盟的最新消息,法国的 Mistral AI 已经参与了早期试点阶段。然而,早期的经验表明,该计划需要为 AI 初创公司提供专门的支...
-
逆天!真实可控、可拓展,自动驾驶仿真平台LightSim上新
最近,来自 Waabi AI、多伦多大学、滑铁卢大学和麻省理工的研究者们在 NeurIPS 2023 上提出了一种全新的自动驾驶光照仿真平台 LightSim。研究者们提出了从真实数据中生成配对的光照训练数据的方法,解决了数据缺失和模型迁移损失的问题。L...
-
构建企业级大语言模型应用的秘诀:GitHub Copilot 的实践之路
GitHub Copilot 的开发团队分享了他们在构建能够同时为个人和企业用户带来价值的大语言模型(LLM)应用的心得体会。 本文经授权转载宝玉老师的个人博客(微博@宝玉xp),链接:https://baoyu.io/translatio...
-
深度学习之目标检测中的常用算法
随着深度学习的不断发展,深度卷积神经网络在目标检测领域中的应用愈加广泛,现已被应用于农业、交通和医学等众多领域。 与基于特征的传统手工方法相比,基于深度学习的目标检测方法可以学习低级和高级图像特征,有更好的检测精度和泛化能力。 什么是目标检测? 目标检测...
-
Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)
本篇是《Diffusion Model (扩散生成模型 的基本原理详解(一)Denoising Diffusion Probabilistic Models(DDPM 》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一...
-
微软推出机器学习库GPT-RAG
随着人工智能的增长,大型语言模型(LLMs)因其解释和生成类似人类文本的能力而日益受欢迎。然而,将这些工具整合到企业环境中并确保可用性和维护治理是一项具有挑战性的任务。 为了解决这一难题,Microsoft Azure推出了GPT-RAG,这是一种专为使用...
-
StableVideo:使用Stable Diffusion生成连续无闪烁的视频
使用Stable Diffusion生成视频一直是人们的研究目标,但是我们遇到的最大问题是视频帧和帧之间的闪烁,但是最新的论文则着力解决这个问题。 本文总结了Chai等人的论文《StableVideo: Text-driven consistency -...
-
MagicAnimate免费体验入口 AI照片生成视频软件推荐
MagicAnimate是一个基于扩散模型的人类图像动画框架,旨在增强时间一致性、忠实保留参考图像,并提高动画的真实感。MagicAnimate软件的体验入口在哪呢,这里我们来看下MagicAnimate的官方体验入口。 >>>点击前往...
-
编码碾压ChatGPT!UIUC清华联手发布7B参数Magicoder,代码数据权重全开源
开源「代码大模型」来了! UIUC清华团队的研究人员发布了Magicoder,不到7B参数,就能在代码生成领域与顶级代码模型不相上下。 值得一提的是,Magicoder的代码、权重和数据,毫无保留完全开源。 论文地址:https://arxiv.org...
-
OpenAI 的超级对齐团队在做什么
今年11月17日,OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman 在首席科学家伊利亚·苏茨克韦尔 (Ilya Sutskever 的政变下被罢免,但三天后复职。不到一个月,OpenAI 宣布一切恢复正常,而这一切导火索是团队内部的有...
-
技术乐观主义者和末日论者在硅谷展开的关于AI潜藏的危险的激烈辩论
如今,在推出ChatGPT一年多之后,2023年最大的AI故事可能与其说是技术本身,不如说是OpenAI董事会对其快速发展的戏剧性报道。在奥特曼被赶下台并随后复职担任CEO期间,GenAI进入2024年的潜在紧张局势显而易见:AI处于巨大分歧的中心,一...
-
走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理
给你一首曲子的音频和一件乐器的 3D 模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但语言模型有能力办到这一点吗? 实际上,...
-
亚马逊云科技Amazon CodeWhisperer 极客之选!
使用了一段时间的Amazon CodeWhisperer,直接作为插件搭配VS Code,安装很方便。 在平常写代码的时候使用率很高,个人使用过最近的语言大模型,感觉这个CodeWhisperer像是专门是在代码数据上训练的模型,但是又不止是会写代码,还会...
-
论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models
论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 预训练Pretraining 3.1.1 预训练细节 3.1.2...
-
UC伯克利DeepMind等联合发布真实世界模拟器,打破虚实边界
真实世界模拟器来啦! 还在发愁训练出的大模型无法适应真实的物理世界吗? AI Agent想要进入我们的生活还有多远的距离? ——UC伯克利、谷歌DeepMind、MIT和阿尔伯塔大学的研究人员告诉你答案。 在NeurlPS 2023上,研究人员将展示他们...
-
OpenAI首席科学家有个计划,寻找方法控制超级人工智能
12月15日消息,早在OpenAI成立之初,便承诺构建有益于全人类的人工智能,即使这些人工智能有可能比其创造者更聪明。自ChatGPT首次亮相以来,OpenAI的商业野心逐渐凸显。最近,该公司宣布成立了一个致力于研究未来超级人工智能的新研究团队,并已经...
-
真实、可控、可拓展,自动驾驶光照仿真平台LightSim上新了
最近,来自 Waabi AI、多伦多大学、滑铁卢大学和麻省理工的研究者们在 NeurIPS 2023 上提出了一种全新的自动驾驶光照仿真平台 LightSim。研究者们提出了从真实数据中生成配对的光照训练数据的方法,解决了数据缺失和模型迁移损失的问题。L...
-
QTNet:最新时序融合新方案!点云、图像、多模态检测器全适用(NeurIPS 2023)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 & 个人理解 时序融合能够有效提升自动驾驶3D目标检测的感知能力,然而目前的时序融合方法由于成本开销等问题难以在实际自动驾驶场景中应用。NeurIPS 2023的最新研究文章 《Qu...
-
AI绘画-Midjourney基础1-突破想象的界限:掌握文本引导的图像生成技巧
Midjourney是一款 AI 绘画工具,可以根据你的提示(本文中称为 prompt)创作出各种图像。你只需要在Discord上和一个机器人聊天,就可以用简单的命令来控制它。目前已不支持免费试用,可以选择付费计划来获得更多功能和优势。 目前 Midjo...
-
北京大学发布EAGLE 大模型推理效率无损提升3倍
近年来,大语言模型在各领域应用广泛,但其文本生成过程昂贵且缓慢。为解决这一问题,滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布了EAGLE。EAGLE的目标是提升大语言模型的推理速度,同时确保输出文本的分布一致性。通过外推大语言模型的第二顶层特征向量...
-
六大赛道十项技术:智能体、3D生成引爆AI,空间计算开启终端变革
两千年前的古人穿越到一千年前后,需要适应的东西可能不多。而一千前的古人穿越到一百年前,变化也不至于大到难以适应。但如果一百年前的古人穿越到现在,甚至只是有人“冬眠”10年、20年,面对的现实世界的变化,恐怕会是天翻地覆。日新月异的技术进步,正不断带来颠覆...
-
数字图像处理的图像操作
图像操作在计算机视觉和图像处理中发挥着至关重要的作用。这些操作对于诸如预处理、增强图像质量和启用高级算法等任务至关重要。在计算机视觉中,诸如调整大小、裁剪、调整亮度/对比度/伽玛和几何变换等操作是基础的。它们允许进行高效的计算、提取感兴趣区域、规范化图像...
-
AI视野:谷歌Gemini Pro开放;文心一言插件商城上线;谷歌图像生成模型Imagen2发布;阿里推虚拟试穿技术Outfit Anyone
???AI新鲜事 谷歌Gemini Pro开放 谷歌Gemini Pro大模型在研究基准测试中表现优异,支持32K上下文窗口的文本输入和生成功能,向Vertex AI云计算客户和AI Studio开发人员开放,提供多种功能和SDK,为构建AI应用程序提供更...
-
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。 最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney, 可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷! 图片 用一张爱丽丝奇境漫游的图片,...
-
首个「创造式任务」基准来了!北大清华联手发布Creative Agents:专为想象力而生!
近年来,许多研究通过训练服从自然语言指令的智能体,让智能体具有了解决各种开放式任务的能力。 例如,SayCan[1]利用语言模型实现了根据语言描述解决各种室内机器人任务的智能体,Steve-1[2]训练端到端的策略实现了能够在《我的世界》(Minecra...
-
大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE
大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每个词(token)的生成都需要进行一次前向传播,需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。 近日,滑铁...
-
南洋理工发布提高AI视频生成内容一致性方法FreeInit
南洋理工大学发布了一项名为FreeInit的方法,该方法可以大幅提高人工智能视频生成的内容一致性。演示显示这一方法非常流畅,并且可以与现有的SD生态结合。此外,他们还发表了与Animatediff结合的方法,只需等待一些专业人士制作插件,就可以使用这一方法...
-
四大AI视频工具“斗法” 一文教你怎么玩
AI视频工具赛道越来越卷,各种升级令人应接不暇,尤其是Gen-2、Pika1.0、Stable Video Diffusion、和Magic Animate,它们正在成为用户最常用的视频生成产品,背后有强大的AI大模型支撑。 尽管目前的视频类大模型还达不到...
-
stable diffusion webui mov2mov
手把手教你用stable diffusion绘画ai插件mov2mov生成动画_哔哩哔哩_bilibili手把手教你用stable diffusion绘画ai插件mov2mov生成动画, 视频播放量 14552、弹幕量 3、点赞数 275、投硬币枚数 11...
-
腾讯又整活!一句话让图片变动漫主角!
撰稿 | 清竹 出品 | 51CTO技术栈(微信号:blog51cto) 2023年底,AI圈似乎已经被“文生视频”模型攻占了! 11月底 AI 文生视频工具 Pika 1.0 横空出世、风头一时无两,日前斯坦福大学 AI 科学家李飞飞团队联合谷歌推...
-
随意指定CLIP关注区域!上交复旦等发布Alpha-CLIP:同时保持全图+局部检测能力
CLIP是目前最流行的视觉基座模型,其应用场景包括但不限于: 与LLM大语言模型结合成为视觉多模态大模型; 作为图像生成(Stable Diffusion 、点云生成(Point-E 的condition model,实现image-to-3D; 用于...
-
RayDF:实时渲染!基于射线的三维重建新方法
本文经自动驾驶之心公众号授权转载,转载请联系出处。 图片 论文链接:https://arxiv.org/pdf/2310.19629 代码链接:https://github.com/vLAR-group/RayDF 主页:https://vlar-gro...
-
智谱AI发布中文 LLM 对齐评测基准AlignBench
智谱AI发布了专为中文大语言模型(LLM)而生的对齐评测基准AlignBench,这是目前第一个针对中文大模型的评测基准,能够在多维度上细致评测模型和人类意图的对齐水平。 AlignBench 的数据集来自于真实的使用场景,经过初步构造、敏感性筛查、参考答...
-
阿里又整活儿:一张人脸一句话就能跳《擦玻璃》,服装背景随意换!
继AnimateAnyone之后,阿里又一项“舞蹈整活儿”论文火了—— 这一次,只需一张脸部照片、一句话描述,就能让你在任何地方跳舞! 例如下面这段《擦玻璃》的舞蹈视频: 图片 你所需要做的就是“投喂”一张人像,以及一段prompt: 一个女孩,微笑着,...
-
Meta AI开源T2V模型AVID 可修复视频改变纹理
Meta AI最近开源了AVID,这是一项具有先进修复和扩展能力的 T2V 模型。AVID 不仅支持通过文本编辑视频,还可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。 项目地址:https://zhang-zx.github...