-
Make-A-Video(造啊视频)——无需文字-视频数据的文字转视频(文生视频)生成方法
© 2022 Uriel Singer et al (Meta AI © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation without Text-Video Data(220...
-
少年侠客【InsCode Stable Diffusion美图活动一期】
少年侠客【InsCode Stable Diffusion美图活动一期】 文章目录 Stable Diffusion 模型在线使用地址 第一张图 第二张图 第三张图 第四张图 第五张图 第六章图 一、InsCode Stable Di...
-
检测脸部情绪有多难?10行代码就可以搞定!
面部表情展示人类内心的情感。它们帮助我们识别一个人是愤怒、悲伤、快乐还是正常。医学研究人员也使用面部情绪来检测和了解一个人的心理健康。 人工智能在识别一个人的情绪方面可以发挥很大的作用。在卷积神经网络的帮助下,我们可以根据一个人的图像或实时视频来识别他...
-
Stable Diffusion这样的文本-图像生成模型有记忆吗?
Stable Diffusion扩散模型作为生成高质量图像的先进模型,却伴随着对训练数据的记忆化倾向,引发了隐私和安全性的担忧。AIGCer分享一篇分析该现象的文章,通过两个案例研究深入挖掘了文本复制现象,旨在为未来生成模型的改进提供重要的指导。 基于扩...
-
AI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡
【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型,成功预测了意外死亡和性格特点。 AI真的可以用来科学地算命了!? 丹麦技术大学 (DTU) 的研究人员声称他们已经设计出一种人工...
-
2023年AIGC发展回顾与展望
2023年是人工智能内容生成(AIGC)技术飞速发展的一年。从年初ChatGPT一炮打响,大家纷纷加入到大模型研究之中。期间Midjourney和Stable Diffusion AI绘画技术持续火热,基于AIGC类的应用也如雨后春笋般遍地...
-
【AI】Stable-Diffusion-WebUI使用指南
注:csdn对图片有审核,审核还很奇葩,线稿都能违规,为保证完整的阅读体验建议移步至个人博客阅读 最近AI绘画实现了真人照片级绘画水准,导致AI绘画大火,公司也让我研究研究,借此机会正好了解一下深度学习在AIGC(AI Generated Content...
-
基于Stable Diffusion的AIGC服饰穿搭实践
本文主要介绍了基于Stable Diffusion技术的虚拟穿搭试衣的研究探索工作。文章展示了使用LoRA、ControlNet、Inpainting、SAM等工具的方法和处理流程,并陈述了部分目前的实践结果。通过阅读这篇文章,读者可以了...
-
AI绘画:Lora模型训练完整流程!
关于AI绘画(基于Stable Diffusion Webui ,我之前已经写过三篇文章,分别是 软件安装,基本的使用方法,微调模型LoRA的使用。 整体来说还是比简单的,搞个别人的模型,搞个提示词就出图了。今天来一个有些难度的,自己训练一个LoRA微...
-
[玩转AIGC]如何训练LLaMA2(模型训练、推理、代码讲解,并附可直接运行的kaggle连接)
目录 一、clone仓库 二、数据集下载与处理 1、数据集下载 2、数据集标记化(耗时较长) 三、修改配置 四、开始训练 五、模型推理 六、train.py训练代码讲解 1、导包 2、定义模型训练参数与相关设置 3、加载模型配置 4、迭代...
-
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
一杯奶茶,成为 AIGC+CV 视觉前沿弄潮儿! 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2020...
-
stable diffusion模型讲解
AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有惊人视觉效果的图像,其背后的运行机制显得十分神秘与神奇,但确实影响了人类创造艺术的方式。 AI模型最新展现出的图像生成能力远远超出人们的预期,直接根据文字描述就能创造出具有...
-
第二证券|ChatGPT被“玩坏”,美图大涨45%,AIGC赛道风口来了?
AIGC(人工智能主动生成内容)近期被ChatGPT带火了! 近来明星人工智能公司OpenAI发布了全新的谈天机器人模型ChatGPT。该模型能够主动生成代码以及绘画、答复一系列问题、承认自己的错误、质疑不正确的假设,乃至回绝不合理的要求,且支撑中文。...
-
AIGC实战——自回归模型(Autoregressive Model)
AIGC实战——自回归模型 0. 前言 1. 长短期记忆网络基本原理 2. Recipes 数据集 3. 处理文本数据 3.1 文本与图像数据处理的差异 3.2 文本数据处理步骤 4. 构建 LSTM 模型 4.1 模型架构 4.2 LS...
-
对2024年大数据及其相关领域的预测
数据分析 随着全渠道商务的发展,广告分析的格局即将发生巨变。线上和线下消费者互动之间的传统竖井正在瓦解,为真正的全渠道消费者铺平了道路。虽然实体/数字墙在消费者的旅程中正在倒塌,但消费者隐私仍使分析变得复杂,这种全渠道消费者的增长将要求重新调整营销衡量...
-
首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型
随着ChatGPT的爆红,多模态领域也涌现出一大批可以处理多种模态输入的对话模型,如LLaVA, BLIP-2等等。 为了进一步扩展多模态大模型的区域理解能力,近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、...
-
万字长文谈自动驾驶BEV感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 prologue 这有可能是更的最长的文章系列了,先说为什么,一方面是看到分割大模型对小模型的提升效果需要时间,另一方面是之前对自动驾驶的BEV算法做了很长时间的预研,自己也应该好好梳理一下了。 (很...
-
超逼真!实时高质量渲染,用于动态城市场景建模的Street Gaussians
本文经自动驾驶之心公众号授权转载,转载请联系出处。 不得不说,技术更新太快了,Nerf在学术界慢慢被替换下去了。Gaussians登场了,浙江大学的工作 论文:Street Gaussians for Modeling Dynamic Urban Sc...
-
AIGC实战——生成对抗网络(Generative Adversarial Network, GAN)
AIGC实战——生成对抗网络 0. 前言 1. 生成对抗网络 1.1 生成对抗网络核心思想 1.2 深度卷积生成对抗网络 2. 数据集分析 3. 构...
-
2024年大数据展望:数据满足GenAI
去年初,谁能想到GenAI和ChatGPT会抢占先机? 一年前,我们预测数据、分析和AI提供商最终会抽出时间来简化和重新思考现代数据堆栈,这是一个我们已经接近和热爱了一段时间的话题。作为分布式企业中数据治理的解决方案,也有很多关于数据网格的讨论和担忧,...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
模型A:幸亏有你,我才不得0分,模型B:俺也一样
琳琅满目的乐高积木,通过一块又一块的叠加,可以创造出各种栩栩如生的人物、景观等,不同的乐高作品相互组合,又能为爱好者带来新的创意。 我们把思路打开一点,在大模型(LLM)爆发的当下,我们能不能像拼积木一样,把不同的模型搭建起来,而不会影响原来模型的功能,...
-
AI平台:OpenXLab浦源
OpenXLab浦源 开放项目应用中心模型中心数据集中心文档中心 搜索 中文EN创建登录注册人工智能开源开放体系浦源内容平台应用中心探索多领域应用,体验丰富的社区生态AIGC语音计算机视觉自然语言处理多模态技术更多在这里...
-
《Cocos Creator游戏实战》AIGC之将草稿内容转为真实内容
目录 前言 训练AI 从识别结果中提取必要数据 发送图片并生成最终代码 总结与提高 资源下载 前言 当创作灵感来的时候,我们可能会先把灵感记录在草稿上,之后再去实现它。比方说有一天,我突然来了游戏创作灵感,想着那可以先把一些简单的组件...
-
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。 进入现今的大模型 (LLM ...
-
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳: 就连“大笑”这种语义难理解型的,也能准确定位: 方法名为自适应双分支促进网络(ADPN),由清...
-
语言模型是如何感知时间的?「时间向量」了解一下
语言模型究竟是如何感知时间的?如何利用语言模型对时间的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时间变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定...
-
无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造
在过去短短两年内,随着诸如LAION-5B 等大规模图文数据集的开放,Stable Diffusion、DALL-E2、ControlNet、Composer ,效果惊人的图片生成方法层出不穷。图片生成领域可谓狂飙突进。 然而,与图片生成相比,视频生成仍存...
-
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。 在使用大型语言模型(LLM...
-
一个评测模型+10个问题,摸清盘古、通义千问、文心一言、ChatGPT的“家底”!...
数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 毫无疑问,全球已经在进行大模型的军备竞赛了,“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问,今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...
-
精调训练中文LLaMA模型实战教程,民间羊驼模型
羊驼实战系列索引 博文1:本地部署中文LLaMA模型实战教程,民间羊驼模型博文2:本地训练中文LLaMA模型实战教程,民间羊驼模型博文3:精调训练中文LLaMA模型实战教程,民间羊驼模型(本博客) 简介 在学习完上篇【博文2:本地训练中文LLaM...
-
AIGC困局与Web3破圈之道
最近一年,随着 AIGC(AI-Generated Content) 技术的发展壮大,越来越多的人感受到了它的恐怖之处。AI 降低了创作门槛,使每个普通人都有机会展现自己的创造力,做出不输专业水平的作品。但是就在全民 AI 作图的进程中,艺术家好像与其站在...
-
[Stable Diffusion进阶篇]使用Roop插件一键换脸
AI领域大神s0md3v,开源了一个用单图就可以进行视频换脸的项目Roop。你只需要一张所需脸部的图像,没有数据集,无需训练,10秒钟一键换脸。本文介绍ROOP本地部署的安装说明 1.安装ROOP插件 方法1:在SD--扩展--从网址安...
-
Instruct-Imagen官网体验入口 AI多模态图像生成模型软件免费下载地址
Instruct-Imagen是一个多模态图像生成模型,专注于处理异构图像生成任务,并在未知任务中展现出良好的泛化能力。该模型通过引入多模态指令,利用自然语言整合不同模态(如文本、边缘、风格、主题等),标准化丰富的生成意图。它在预训练文本到图像扩散模型上进...
-
大模型入局传统算法,LLMZip基于LLaMA-7B实现1MB文本压缩率90%!
论文链接: https://arxiv.org/abs/2306.04050 随着以ChatGPT、GPT-4为代表的AI大模型逐渐爆火进入公众视野,各行各业都开始思考如何更好的使用和发展自己的大模型,有一些评论甚至认为大模型是以人工智能为标志的...
-
谷歌研究团队推新AI方法SynCLR:从合成图像和字幕中学习视觉表征
近期,Google Research和MIT CSAIL共同推出了一项名为SynCLR的新型人工智能方法,该方法旨在通过使用合成图像和字幕,实现对视觉表征的学习,摆脱对真实数据的依赖。 SynCLR的工作原理 研究团队首先提出了一个三阶段的方法。首先,在...
-
DiffusionLight:用AI绘制铬球精准评估照片光照环境
DiffusionLight 是一种使用生成的镀铬球来估计图像中的光照的方法。 研究人员开发了一种简单但有效的技术来估计单个输入图像中的照明。他们使用在数十亿张标准图像上训练的扩散模型来渲染输入图像中的铬球并将其用作光探针。 这种方法有多种应用,包括将虚拟...
-
aAMUSEd官网体验入口 AI自然语言处理工具软件免费下载地址
aAMUSEd是一个开源平台,提供各种自然语言处理(NLP)模型、数据集和工具。它包含一个基于MUSE的轻量级遮蔽图像模型(MIM),专用于文本到图像的生成。与潜在扩散(latent diffusion)方法相比,MIM需要更少的推理步骤,且更易于解释。此...
-
Github爆火AI语音克隆项目OpenVoice,精准进行声音复刻
最近,Github上的一个名为OpenVoice的AI语音克隆项目爆火,该项目由myshell-ai开源,仅开源了不到三周,就有了6.1k的star。 OpenVoice仅需参考说话者的短音频片段,即可复制其声音并生成多种语言的语音。这一技术不仅实现了对音...
-
谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打
火爆全网的斯坦福炒虾机器人,一天之内人气暴涨。 毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢! 据说,这个项目是斯坦福华人团队花了三个月的时间做出来的。 今天,团队直接放出了更多细节。 这个机器人的技能多种多样,令人眼...
-
Embedchain官网体验入口 AI应用开发框架软件免费下载地址
Embedchain是一个开源的 RAG (Retrieval-Augmented Generation 框架,旨在简化 AI 应用的创建和部署。它的设计原则是“常规但可配置”,适用于软件工程师和机器学习工程师。Embedchain 简化了 RAG 应用...
-
突破Pytorch核心点,优化器 !!
嗨,我是小壮! 今儿咱们聊聊Pytorch中的优化器。 优化器在深度学习中的选择直接影响模型的训练效果和速度。不同的优化器适用于不同的问题,其性能的差异可能导致模型更快、更稳定地收敛,或者在某些任务上表现更好。 因此,选择合适的优化器是深度学习模型调优中...
-
谨慎采用人工智能的最佳实践
为了助力我们正确运用人工智能,以下提供几点建议,在实践使用人工智能时需谨记这些建议,以便您能够牢固掌舵,安全驾驭人工智能。 译自Treading Carefully: Best Practices When Adopting AI,作者 Tim Bank...
-
图解tinyBERT模型——BERT模型压缩精华
译者 | 朱先忠 审校 | 重楼 简介 近年来,大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一,可以高精度地解决各种自然语言处理(NLP)任务。继BERT模型之后,一组其他的模型也先后出现并各自展示出优秀的性能。 不难看到一个明显趋势...
-
Stable Diffusion 系列教程 - 3 模型下载和LORA模型的小白入门
首先,一个比较广泛的模型下载地址为:Civitai Models | Discover Free Stable Diffusion Models 黄框是一些过滤器,比如checkpoints可以理解为比如把1.5版本的SD模型拷贝一份后交叉识别新的画...
-
pytorch快速训练ai作画模型的python代码
在 PyTorch 中训练 AI 作画模型的基本步骤如下: 准备数据集: 需要准备一个包含许多图像的数据集, 这些图像可以是手绘的或者是真实的图像. 定义模型: 选择一个适当的深度学习模型, 并使用 PyTorch 定义该模型. 例如...
-
人工智能生成内容(AIGC)总览记录(认知篇)!!!
文章目录 一、AIGC 引入 1.1 AIGC 定义 1.2 AIGC 历史沿革(了解) 1.3 AIGC 技术演进 二、AIGC 大模型 2.1 视觉大模型提升 AIGC 感知能力 2.2 语言大模型增强 AIGC 认知能力 2.3 多...
-
斯坦福炒虾机器人爆火全网!华人团队成本22万元,能做满汉全席还会洗碗
今天,会做一大桌子菜的斯坦福机器人Mobile ALOHA刷屏全网。 滑蛋虾仁、干贝烧鸡、蚝油生菜,色香味俱全,看着很诱人。 就拿滑蛋虾仁这道菜来说,Mobile ALOHA在烧水的过程中先打上3颗鸡蛋,然后把虾仁放到水中焯熟,平底锅倒入鸡蛋液再加入...
-
Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
Meta AI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。 这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。这些虚拟人物不仅在视觉上非常逼真,而且能够准确地反映出对话中的手...