-
图解tinyBERT模型——BERT模型压缩精华
译者 | 朱先忠 审校 | 重楼 简介 近年来,大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一,可以高精度地解决各种自然语言处理(NLP)任务。继BERT模型之后,一组其他的模型也先后出现并各自展示出优秀的性能。 不难看到一个明显趋势...
-
Stable Diffusion 系列教程 - 3 模型下载和LORA模型的小白入门
首先,一个比较广泛的模型下载地址为:Civitai Models | Discover Free Stable Diffusion Models 黄框是一些过滤器,比如checkpoints可以理解为比如把1.5版本的SD模型拷贝一份后交叉识别新的画...
-
pytorch快速训练ai作画模型的python代码
在 PyTorch 中训练 AI 作画模型的基本步骤如下: 准备数据集: 需要准备一个包含许多图像的数据集, 这些图像可以是手绘的或者是真实的图像. 定义模型: 选择一个适当的深度学习模型, 并使用 PyTorch 定义该模型. 例如...
-
人工智能生成内容(AIGC)总览记录(认知篇)!!!
文章目录 一、AIGC 引入 1.1 AIGC 定义 1.2 AIGC 历史沿革(了解) 1.3 AIGC 技术演进 二、AIGC 大模型 2.1 视觉大模型提升 AIGC 感知能力 2.2 语言大模型增强 AIGC 认知能力 2.3 多...
-
斯坦福炒虾机器人爆火全网!华人团队成本22万元,能做满汉全席还会洗碗
今天,会做一大桌子菜的斯坦福机器人Mobile ALOHA刷屏全网。 滑蛋虾仁、干贝烧鸡、蚝油生菜,色香味俱全,看着很诱人。 就拿滑蛋虾仁这道菜来说,Mobile ALOHA在烧水的过程中先打上3颗鸡蛋,然后把虾仁放到水中焯熟,平底锅倒入鸡蛋液再加入...
-
Meta AI发布炸裂项目audio2photoreal 可将音频生成全身逼真的虚拟人物形象
Meta AI最近发布了一项引人注目的技术,他们成功地开发出一种能够从音频中生成逼真的虚拟人物形象的系统。 这个系统能够根据多人对话中的语音生成与对话相对应的逼真面部表情、完整身体和手势动作。这些虚拟人物不仅在视觉上非常逼真,而且能够准确地反映出对话中的手...
-
大模型中幻觉缓解技术的综合调查
大型语言模型(LLMs)是具有大量参数和数据的深度神经网络,能够在自然语言处理(NLP)领域实现多种任务,如文本理解和生成。近年来,随着计算能力和数据规模的提升,LLMs取得了令人瞩目的进展,如GPT-4、BART、T5等,展现了强大的泛化能力和创造力。...
-
AIGC入门系列1:感性的认识扩散模型
1、序言 大家好,欢迎来到AI手工星的频道,我是专注AI领域的手工星。AIGC已经成为AI又一个非常爆火的领域,并且与之前的AI模型不同,AIGC更适合普通人使用,我们不仅可以与chatgpt对话,也能通过绘画模型生成想要的图片。很多朋友都想去深入的了解...
-
VCoder官网体验入口 AI图像语义理解app软件免费下载地址
VCoder是一个适配器,通过辅助感知模式作为控制输入,来提高多模态大型语言模型在对象级视觉任务上的性能。VCoder LLaVA是基于LLaVA-1. 5 构建的,不对LLaVA-1. 5 的参数进行微调,因此在通用的问答基准测试中的性能与LLaVA-1...
-
微软研究人员推新AI方法,用合成数据改进高质量文本嵌入
微软公司的研究团队最近提出了一种独特且简单的方法,用于生成高质量的文本嵌入。这种新方法仅使用合成数据和极少的训练步骤(少于1,000步),就取得了令人瞩目的成果。相比于现有的方法,该方法不依赖于多阶段的预训练和有限的标记数据微调,避免了繁琐的训练流程和手动...
-
李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了
AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄...
-
让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更...
-
[linux-sd-webui]api化之训练lora
lora的训练使用的文件是https://github.com/Akegarasu/lora-scripts lora训练是需要成对的文本图像对的,需要准备相应的训练数据。 1.训练数据准备 使用deepbooru/blip生成训练数据,建筑类建议使...
-
端到端的自动驾驶会取代Apollo、autoware这类框架吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位:百度 作者:共一 Jian...
-
人工智能利用深度学习技术增强高级驾驶辅助系统(ADAS)
译者 | 李睿 审校 | 重楼 人工智能和机器学习利用深度学习技术的优势,使高级驾驶辅助系统(ADAS 发生了重大变革。ADAS在很大程度上依赖深度学习来分析和解释从各种传感器获得的大量数据。摄像头、激光雷达(光探测和测距 、雷达和超声波传感器都是传感器...
-
Stable Diffusion (持续更新)
引言 本文的目的为记录stable diffusion的风格迁移,采用diffusers example中的text_to_image和textual_inversion目录 2023.7.11 收集了6张水墨画风格的图片,采用textual_...
-
AIGC | 数据驱动的室内场景智能灯光设计系统,效果媲美人类设计师
专题介绍 AIGC(人工智能创作内容)作为内容生产新范式,能够把创造和知识工作的边际成本降至零,以产生巨大的劳动生产率和经济价值。而元宇宙是一个需要海量内容数据的虚拟世界,也是AIGC的主战场。渲染引擎作为元宇宙最重要的基础设施,与AI关联的更多...
-
【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成
目录 一. 项目概述 问题: 解决: 二. 方法详解 a 整体结构 b 自主题注意力 三. 文本控制的动漫角色驱动图像生成的结果 四. 文本控制的自然图像驱动图像生成的结果 五. 姿势控制角色驱动图像生成的结果 2023年的最后一...
-
使用 Stable Diffusion Img2Img 生成、放大、模糊和增强
在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion...
-
版权过期后,米老鼠SD模型上线 以后可以放心用AI画米老鼠了
日前,迪士尼旧版米老鼠的版权正式过期,这意味着任何人都可以自由使用旧版米老鼠形象。 AI圈的开发者们手速也不可小觑,这不,才刚宣布过期没多久,他们就已经推出了米老鼠的SD模型Mickey-1928。 Mickey-1928是一个基于Stable-Diff...
-
Mickey-1928官网体验入口 AI米老鼠生成工具免费下载地址
Mickey-1928是一款基于Stable-Diffusion-xl模型微调的AI工具,专注于生成迪士尼 1928 年前的经典动画角色。这款工具使用了包含《小飞象》、《汽船威利号》和《疯狂的高卢》等动画中的 96 张静态画面作为训练数据集。Mickey-...
-
客观看待AI大模型在数字化转型中的地位和作用
“ AI大模型在数字化转型中的作用尚未突破《“以数据为中心的业务变革”之三种范式》中第三种范式的边界”。 自从OpenAI公司研发的机器人聊天程序ChatGPT在2022年11月30日发布以来,在全世界迅速带起了热潮。ChatGPT是AI大模型驱动的自...
-
基于Python的图像预处理完整指南
你是否曾在机器学习或计算机视觉项目中遇到过质量较差的图像问题?图像是许多AI系统的生命线,但并非所有图像都是相同的。在训练模型或运行算法之前,通常需要对图像进行一些预处理以获得最佳结果。在Python中进行图像预处理将成为您的新伙伴。 在本指南中,您将...
-
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。 然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。 国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可...
-
AI识别出地震先兆信号?机器学习发现数据神秘关联,人类有望预测地震
最近一段时间,世界各地地震频发。 就在1月1日,日本突发里氏7.6级的地震,随后陆续有灾情传出。据统计,目前至少已有62人死亡。 而下面这个问题,也再一次被提起:人类究竟什么时候能及时预测地震呢? 别急,已经在进步了。 现在,在用AI和其他技术及时预测...
-
高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备
在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人...
-
保姆级教程:从0到1使用Stable Diffusion XL训练LoRA模型 |【人人都是算法专家】
Rocky Ding 公众号:WeThinkIn 写在前面 【人人都是算法专家】栏目专注于分享Rocky在AI行业中对业务/竞赛/研究/产品维度的思考与感悟。欢迎大家一起交流学习? 大家好...
-
3 任务3 使用趋动云部署自己的stable-diffusion
使用趋动云部署自己的stable-diffusion 1 创建项目: 2 初始化开发环境实例 3 部署模型 4 模型测试 1 创建项目: 1.进入趋动云用户工作台,选择:当前空间,请确保当前所在空间是注册时系统自动生成的空间。 a...
-
肖仰华:走向千行百业的大模型
现如今,我们站在了大模型技术和产业发展的中场思考阶段。这个阶段的开启源于 ChatGPT 的诞生,它引发了广泛而深入的关注。尽管这种关注对于推动技术和产业的发展起到了至关重要的作用,但同时我们也看到了一系列问题的浮现。这些问题包括成本和价值的问题以及一些...
-
突破Pytorch核心点,CNN !!!
哈喽,我是小壮! 创建卷积神经网络(CNN),很多初学者不太熟悉,今儿咱们来大概说说,给一个完整的案例进行说明。 CNN 用于图像分类、目标检测、图像生成等任务。它的关键思想是通过卷积层和池化层来自动提取图像的特征,并通过全连接层进行分类。 原理 1.卷...
-
苹果ferret官网体验入口 Apple AI模型工具免费下载地址
Appleml-ferret是一个先进的端到端机器学习语言模型(MLLM),专门设计用于在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器,支持对细粒度和开放词汇的引用和定位。此外,ml-ferret还包含了包括约 110 万个样本的G...
-
论最近热门的AI绘画技术—从小白绘画到文创手账设计【文末送书-13】
文章目录 ?前言 ⚽AI绘图技术栈 ⚾️简单的代码实现案例 ?iPad萌系简笔画:从小白绘画到文创手账设计【文末送书-13】 ⛳粉丝福利:文末推荐与福利免费包邮送书! ?前言 AI绘画技术,也称为人工智能绘画,是指利用人工智能技术...
-
智能编程助手!华为云CodeArts Snap免费公测:基于盘古研发大模型
快科技1月3日消息,据华为云”公众号介绍,近日,华为云CodeArts Snap正式开启公测。 这是一款基于华为云研发大模型的智能化编程助手,旨在为开发者提供高效且智能的编程体验,提升研发人员的单兵作战能力。 该服务公测期间免费,不向用户收取任何费用,商用...
-
最强开源大模型?Llama 2论文解读
标题 简介 模型预训练 预训练设置 硬件资源与碳排放 模型评估 模型微调 有监督微调 基于人工反馈的强化学习(RLHF) 人类偏好数据的收集 奖励模型 迭代微调过程 多轮对话控制 RLHF 结果 模型回答的安全性 一直...
-
清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能
12 月 29 日消息,大语言模型(LLM)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(Video Grounding,VG)。 VG 任务的目的基于给定查询(一句描述),然后在目标视频段中定位...
-
小米SU7汽车发布会; 齐碳科技C+轮融资;网易 1 月 3 日发布子曰教育大模型;百度文心一言用户数已突破 1 亿
投融资 • 3200 家 VC 投资的创业公司破产,那个投 PLG 的 VC 宣布暂停投资了 • 云天励飞参与 AI 技术与解决方案提供商智慧互通 Pre-IPO 轮融资 • 百度投资 AIGC 公司必优科技 • MicroLED量测公司点莘技术获数...
-
面向未来的数据安全的人工智能解决方案
如今,在快速发展的数字世界中,企业领导者正在应对大量数据安全威胁。网络攻击不仅更加复杂,而且成本高昂,全球平均违规损失超过450万美元。随着数据对我们的日常工作变得非常重要,改变我们保护数据安全的方式也非常重要。事实证明,在网络周围筑墙的传统安全措施是...
-
年度最热AI应用TOP 50,除了ChatGPT还有这么多宝藏
百模齐发、AI工具乱杀的一年里,谁是真正赢家? ChatGPT访问量遥遥领先位居第一,但单次使用时长没超过平均线。 Midjourney访问量年度第四,但下滑量位居第二。 引爆AI绘画趋势的Stable Diffusion,年度访问量居然没进前20名?...
-
「灌篮高手」模拟人形机器人,一比一照搬人类篮球招式,看一遍就能学会,无需特定任务的奖励
投篮、运球、手指转球…这个物理模拟人形机器人会打球: 图片 会的招数还不少: 图片 一通秀技下来,原来都是跟人学的,每个动作细节都精确复制: 图片 这就是最近一项名为PhysHOI的新研究,能够让物理模拟的人形机器人通过观看人与物体交互(HOI)的演示,...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
GPT-4变笨!回答新问题性能太差,想保持水准只能不断训练新模型
昨天,一篇系统性地研究了GPT-4为什么会「降智」的论文,引发了AI圈的广泛讨论。 随着大家对GPT-4使用得越来越频繁,用户每过一段时间都会集中反应,GPT-4好像又变笨了。 图片 最近的情况是,如果用户不小心和GPT-4说现在是12月份,GPT-4的...
-
人工智能生成内容AIGC是什么?
一、AIGC的概念和特点 AIGC是人工智能生成内容(Artificial Intelligence Generated Content)的简称,指的是利用人工智能技术,通过已有数据寻找规律,并通过预训练大模型、生成式对抗网络(GAN)等方法,自动生成各...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。 Gemini的推理能力,真的比GPT-4弱吗? 此前,谷歌憋出的重磅复仇神器Gemini P...
-
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一...
-
《我的世界》化身AI小镇,NPC居民角色扮演如同真人
注意看,这个方块人正在快速思考面前几位“不速之客”的身份。 原来她是遇到了危险,意识到这一点之后,她马上开始在脑海中搜索策略。 最终,她的方案是先逃跑然后寻求帮助,并马上付诸行动。 与此同时,对面的人也在进行着和她一样的思考…… 这样的一幅场景出现...
-
还不知道?近20+自动驾驶数据集、榜单和Benchmark汇总
本文经自动驾驶之心公众号授权转载,转载请联系出处。 1.Nuscenes 数据集链接:nuScenes nuscenes数据集下有多个任务,涉及Detection(2D/3D)、Tracking、prediction、激光雷达分割、全景任务、规划控制等...
-
LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记
文章目录 1. 简介 2.方法 2.1 预训练数据 2.2 网络架构 2.3 优化器 2.4 高效的实现 3.论文其余部分 4. 参考资料 1. 简介 LLaMA是meta在2023年2月开源的大模型,在这之后,很多开源模型都...
-
微软推出AI助手Copilot的正式版本;ChatGPT:七位研究人员分享他们的观点
? AI新闻 ? 微软推出AI助手Copilot的正式版本 摘要:微软宣布其AI助手Copilot正式上线,此前Copilot的预览版已成为很多用户的日常AI伴侣。此次上线后,Copilot将继续提供AI驱动的网络聊天体验,并具备商业数据保护功能,...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...