-
腾讯AI图像生成工具软件免费使用地址 PhotoMaker体验入口
PhotoMaker是一种高效的个性化文本到图像生成方法。它能将任意数量的输入ID图像编码成堆叠ID嵌入,以保留身份信息。这种嵌入方式不仅可以全面地封装相同输入ID的特征,还能容纳不同ID的特征以供后续整合。PhotoMaker通过提出的面向ID的数据构建...
-
大模型时代下AIGC新浪潮
大模型时代下AIGC新浪潮 文章目录 大模型时代下AIGC新浪潮 1. **相关概念** 2. **迎接大模型时代** 3. **ChatGPT引爆AIGC产业** 4. **从产业链宏观看AIGC** 1. **上游:基础层**...
-
AIGC内容分享(十二):AIGC探索之旅AIGC探索之旅
目录 前言 引言:AI时代,未来已来 AIGC简介与发展历程 早期萌芽阶段(1950s-1990s) 沉淀积累阶段(1990s-2010s) 快速发展阶段(2010s至今) 大模型与AIGC的关联 大模型概述 大模型的定义和特点 典型大...
-
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting
Lag-Llama: Towards Foundation Models for Time Series Forecasting 摘要 本文提出Lag-Llama,在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
Yann LeCun发来肯定:腾讯人像照片生成可以随便玩了
这一次,Yann LeCun 首次跻身「百变大咖」。身穿钢铁侠的衣服、戴着酷酷的墨镜面无表情地注视着你,一身古装在故宫门前打卡留念…… 就连本人也出来转发并喊话,「左下角这幅文艺复兴时期的画,是我的最爱。」 性感女神寡姐身穿紫色巫师服注视着远方,还可...
-
马斯克机器人炫技引千万网友围观!
特斯拉机器人,开始干家务了。 马斯克通过最新视频,晒起特斯拉擎天柱机器人叠衣服,引发大量网友围观。 现在机器人叠衣服只需要3步,30秒一件。 第一步,先把衣服从篮子里拿出来,直接就叠好一边袖子。 第二步,丝滑调整衣服位置,对齐另外半边。 最后一头一...
-
AIGC和ChatGPT推进百度、阿里、腾讯、华为大模型技术创新
AIGC | PC集群 | PC Farm | GPU服务器 生成式AI | Stable Diffusion | ChatGPT 2022 年 12 月,OpenAI 推出了 ChatGPT,这是一种高性能计算的大型语言生成模型。它的出现推动了人...
-
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间“破防”
“耍心机”不再是人类的专利,大模型也学会了! 经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。 而且,一旦训练完成,现有的安全策略都毫无办法。 ChatGPT“最强竞对”Claude的背后厂商Anthropic联合多家研究机构发表...
-
一文读懂 LLM 可观测性
Hello folks,我是 Luga,今天我们继续来聊一下人工智能(AI 生态领域相关的技术 - LLM (大型语言模型 可观测性 ,本文将继续聚焦在针对 LLM 的可观测性进行解析,使得大家能够了解 LLM 的可观测性的必要性以及其核心的生态体系知...
-
大模型应用实践:AIGC探索之旅
随着OpenAI推出ChatGPT,AIGC迎来了前所未有的发展机遇。大模型技术已经不仅仅是技术趋势,而是深刻地塑造着我们交流、工作和思考的方式。 本文介绍了笔者理解的大模型和AIGC的密切联系,从历史沿革到实际应用案例,再到面临的技术挑战和伦理监管问题...
-
大模型相关技术综述
多模态大模型&大模型训练语料持续迭代 已经开始整理多模态-视觉部分: 主要分为一下几块 多模态信息压缩模型(clip、vit、swiT) 生成模型(vae、gan、flow、ddpm、sde... 其它多模态大模型(语音...
-
小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。 在 AAAI 2...
-
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。 利用视频内容进行建模之后,就可以在整段视频当中自由搜索了。 而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的...
-
微软祭出代码大模型WaveCoder!四项代码任务两万个实例数据集,让LLM泛化能力飙升
用高质量数据集进行指令调优,能让大模型性能快速提升。 对此,微软研究团队训练了一个CodeOcean数据集,包含了2万个指令实例的数据集,以及4个通用代码相关任务。 与此同时,研究人员微调了一个代码大模型WaveCoder。 论文地址:https://...
-
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
一杯奶茶,成为 AIGC+CV 视觉前沿弄潮儿! 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2020...
-
大翻车!斯坦福超火机器人自曝内幕,研究者救场还受伤了,网友:放心了
爆火的斯坦福全能家务机器人Mobile ALOHA,大!翻!!车!!! 你以为它擦个红酒轻而易举,但实际上却是这样的: 全给你弄撒喽,顺带碎个杯子 …… 你以为它能化身大厨娴熟烹炒,结果给你上演一个炒锅底: Mobile ALOHA的翻车大合集还不止...
-
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。 在使用大型语言模型(LLM...
-
一个评测模型+10个问题,摸清盘古、通义千问、文心一言、ChatGPT的“家底”!...
数据智能产业创新服务媒体 ——聚焦数智 · 改变商业 毫无疑问,全球已经在进行大模型的军备竞赛了,“有头有脸”的科技巨头都不会缺席。昨天阿里巴巴内测了通义千问,今天华为公布了盘古大模型的最新进展。不久前百度公布了文心一言...
-
Instruct-Imagen官网体验入口 AI多模态图像生成模型软件免费下载地址
Instruct-Imagen是一个多模态图像生成模型,专注于处理异构图像生成任务,并在未知任务中展现出良好的泛化能力。该模型通过引入多模态指令,利用自然语言整合不同模态(如文本、边缘、风格、主题等),标准化丰富的生成意图。它在预训练文本到图像扩散模型上进...
-
谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人
几乎是和斯坦福“炒虾洗碗”机器人同一时间,谷歌DeepMind也发布了最新具身智能成果。 并且是三连发: 先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑...
-
大模型中幻觉缓解技术的综合调查
大型语言模型(LLMs)是具有大量参数和数据的深度神经网络,能够在自然语言处理(NLP)领域实现多种任务,如文本理解和生成。近年来,随着计算能力和数据规模的提升,LLMs取得了令人瞩目的进展,如GPT-4、BART、T5等,展现了强大的泛化能力和创造力。...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
盘古智能体(Pangu-Agent)的五个创新点
随着大规模语言模型(Large Language Model,LLM)的发展和应用,人工智能领域出现了一种新的研究方向,即基于LLM的自主智能体(LLM-based Autonomous Agent)。这种智能体利用LLM的强大的表示能力和生成能力,可以...
-
提高LLaMA-7B的数学推理能力
概述 这篇文章探讨了利用多视角微调方法提高数学推理的泛化能力。数学推理在相对较小的语言模型中仍然是一个挑战,许多现有方法倾向于依赖庞大但效率低下的大语言模型进行知识蒸馏。研究人员提出了一种避免过度依赖大语言模型的新方法,该方法通过有效利用具有不同注释格式...
-
字节具身智能新成果:用大规模视频数据训练GR-1,复杂任务轻松应对
最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练,然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征,进而让其轻松迁移到下游的任务上。 但相比自然语言数据,机器人数据是十分稀缺的。而且机器...
-
Gemini偷师文心一言?这一局,百度给中国大模型找回了面子!
大数据产业创新服务媒体 ——聚焦数据 · 改变商业 在模型表现方面,百度文心一言、阿里通义千问、华为盘古、腾讯混元、科大讯飞星火等,都在说超过ChatGPT-3.5,马上要追上GPT-4,甚至在某些领域的表现超越了GPT-4。...
-
什么?NeRF还能提升BEV泛化性能!首个BEV跨域开源代码并首次完成Sim2Real!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人总结 鸟瞰图(Bird eye's view, BEV 检测是一种通过融合多个环视摄像头来进行检测的方法。目前算法大部分算法都是在相同数据集训练并且评测,这导致了这些算法过...
-
处理不平衡数据的过采样技术对比总结
在不平衡数据上训练的分类算法往往导致预测质量差。模型严重偏向多数类,忽略了对许多用例至关重要的少数例子。这使得模型对于涉及罕见但高优先级事件的现实问题来说不切实际。 过采样提供了一种在模型训练开始之前重新平衡类的方法。通过复制少数类数据点,过采样平衡了训...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
机器学习模型性能的十个指标
尽管大模型非常强大, 但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比,解释现实中的物理现象,未必要用到量子力学。有些相对简单的问题,或许一个统计分布就足够了。对机器学习而言, 也不用言必深度学习与神经网络,关键在于明确问题的边界。 那么在...
-
Point Transformer V3:更简单、更快、更强!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Point Transformer V3: Simpler, Faster, Stronger 论文链接:https://arxiv.org/pdf/2312.10035.pdf 代码链接:h...
-
阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频
视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。 阿里巴巴、浙江大学和华中科技大学的研究人员...
-
whisper
Robust Speech Recognition via Large-Scale Weak Supervision 介绍 大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练(无监督的数据容易收集,所以通过大量无监督的学习可以训练出一个质量...
-
LLaMA系列模型
1.LLama 1.1 简介 Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA 2023年2月,Meta(原Facebook)推出了LLaMA大模型,使用了1.4...
-
AI图片编辑神器Anydoor:开启图片编辑的任意门 图片主体随意移动
随着数字时代图像编辑的飞速发展,来自香港大学、阿里巴巴和蚂蚁集团的新成果AnyDoor为图片编辑开辟了一扇全新的时代之门。 这是一项基于扩散技术的创新,具有将目标物体以和谐的方式传送到用户指定位置的神奇能力。与传统模型需要为每个物体调整参数不同,AnyDo...
-
【AI绘图 丨 Stable_diffusion 系列教程四】— Window 环境 | Stable Diffusion入门教程 及安装(全篇)
?腾小云导读 最近,AI图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。Stable Diffusion作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是AI图像生成领域的里...
-
被称为下一代风口的AIGC到底是什么?
近期,短视频平台上“AI绘画”的概念爆火,ChatGPT这一词条也刷爆了科技圈,而这些概念同属于一个领域——AIGC。2022年12月,Science杂志发布的2022年度科学十大突破中,AIGC入选。 那么,被称之为是AI下一代风口的AIGC到底是什么...
-
大语言模型训练数据常见的4种处理方法
本文分享自华为云社区《浅谈如何处理大语言模型训练数据之一常见的数据处理方法》,作者: 码上开花_Lancer。 大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然,截止到2023 年9 月为止,还...
-
深度学习之目标检测中的常用算法
随着深度学习的不断发展,深度卷积神经网络在目标检测领域中的应用愈加广泛,现已被应用于农业、交通和医学等众多领域。 与基于特征的传统手工方法相比,基于深度学习的目标检测方法可以学习低级和高级图像特征,有更好的检测精度和泛化能力。 什么是目标检测? 目标检测...
-
用生物脑机制启发持续学习,让智能系统适者生存,清华朱军等团队研究登Nature子刊封面
在开放、高动态和演化环境中的学习能力是生物智能的核心要素之一,也是人类以及大多数动物在「适者生存」的自然选择过程中形成的重要优势。目前传统机器学习范式是在静态和封闭的数据集上学习到一个模型,并假设其应用环境和之前训练数据的属性相同,因而无法适应动态开放环...
-
华人团队用大模型实现“读心术”:大脑活动直接变文字
NeurIPS收录的一项新研究,让大模型也学会“读心术”了! 通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。 而且整个过程不需要大型设备,只要一块特制的“头巾”就能实现。 这项成果名为DeWave,能在不通过侵入式设备和MRI的情况下...
-
OpenAI 的超级对齐团队在做什么
今年11月17日,OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman 在首席科学家伊利亚·苏茨克韦尔 (Ilya Sutskever 的政变下被罢免,但三天后复职。不到一个月,OpenAI 宣布一切恢复正常,而这一切导火索是团队内部的有...
-
华人团队用大模型实现“读心术”:大脑活动直接变文字 | NeurIPS 2023
NeurIPS收录的一项新研究,让大模型也学会“读心术”了! 通过学习脑电波数据,模型成功地把受试者的脑电图信号翻译成了文本。 而且整个过程不需要大型设备,只要一块特制的“头巾”就能实现。 这项成果名为DeWave,能在不通过侵入式设备和MRI的情况下解...
-
AIGC系列之:CLIP和OpenCLIP
目录 模型背景 CLIP模型介绍 相关资料 原理和方法 Image Encoder Text Encoder 对比学习 预训练 Zero Shot预测 优势和劣势 总结 OpenClip模型介绍 相关资料 原理 结果 用法...
-
用GPT-2监督GPT-4,防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉
就在刚刚,OpenAI首席科学家Ilya领衔的超级对齐团队,发布了成立以来的首篇论文! 团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。 未来超级AI系统对齐的一个核心挑战——人类需要监督比自己更聪明人工智能系统。 OpenAI的最新研究做了...