注意力第13页 - AIGC资讯

万字总结 | 2023大模型与自动驾驶论文走马观花

本文经自动驾驶之心公众号授权转载，转载请联系出处。 2023年已经匆匆过去大半，不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢？高阶ADAS方案量产了吗？新的文章和实验进展又是否顺利呢？今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...

生成式AI 2024-01-24 人工智能

1192阅读

迈向分割的大一统！OMG-Seg：一个模型搞定所有分割任务

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者个人思考图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一；大模型以及多模态的发展又带来了文本和图像统一，使得跨模态端到端成为可能；追求更高级、更全面...

生成式AI 2024-01-24 人工智能

1187阅读

GPT与文心一言大模型的比较与展望

目录前言 1 GPT和文心一言简介 2 GPT和文心一言的技术原理和基础架构 3 GPT和文心一言的模型规模和参数数量 4 GPT和文心一言的语言理解表现 5 展望GPT和文心一言未来的发展 5.1 技术改进 5.2 应用扩展结语...

生成式AI 2024-01-24 人工智能

1189阅读

2024年人工智能领域十大预测

2023年人工智能领域如果只能筛选一个关键词的话，恐怕非“大模型”莫属。大模型的发展在过去一年中，让各行各业发生了天翻地覆的变化，有企业因大模型而新生，有企业因大模型而消亡。企业的变迁跟技术迭代息息相关，而大模型就是新一代人工智能技术下的产物，大模型已经...

大数据 2024-01-23 人工智能

936阅读

扩散模型实战（十）：Stable Diffusion文本条件生成图像大模型

推荐阅读列表：扩散模型实战（一）：基本原理介绍扩散模型实战（二）：扩散模型的发展扩散模型实战（三）：扩散模型的应用扩散模型实战（四）：从零构建扩散模型扩散模型实战（五）：采样过程扩散模型实战（六）：Diffusers DDPM初探...

人工智能 2024-01-23 人工智能

1503阅读

一个开源的大型语言模型LLaMA论文简单解读，LLaMA: Open and Efficient Foundation Language Models

一个开源的大型语言模型LLaMA论文解读，LLaMA: Open and Efficient Foundation Language Models 返回论文和资料目录 1.导读 LLaMA 是 Meta AI 发布的包含 7...

生成式AI 2024-01-23 人工智能

989阅读

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

前言 Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中，无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中，与Civitai和Huggingface的文生图...

AIGC 2024-01-23 人工智能

1440阅读

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

基于LiDAR点云点3D Object Detection一哥是一个很经典的问题，学术界和工业界都提出了各种各样的模型来提高精度、速度和鲁棒性。但因为室外的复杂环境，所以室外点云的Object Detection的性能都还不是太好。而激光雷达点云本质上比...

人工智能 2024-01-23 人工智能

933阅读

大模型 Dalle2 学习三部曲（一）Latent Diffusion Models学习

引言 Diffusion model大获成功，但是它的短板也很明显，需要大量的计算资源，并且推理速度比较慢。如何才能提升Diffusion model的计算效率。业界有各种各样的改进，无疑Latent Diffusion Models（潜在扩散模...

生成式AI 2024-01-23 人工智能

1002阅读

扩散模型 - Stable Diffusion

4 Stable Diffusion Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务，包括：文字生成图像（text2img）、图像生成图像（img2img）...

人工智能 2024-01-23 人工智能

1054阅读

Mistral 7B 比Llama 2更好的开源大模型（三）

Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型，旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型（Llama 2），在推理、数学和代码生成方面也优于最好的...

人工智能 2024-01-23 人工智能

767阅读

爆肝整理全网最全最新AI生成算法【Stable Diffusion｜Diffusion Model｜DallE2｜CLIP｜VAE｜VQGAN】原理解析

1、生成模型首先回顾一下生成模型要解决的问题：如上图所示，给定两组数据z和x，其中z服从已知的简单先验分布π(z （通常是高斯分布），x服从复杂的分布p(x （即训练数据代表的分布），现在我们想要找到一个变换函数f，它能建立一种z到x的映射f:z...

生成式AI 2024-01-23 人工智能

1516阅读

LLaMa 原理+源码——拆解 (KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query Attention, SwiGLU)

原理 Vanilla Transformer 与 LLaMa 的区别 Embedding RMS Norm Rotary Positional Encodding SwiGLU Function KV-Cache Grouped Mult...

大数据 2024-01-22 人工智能

2206阅读

论文润色的修改方法 ai写作

大家好，今天来聊聊论文润色的修改方法 ai写作，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：论文润色的修改方法论文润色是提高论文质量、增强可读性和专业性的重要环节。以下七个方面的论文润色...

大数据 2024-01-22 人工智能

1035阅读

清华、小米、华为、 vivo、理想等多机构联合综述，首提个人LLM智能体、划分5级智能水平

嘿 Siri、你好小娜、小爱同学、小艺小艺、OK Google、小布小布…… 想必这些唤醒词中至少有一个曾被你的嘴发出并成功呼唤出了一个能给你导航、讲笑话、添加日程、设置闹钟、拨打电话的智能个人助理（IPA）。可以说 IPA 已经成了现代智能手机不可或缺...

AIGC 2024-01-22 人工智能

870阅读

aigc分享

AIGC技术分享 AIGC概述 AIGC的概念、应用场景和发展历程 https://36kr.com/p/2135547607286144 ppt https://36kr.com/p/2243237713604482 机器学习基础机器学...

人工智能 2024-01-22 人工智能

951阅读

视觉Mamba模型的Swin时刻，中国科学院、华为等推出VMamba

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。上周四， Vision Mamb...

人工智能 2024-01-22 人工智能

970阅读

AIGC的初识

?欢迎来到自然语言处理的世界 ?博客主页：卿云阁 ?欢迎关注?点赞?收藏⭐️留言? ?本文由卿云阁原创！ ?首发时间：?2023年12月26日? ✉️希望可以和大家一起完成进阶之路！ ?作者水平很有限，如果发现错误，请留言轰炸哦！万分...

人工智能 2024-01-22 人工智能

949阅读

AI生成动画视频网页版在线使用地址 Animate Anyone体验入口

Animate Anyone旨在通过驱动信号从静态图像生成角色视频。这是一个专为角色动画量身定制的新框架，利用了扩散模型的力量。如果您想将静态图像转换为逼真的角色视频，特别适用于时尚视频合成和人类舞蹈生成，那么Animate Anyone是您的理想选择。...

大数据 2024-01-22 人工智能

1180阅读

AIGC专栏2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例

AIGC专栏2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例学习前言源码下载地址网络构建一、什么是Stable Diffusion（SD）二、Stable Diffusion的组成三、生...

AIGC 2024-01-22 人工智能

967阅读

Agent触摸汉堡辨冷热，首次拥有类人感官！UCLA等发布3D多模态交互具身智能大模型

具身智能，是大模型未来应用的一个重要方向。现在，大模型加持下的智能体，能够参与3D环境，不仅有了听觉视觉，还有了触觉等多种感官能力。卧室里有什么物体，一眼辨认。听到门铃响了，LLM便会告诉你家里来客人了。大模型加持的NPC，在触摸桌子的香蕉后，...

大数据 2024-01-22 人工智能

1118阅读

AIGC内容分享(二十)：「AI视频生成」技术核心基础知识和模型应用

目录何为AI视频？一、技术发展概况二、代表模型及应用三、仍存在许多技术难点何为AI视频？「AI视频」通常指的是由人工智能（AI）技术生成或处理的视频。这可能包括使用深度学习、计算机视觉和其他相关技术来改善视频的质...

人工智能 2024-01-22 人工智能

2800阅读

AIGC中的视觉生成文献整理

文章目录文件夹文献总览图像生成技术视频生成技术 Video Generation with Text Condition Video Generation with other Conditions Video Editing 生成模...

大数据 2024-01-21 人工智能

1219阅读

AIGC的底层核心结构Transformer是如何彻底改变NLP游戏规则的？OJAC近屿智能带你一探究竟

Look！?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??‍? 没有Transformer，就没有NLP的突破，听起来有些夸张，但事实确实如此。什么是Transformer？Transforme...

生成式AI 2024-01-21 人工智能

921阅读

被OpenAI、Mistral AI带火的MoE是怎么回事？一文贯通专家混合架构部署

选自 HuggingFace 博客编译:赵阳专家混合（MoE）是 LLM 中常用的一种技术，旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务，每个子任务都由专门的迷你模型或「专家」处理。早些时候，有人爆料...

生成式AI 2024-01-21 人工智能

1837阅读

stable diffusion 人物高级提示词（四）朝向、画面范围、远近、焦距、机位、拍摄角度

一、朝向英文中文 front view 正面 Profile view / from side 侧面 half-front view 半正面 Back view 背面 (quarter front view:1.5 四分...

大数据 2024-01-21 人工智能

3322阅读

stable diffusion为什么能用于文本到图像的生成

推荐基于稳定扩散(stable diffusion AI 模型开发的自动纹理工具： DreamTexture.js自动纹理化开发包 - NSDT 稳定扩散获得如此多关注的原因如果你还没有看过它：稳定扩散是一个文本到图像的生成模型，你可以输入...

大数据 2024-01-20 人工智能

934阅读

[NLP]LLaMA与LLamMA2解读

摘要 Meta最近提出了LLaMA(开放和高效的基础语言模型模型参数包括从7B到65B等多个版本。最值得注意的是，LLaMA-13B的性能优于GPT-3，而体积却小了10倍以上，LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞...

人工智能 2024-01-20 人工智能

1691阅读

全网最全AI绘画Stable Diffusion关键技术解析

背景很多人觉得AI绘画不稳定，对于以后是否替代插画师，摄影工作者，设计师，表示存疑，作为AI从业者本文从AI绘画关键技术分析，明白以前生产者肯定会被淘汰，现在没有到达黄金期。技术一定会让更多人失业，而我们拥抱变化，增强自身。 AI绘画中Stab...

生成式AI 2024-01-20 人工智能

1004阅读

AIGC原理：扩散模型diffusion综述一：面向视觉计算的扩散模型研究进展

论文地址：State of the Art on Diffusion Models for Visual Computing ? 贴一幅SGM（Score-based Generative Model）的原因是宋飏博士将他2019年提出的SMLD模型和20...

AIGC 2024-01-20 人工智能

1950阅读

AIGC、ChatGPT、GPT系列？我的认识

AIGC（AI generated content），新型内容生产方式。AIGC是利用人工智能技术来生成内容，也就是，它可以用输入数据生成相同或不同类型的内容，比如输入文字、生成文字，输入文字、生成图像等。 GPT-3是生成型的预训练变换模型，是...

大数据 2024-01-20 人工智能

920阅读

ChatGPT 和文心一言哪个更好用？

ChatGPT 和文心一言哪个更好用？一：ChatGPT 更长的上下文：ChatGPT 可以处理更长的对话上下文。以前的模型限制了对话历史的长度，可能导致回答不完整或不连贯。ChatGPT 增加了对更长对话历史的理解能力，从而更好地回应前...

大数据 2024-01-20 人工智能

980阅读

世纪华通脑科学研究成果持续落地数药智能孤独症训练好帮手《AI星河》问世

继本月数药智能自主研发的专数达®《注意力强化训练软件》成功启动商业化进程之后，另一款孤独症康复训练软件《AI星河》也正式问世，进一步扩展了公司的产品线，以满足不断增长的市场需求和客户期望。孤独症康复训练软件《AI星河》情景模拟对话之餐厅孤独症康复训...

人工智能 2024-01-19 人工智能

869阅读

视觉Mamba来了：速度提升2.8倍，内存能省87%

号称「全面包围 Transformer」的 Mamba，推出不到两个月就有了高性能的视觉版。本周四，来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba（Vim）。论文地址：https://arxiv.or...

AIGC 2024-01-19 人工智能

840阅读

吞吐量提升5倍，联合设计后端系统和前端语言的LLM接口来了

大型语言模型 (LLM 越来越多地用于需要多个链式生成调用、高级 prompt 技术、控制流以及与外部环境交互的复杂任务。然而，用于编程和执行这些应用程序的现有高效系统存在着明显的缺陷。现在，开源社区的研究者们面向 LLM 提出了一种结构化生成语言（...

人工智能 2024-01-19 人工智能

876阅读

最近读的AIGC相关论文思路解读

AIGC之SD可控生成论文阅读记录提示：本博客是作者本人最近对AIGC领域相关论文调研后，临时记录所用，所有观点都是来自作者本人局限理解，以及个人思考，不代表对。如果你也正好看过相关文章，发现作者的想法和思路有问题，欢迎评论区留言指正！既然是论...

生成式AI 2024-01-19 人工智能

976阅读

AI最有可能对劳动力产生三种影响

“GenAI很可能是自农业和工业革命以来最重大的变革。” 好吧，请先别着急。埃森哲关于2024年劳动力的最新报告中的这一说法可能有点过头，因为自20世纪80年代初信息革命开始以来，我们一直听到关于工作的类似言论，但毫无疑问，AI将极大地改变和协助工作的...

AIGC 2024-01-19 人工智能

938阅读

ICLR'24无图新思路！LaneSegNet：基于车道分段感知的地图学习

写在前面&笔者的个人理解地图作为自动驾驶系统下游应用的关键信息，通常以车道或中心线表示。然而，现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系，即车道线绑定中心线。虽然在一个模型中...

人工智能 2024-01-19 人工智能

1167阅读

20%的杨幂+80%的泰勒长什么样？小红书风格化AI来了，可兼容SD和ControlNet

不得不说，现在拍写真真是“简单到放肆”了。真人不用出镜，不用费心凹姿势、搞发型，只需一张本人图像，等待几秒钟，就能获得7种完全不同风格: 仔细看，造型/pose全都给你整得明明白白，并且原图直出修也不用修了。这搁以前，不得在写真馆耗上至少整整一天，把...

生成式AI 2024-01-19 人工智能

846阅读

WidthFormer：实时自动驾驶！助力基于Transformer的BEV方案量产

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&行业理解基于BEV的transformer方案今年量产的主要方案，transformer结构和CNN相比，特征提取能力更强，但需要较多的算力，这也是为什么许多车上都是1~2颗orin...

人工智能 2024-01-19 人工智能

1214阅读

AI生成动画视频软件网页版免费在线使用地址 Animate Anyone下载入口

Animate Anyone是一个先进的角色动画视频生成工具，能够将静态图像转换为逼真的角色视频。它通过结合扩散模型和专门的技术，如ReferenceNet和高效的姿势指导器，为用户提供了在时尚视频合成和人类舞蹈生成等领域的强大功能。此外，Animate...

大数据 2024-01-19 人工智能

2533阅读

常见大模型对比[ChatGPT（智能聊天机器人）、Newbing(必应)、Bard（巴德）、讯飞星火认知大模型（SparkDesk）、ChatGLM-6B]

目录 1 引言 2 选取常见的大模型作为对比项 2.1什么是大模型 2.2 常见大模型 3 相关的大模型介绍和功能 3.1 ChatGPT 3.1.1 ChatGPT的介绍 3.1.2 ChatGPT的原理 3.1.3 ChatGPT的特...

人工智能 2024-01-19 人工智能

1338阅读

UniVG官网体验入口 AI多模态视频生成系统在线使用地址

UniVG是一款革命性的多模态视频生成系统，专门设计用于处理各种视频生成任务。它支持从文本和图像模态到视频的转换，通过采用多条件交叉注意力和偏置高斯噪声，UniVG实现了在视频生成领域的高自由度和低自由度的创新。该系统在公共学术基准MSR-VTT上实现了最...

人工智能 2024-01-19 人工智能

869阅读

免费商用 Meta 发布开源大语言模型 Llama 2

Meta 和微软深度合作，正式推出下一代开源大语言模型 Llama 2，并宣布免费提供给研究和商业使用。 Llama 2 论文地址：Llama 2: Open Foundation and Fine-Tuned Chat Models 据介...

大数据 2024-01-19 人工智能

1068阅读

AIGC学习笔记（1）——AI大模型提示词工程师

文章目录 AI大模型提示词工程师 1 Prompt工程之原理 1.1 AIGC的发展和产业前景前言 AIGC时代的到来发展趋势和应用展望 1.2 大模型的类型和特点大模型的对比上手特点 1.3 大模型技术原理和发展成语...

生成式AI 2024-01-18 人工智能

1785阅读

AIGC系列之：ControlNet原理及论文解读

《Adding Conditional Control to Text-to-Image Diffusion Models》目录 1.背景介绍 2.原理详解 2.1 Controlnet 2.2 用于Stable Diffusion的Contr...

人工智能 2024-01-18 人工智能

1496阅读

20%的杨幂+80%的泰勒长什么样？小红书风格化AI来了，可兼容SD和ControlNet

不得不说，现在拍写真真是“简单到放肆”了。真人不用出镜，不用费心凹姿势、搞发型，只需一张本人图像，等待几秒钟，就能获得7种完全不同风格：仔细看，造型/pose全都给你整得明明白白，并且原图直出修也不用修了。这搁以前，不得在写真馆耗上至少整整一天，...

生成式AI 2024-01-18 人工智能

875阅读

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

大语言模型序列长度的限制，极大地制约了其在人工智能领域的应用，比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加...

人工智能 2024-01-18 人工智能

962阅读

2023年的深度学习入门指南(24) - 处理音频的大模型 OpenAI Whisper

2023年的深度学习入门指南(24 - 处理音频的大模型 OpenAI Whisper 在这一讲之前，我们所用的大模型都是针对文本的。这一讲我们增加一个新的领域，即音频。我们将介绍OpenAI的Whisper模型，它是一个处理音频的大模型。 Wh...

生成式AI 2024-01-18 人工智能

1611阅读

DiffIR: Efficient Diffusion Model for Image Restoration 利用扩散模型进行图像重建

一、主要贡献 •我们提出了DiffIR，一种强大、简单、高效的基于扩散模型的的图像修复方法。与图像生成不同的是，输入图像的大部分像素都是给定的。因此，我们利用DM强大的映射能力来估计一个紧凑的IPR（IR Prior Representation，图像修...

人工智能 2024-01-18 人工智能

1032阅读