-
【AIGC】因果注意力(Causal Attention)原理及其代码实现
概述 因果注意力(Causal Attention)是一种自注意力机制,广泛应用于自回归模型中,尤其是在自然语言处理和时间序列预测等任务中。它的核心思想是在生成每个时间步的输出时,只关注当前时间步及之前的时间步,确保生成过程的因果性,从而避免模型在预测...
-
【AI绘画】Midjourney光影控制详解
博客主页: [小ᶻZ࿆] 本文专栏: AI绘画 | Midjourney 文章目录 💯前言 💯为什么要学习光影控制 光影控制的作用 💯强化主题 hard lighting(硬光 ) soft lighting(...
-
【大模型】llama系列模型基础
前言:llama基于transformer架构,与GPT相似,只用了transformer的解码器部分。本文主要是关于llama,llama2和llama3的结构解读。 目录 1. llama 1.1 整体结构 1.2 RoPE 1...
-
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
提示工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模型们,GPT-4o在无限次PUA后,已经被原地逼疯!相比之下,Claude坚决拒绝PUA,是个大聪明。而谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储...
-
ACL 2024 | CoCA:自注意力的缺陷与改进
近年来,在大语言模型(LLM)的反复刷屏过程中,作为其内核的 Transformer 始终是绝对的主角。然而,随着业务落地的诉求逐渐强烈,有些原本不被过多关注的特性,也开始成为焦点。例如:在 Transformer 诞生之初,被视为天然具备的长度外推能力,...
-
【AIGC从零开始】AIGC小白学习心得第二讲:3D生成模型
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、Stable Video 3D(sv3d) 二、TripoSR 三、LRM系列 1.LRM 2.GS-LRM 3.OpenLRM 四、CRM 五...
-
【英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强】
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 系列文章目录 前言 最近,英伟达研究表明,结构化权重剪枝与知识蒸馏相结...
-
混合专家模型(MoE)入门
模型规模是提升LLM大语言模型性能的关键因素,但也会增加计算成本。Mixture of Experts (MoE 架构通过分布式专家层和动态门控机制,有效降低了计算资源,使模型能够在扩展参数规模的同时保持高效的运行。 Mixtral of Exper...
-
Llama-factory的yaml配置参数--学习记录
最近llama-factory的配置参数有很多不懂的地方,整理了一些但也有可能有错,仅供大家参考。 # 可选参数 # 模型和适配器相关 --adapter_name_or_path # 描述: 适配器的名称或路径。 --adapter_folder...
-
stable Diffusion 网页用户界面 github
稳定的 Diffusion 网页用户界面 使用 Gradio 库实现的稳定扩散的 Web 界面。 特征 带有图片的详细功能展示: 原始的 txt2img 和 img2img 模式 一键安装并运行脚本(但您仍然必须安装 pyth...
-
使用PyTorch从零构建Llama 3
我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后,有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了,本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。 [图1]:Llama...
-
如何在复杂对话中准确识别每位说话人的声音?OpenAI Whisper系统带来新突破,尽管在面对重叠声音时仍需进一步优化。
在复杂对话中准确识别每位说话人的声音是一个挑战,尤其是在面对重叠声音的情况下。OpenAI的Whisper系统虽然在自动语音识别(ASR)方面取得了显著进展,但在处理重叠声音时仍需进一步优化。 Whisper系统通过利用大规模预训练模型和弱监督学习来提取...
-
Llama中的曼巴:通过推测解码加速推理
大型语言模型(LLMs)已经彻底改变了自然语言处理领域,但在处理非常长的序列时面临重大挑战。主要问题来自于Transformer架构的计算复杂度随序列长度呈二次方增长以及其巨大的键值(KV)缓存需求。这些限制严重影响了模型的效率,特别是在推理过程中,使生成...
-
LongLLaMA:扩展上下文处理能力的大型语言模型
LongLLaMA:扩展上下文处理能力的大型语言模型 long_llamaLongLLaMA is a large language model capable of handling long contexts. It is based on Ope...
-
全网最全,保姆级Stable Diffusion系列入门使用教程(图生图、LoRA、提示词权重),建议收藏!
大家好,我是画画的小强 今天将给大家讲解 Stable Diffusion 入门使用教程的 图生图、LoRA和提示词权重的教程,如果你还没有使用或者安装SD,那么可以看看我的往期入门教程AI绘画『Stable Diffusion』面向小白的免费AI绘画工...
-
DIFFUSION 系列笔记| Latent Diffusion Model、Stable Diffusion基础概念、数学原理、代码分析、案例展示
目录 Latent Diffusion Model LDM 主要思想 LDM使用示例 LDM Pipeline LDM 中的 UNET 准备时间步 time steps 预处理阶段 pre-process 下采样过程 down sampl...
-
普通人如何零基础进入AIGC大模型人形机器人赛道,自学攻略,应用转化项目案例
要进入人形机器人赛道,普通人需要了解和掌握一系列的技能和知识,包括机器人设计、编程、电子工程、机械工程以及团队合作和项目管理。以下是一个详细的指南,帮助你从零基础开始,逐步进入这个充满挑战和机遇的领域。 基础教育和技能培养 进入人形机器人领域,基础...
-
Stable-Diffusion1.5
SD1.5权重:https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main SDXL权重:https://huggingface.co/stabilityai/stable-diffus...
-
AIGC从入门到实战:AIGC 在传媒行业的创新场景—人机协同创作,推动传媒向智媒转变
AIGC从入门到实战:AIGC 在传媒行业的创新场景—人机协同创作,推动传媒向智媒转变 作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 关键词: 人工智能生成内容(AIGC)、传媒行业...
-
一文看懂llama2(原理&模型&训练)
一文看懂Llama2(原理&模型&训练) 一、引言 Llama2是Meta(原Facebook AI)最新开源的大型语言模型,它基于Transformer架构进行了多项优化和改进,旨在提供更高效、更准确的自然语言处理能力。Llama2...
-
AIGC-视频生成-AnimateDiff-基于T2I模型的动态生成论文详细解读
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 代码:https://github.com/guoyww/a...
-
论文分析|高效长文本生成的技术与应用
Preface 前言 目前大模型公司很多在追求长文a本, 对算力需求极大,如何能够现实地处理该问题很重要。特别是随着Transformer模型尺寸和复杂性的增长,它们在训练期间的内存需求呈指数级增加。 语言模型训练的瓶颈在于显存占用非常大,这需要创...
-
ViT篇外:NVIDIA Llama-3.1-Minitron 4B
相关阅读: ViT:3 Compact Architecture MobileLLM:“苗条”的模型比较好! 大家也许会很好奇为什么在ViT章节插入了NVIDIA Llama-3.1-Minitron 4B,ViT因为应用场景的特殊性所以都寄...
-
VAD-LLaMA:基于大语言模型的视频异常检测和解释(Video Anomaly Detection and Explanation via Large Language Models)
文章目录 问题 方法 整体架构 VE and Feature Extraction Long-Term Context (LTC Module Feature Adaptor LLaMA 训练 流程图 第一阶段:训练VADor 第二阶段...
-
AIGC大模型实践总结(非常详细)零基础入门到精通,收藏这一篇就够了
大模型浪潮席卷全球,在各行各业中的重要性愈发凸显,呈现出一股不可逆转的发展趋势。这一年本人所在业产技也在这一过程中持续探索和尝试AIGC。本文一方面是对AIGC实践的总结回顾,同时也是本人学习实践AIGC过程中一些笔记、心得分享。因个人能力限制,文章中可能...
-
LORA模型在Stable Diffusion中的注意力机制优化
LORA模型在Stable Diffusion中的注意力机制优化 引言 1.1 Stable Diffusion在生成模型领域的地位和作用 1.2 介绍LORA模型及其在微调预训练模型时的效率和灵活性 1.3 强调注意力机制在LORA模型优化...
-
LLaMA3技术报告解读
前言 LLaMA系列算法是Meta公司发布的开源大模型。近期Meta公司又发布了LLaMA 3.1系列的模型,在这一系列模型中参数量最大的高达405B,上下文窗口多达128K个token。同时对模型进行了广泛的实证评估,发现在很多任务中,LLaMA 3...
-
关掉MidJourney! AI绘画Stable Diffusion开源模型新王 FLUX.1整合包来了!
各位小伙伴们,今天我要给大家带来一个超级重磅的消息!Stable Diffusion的创始团队又双叒叕搞事情了,推出了一个全新的开源AI图像生成模型——FLUX.1!这不仅是一个技术上的突破,更是为创意工作者们带来了无限的可能性。话不多说,赶紧来看看吧!...
-
一文看懂llama2 (原理&模型&训练)
LLaMA2是一种基于Transformer架构的先进语言模型,广泛应用于自然语言处理(NLP)任务,如文本生成、机器翻译和问答系统等。本文将从其核心原理、模型结构以及训练方法三个方面进行详细探讨。 一、核心原理 LLaMA2的核心原理是基于自注意力机...
-
3秒让AI变乖,生成风险图片减少30%!复旦新研究拿下扩散模型概念移除新SOTA|ECCV 2024
让AI绘画模型变“乖”,现在仅需3秒调整模型参数。 效果be like:生成的风险图片比以往最佳方法减少30%! 像这样,在充分移除梵高绘画风格的同时,对非目标艺术风格几乎没有影响。 在移除裸露内容上,效果达到“只穿衣服,不改结构”。 这就是复旦大学提...
-
不同类型游戏安全风险对抗概览(下)| FPS以及小游戏等外挂问题,一文读懂!
FPS 游戏安全问题 由于射击类游戏本身需要大量数值计算,游戏方会将部分计算存放于本地客户端,而这为外挂攻击者提供了攻击的温床。可以说,射击类游戏是所有游戏中被外挂攻击最为频繁的游戏类型。 根据网易易盾游戏安全部门检测数据显示,FPS 游戏网易...
-
CVPR2024|Diffusion模型轻量化与计算效率优化
前言 做算法应该都有顶会梦吧,发不了顶会只能刷一刷顶会了哈哈,向顶会大佬学习 扩散模型的训练和推理都需要巨大的计算成本(显卡不足做DDPM的下游任务实在是太难受了),所以本文整理汇总了部分CVPR2024中关于扩散模型的轻量化与计算效率优化 的相关论文...
-
AI风险管理新利器:SAIF CHECK利用Meta Llama 3保障合规与安全
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同...
-
大模型算法必学,万字长文Llama-1到Llama-3详细拆解
导读 Llama系列的大语言模型在多个自然语言处理任务中表现出色,包括文本分类、情感分析和生成式问答,本质是使用 Transformer 架构并结合预训练和微调技术。本文详细讲解Llama-1到Llama-3,值得读者点赞收藏! 引言 在AI领域...
-
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【新智元导读】就在刚刚,Meta最新发布的Transfusion,能够训练生成文本和图像的统一模型了!完美融合Transformer和扩散领域之后,语言模型和图像大一统,又近了一步。也就是说,真正的多模态AI模型,可能很快就要来了! Transformer...
-
Llama改进之——分组查询注意力
引言 今天介绍LLAMA2模型引入的关于注意力的改进——分组查询注意力(Grouped-query attention,GQA 1。 Transformer中的多头注意力在解码阶段来说是一个性能瓶颈。多查询注意力2通过共享单个key和value头,同...
-
通过剪枝与知识蒸馏优化大型语言模型:NVIDIA在Llama 3.1模型上的实践与创新
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同...
-
非Transformer时代到来!全新无注意力模式超越Llama传奇
来源 | 机器之心 ID | almosthuman2014 Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。 此后,采用 Mamba 架构的模型...
-
如何高效微调多模态Transformers模型:从入门到实践指南
多模态大模型(Multimodal Large Models)是能够处理多种类型数据(如文本、图像、音频等)的机器学习模型。transformers 是当前多模态大模型中的一种重要架构。 目录 Transformers简介 多模态Transforme...
-
【多模态大模型】LLaMA in arXiv 2023
一、引言 论文: LLaMA: Open and Efficient Foundation Language Models作者: Meta AI代码: LLaMA特点: 该方法在Transformer的基础上增加了Pre-normalization (...
-
【Stable Diffusion】最强模型——Flux推荐和下载
前言 Flux是一个由黑森林实验室(Black Forest Lab)推出的模型,开发人员由Stable Diffusion前离职人员构成。做到了很多SD和MJ都做不到或者很难做到的事情。其特点主要如下: 参数规模大****:官方号称模型有12B...
-
一文看懂llama2(原理&模型&训练)
Llama2(大型语言模型2) Llama2(大型语言模型2)主要基于近年来火爆的Transformer架构。下面是Llama2的几个核心原理: Transformer 架构: Llama2采用了Transformer网络,它通过自注意力机制来处理...
-
stable diffusion--小白学习步骤
1.看一下Unet网络的讲解_哔哩哔哩_bilibili,了解Unet网络 2.看一下【生成式AI】Diffusion Model 原理剖析 (1/4 _哔哩哔哩_bilibili,起码要看前3/6个视频 3.看一下超详细的扩散模型(Diffusion...
-
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions
Paper name MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Paper Reading Note Paper URL: ht...
-
江大白 | 视觉Transformer与Mamba的创新改进,完美融合(附论文及源码)
本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。 原文链接:视觉Transformer与Mamba的创新改进,完美融合(附论文及源码) 以下文章来源于微信公众号:AI视界引擎 作者:AI引擎 链接:https://mp.weixin.q...
-
Positional Encoding | 位置编码【详解】
文章目录 1、位置编码的2种方案 2、位置编码 3、公式详解 : 绝对位置 、 相对位置 4、代码 4.1 代码1 4.2 代码2 1、位置编码的2种方案 transformer的作者刚开始说固定的位置编码和可学习的位置...
-
大白话讲透AI画图:Stable Diffusion
Stable Diffusion 是一种从文本生成 AI 图像的潜空间扩散模型,它不是在高维图像空间中操作,而是首先将图像压缩到潜在空间(latent space)中。 我们将深入了解它的工作机制。知道工作机制有什么用?除了其本身就是个非常值得了解的内容...
-
AI加持、男人的“美图秀秀”,登顶iOS总榜
上周六,一款名为 GigaBody: AI Muscle filter 的产品,超过暑期大热门铁路12306,一举登上中国区 iOS 下载榜 Top1。这款产品被大家戏称为“男人的’美图秀秀’”,主要能实现一键加肌肉的身材美化,所谓“小手一点,少练10年”...
-
AI模仿人类已经out了,现在人类模仿AI才是流量密码
人类对AI的应用已然到next level了。 前不久用AI修复老照片火爆全网,许多网友用可灵、即梦等AI工具让老照片重新“动”了起来,跨越时空的影像令人动容。 抖音#AI修复老照片#话题下的视频播放量超1.3亿,我们看到过去的黑白照片变得栩栩如生,那些美...
-
人类还在怕鬼,AI已经开始害怕自己了。
昨天中元节,我本来一直打算做一个关于中式恐怖的视频,来呼应一下这个节日氛围。 带着这个想法,我开始在网上搜寻灵感。 然而,我在B站上看到的一个视频彻底改变了我的计划。 这个视频,是这样的,来自B站UP主@明天的心声-,名字叫做:《随手拍的一张医院走廊的照片...