-
Stable Diffusion 基本原理
1 Diffusion Model的运作过程 输入一张和我们所需结果图尺寸一致的噪声图像,通过Denoise模块逐步减少noise,最终生成我们需要的效果图。 图中Denoise模块虽然是同一个,但是它会根据不同step的输入图像和代表noise严重程...
-
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
背景 大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。 尽管基于人类反馈的强化学习(RLHF)提供了...
-
斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了
最新一代语言模型(尤其是 GPT-4、PaLM 和 LLaMa)已经成功拓展了自然语言处理和生成的边界。这些大规模模型可以解决许多不同任务,从写莎士比亚风格的十四行诗到总结复杂的医疗报告和解决竞赛级的编程问题。尽管这些模型可以解决多种多样的问题,但它们并...
-
抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge
现有的深度边缘检测网络通常基于包含了上下采样模块的编码器 - 解码器架构,以更好的提取多层次的特征,但这也限制了网络输出既准又细的边缘检测结果。 针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。 论文题目:DiffusionEd...
-
三个Agent顶个GPT-4,基于开源小模型的那种
真·“三个臭皮匠,顶个诸葛亮”—— 基于开源小模型的三个Agent协作,比肩GPT-4的工具调用效果! 话不多说,直接来看两个系统执行记录。 用户表示自己是一个音乐爱好者,想探索不同的音乐流派以及音乐家。于是指定模型使用Deezer和Shazam的API...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
7B开源数学模型干翻千亿GPT-4,中国团队出品
7B开源模型,数学能力超过了千亿规模的GPT-4! 它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。 无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。 在开源模型中,它第一个在该数据集上...
-
【读点论文】A Survey on Generative Diffusion Model,AIGC时代的新宠儿,从原理推导到工程应用,在视觉,自然语言,语音等领域大展拳脚
A Survey on Generative Diffusion Model Abstract 由于深度潜在表示,深度学习在生成任务中显示出良好的潜力。生成模型是一类可以根据某些隐含参数随机生成观测值的模型。近年来,扩散模型以其强大的生成能力成...
-
RMBG-1.4官网体验入口 AI高效准确分割图像前后背景免费在线使用地址
RMBG-1.4是一个用于图像背景去除的Pytorch模型,由BRIA AI开发。经过专业级数据集的训练,能够高效准确地分割前景和背景。该模型的精度、效率和通用性目前可与领先的开源模型媲美,适用于支持企业大规模内容创作的商业使用案例。由于使用了合法许可的训...
-
下一代Edge AI的应用初探
如您所见,AI已不再只是科幻电影的经典主题,它正在以惊人的速度被应用到我们日常生活中的方方面面,并从个人关系到工作项目上,逐渐改变着我们的想法或行为。 其中,一个最为典型的领域当属NextGEN Edge AI(下一代边缘人工智能)应用。它能够通过诸如...
-
大语言模型之LlaMA系列- LlaMA 2及LLaMA2_chat(上)
LlaMA 2是一个经过预训练与微调的基于自回归的transformer的LLMs,参数从7B至70B。同期推出的Llama 2-Chat是Llama 2专门为对话领域微调的模型。 在许多开放的基准测试中Llama 2-Chat优于其他开源的聊天模型,此外...
-
斯奇拉姆排序 - 基于公平性的排序学习
在 2023 年结束的国际学术会议 AIBT 2023 上,Ratidar Technologies LLC 宣读了一篇基于公平性的排序学习算法,并且获得了该会议的最佳论文报告奖。该算法的名字是斯奇拉姆排序 (Skellam Rank ,充分利用了统计学...
-
实际案例:AIGC在艺术创作中的作用
1.背景介绍 1. 背景介绍 随着人工智能技术的不断发展,AI生成模型已经成为艺术创作的一种重要手段。在这篇文章中,我们将探讨AIGC(AI-Generated Content 在艺术创作中的作用,并分析其在艺术领域的应用前景。 2. 核...
-
【AIGC扫盲】人工智能大模型快速入门
人工智能大模型的技术框架主要有以下几种: TensorFlow:这是一个由Google Brain团队开发的开源库,用于进行高性能数值计算,特别是用于训练和运行深度学习模型。TensorFlow提供了一种称为计算图的编程模型,它允许用户定义复杂的计算...
-
AIGC知识速递——Google的Bert模型是如何fine-tuning的?
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 选择合适的预训练模型: 从预训练的BERT模型开始,例如Google 提供的BERT-base 或 BERT-large。这些模型已经...
-
探索AI绘画:如何让算法创作美画
1.背景介绍 随着人工智能技术的不断发展,我们已经看到了许多令人惊叹的应用,例如自动驾驶、语音助手、图像识别等。在艺术领域,人工智能也开始发挥着重要作用,尤其是在绘画领域。AI绘画是一种通过算法和机器学习技术创作艺术作品的方法,它旨在让计算机或机...
-
使用人工智能助手 Github Copilot 进行编程 02
本章涵盖了 在您的系统上设置 Python、VS Code 和 Copilot 引⼊ Copilot 设计流程 Copilot 的价值在于基本的数据处理任务 本章将帮助您在自己的计算机上开始使用 Copilot,并熟悉与其的交互方式。在设置好Copi...
-
马斯克点赞SpaceX天才实习生:课余用AI破解上古卷轴,获Nature头版关注
Nature官网头版,最新刊发的是最新考古成果,轰动全球的成果—— 时隔2000年,上古卷轴(赫库兰尼姆卷轴)的神秘面纱,终于被揭开! 而且,这项研究还是AI完成的,背后的背后则是一名年仅21岁的天才少年,马斯克点赞的SpaceX实习生。 不同于一般的...
-
深入探索 Stable Diffusion:AI图像创新的新纪元
深入探索 Stable Diffusion:AI图像创新的新纪元 介绍 Stable Diffusion 的核心功能和应用场景 Stable Diffusion 架构解析 深入 Stable Diffusion 的关键组件 变分自编码器(VA...
-
通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5
赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。 新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medi...
-
MedicalGPT:基于LLaMA-13B的中英医疗问答模型(LoRA)、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。
项目设计集合(人工智能方向):助力新人快速实战掌握技能、自主完成项目设计升级,提升自身的硬实力(不仅限NLP、知识图谱、计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户更好利用 CSDN 平台,自主完成项目设计升级,提升自身...
-
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
AI智能体,是目前学界炙手可热的前沿话题,被众多专家视为大模型发展的下一个方向。 然而,最近复旦、俄亥俄州立大学、宾夕法尼亚州立大学、Meta AI的研究者们发现,AI智能体在现实世界的规划能力还很差。 他们对GPT-4 Turbo、Gemini Pro...
-
三篇论文解决「语义分割的优化和评估」难题!鲁汶/清华/牛津等联合提出全新方法
优化语义分割模型常用的损失有Soft Jaccard损失,Soft Dice损失和Soft Tversky损失,但它们都和软标签不兼容,所以无法支持一些重要的训练技术(例如标签平滑,知识蒸馏,半监督学习,多标注员等)。 另一方面,语义分割常用的评价指标...
-
AIGC在物联网与智能制造中的实践
1.背景介绍 1. 背景介绍 物联网和智能制造是当今最热门的技术领域之一,它们在各种行业中发挥着重要作用。随着计算机视觉、自然语言处理和机器学习等技术的发展,人工智能(AIGC 在物联网和智能制造领域的应用也日益增多。本文将探讨AIGC在物联...
-
挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 今天和大家探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Ad...
-
从0开始用 PyTorch 构建完整的 NeRF
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在解释代码之前,首先对NeRF(神经辐射场)的原理与含义进行简单回顾。而NeRF论文中是这样解释NeRF算法流程的: “我们提出了一个当前最优的方法,应用于复杂场景下合成新视图的任务,具体的实现原理是...
-
AIGC实战——归一化流模型(Normalizing Flow Model)
AIGC实战——归一化流模型 0. 前言 1. 归一化流模型 1.1 归一化流模型基本原理 1.2 变量变换 1.3 雅可比行列式 1.4 变量变换方程 2. RealNVP 2.1 Two Moons 数据集 2.2 耦合层 2.3 通...
-
面向AI工程的五大JavaScript工具
令许多人惊讶的是,一向在Web开发领域中大放异彩的JavaScript在开发使用大语言模型(LLM 的应用程序方面同样大有价值。我们在本文中将介绍面向AI工程的五大工具,并为希望将LLM纳入其项目中的开发人员介绍一些必要的资源。 AI工程市场在2023...
-
【AIGC-图片生成视频系列-6】SSR-Encoder:用于主题驱动生成的通用编码器
目录 一. 贡献概述 二. 方法详解 a 训练阶段 b 推理生成阶段: 三. 综合结果 四. 注意力可视化 五. 选择性主题驱动图像生成 六. 人体图像生成 七. 可推广到视频生成模型 八. 论文 九. 个人思考 稳定扩散(S...
-
爆火的AI博主,是“摇钱树”还是“坑”?(附实测教程)
这段时间,平均一周就有一位虚拟博主火爆出圈。 自此前Instagram博主Emily靠堪称完美的颜值在Ins4周内涨粉超20万之后,最近,外网又有一位叫Lexi Love的AI博主火了。 Lexi Love的Ins账号数据 她的角色设定依旧是模特,背后的...
-
香港最大AI诈骗案:Deepfake换脸「英国CFO」,直接骗走公司2亿港币
【新智元导读】香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才发现被骗了。 这几天,古老的AI应用——「AI换脸」多次破圈,屡屡登上热搜。 先是网上充斥的大量泰勒斯威夫特的「AI艳...
-
秒速出图!体验 TensorRT 加速 Stable Diffusion 图像创作
TensorRT 如何加速 Stable Diffusion? 生成式 AI 图像内容生成技术近年来发展迅速,可以根据人类语言描述生成图片,在时尚、建筑、动漫、广告、游戏等领域有着广泛应用。 Stable Diffusion WebUI 是 Githu...
-
GPT-SoVITS官网体验入口 AI文本生成合成转换语音在线免费使用地址
GPT-SoVITS是一个强大的零样本语音转换和文本到语音WebUI。它具有零样本TTS、少样本TTS、跨语言支持和WebUI工具等功能。该产品支持英语、日语和中文,提供了集成工具,包括语音伴奏分离、自动训练集分割、中文ASR和文本标注,帮助初学者创建训练...
-
罕见!苹果开源图片编辑神器MGIE,要上iPhone?
拍张照片,输入文字指令,手机就开始自动修图? 这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。 把背景中的人移除 在桌子上添加披萨 最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLL...
-
两亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」
最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。 这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。 简而言之,...
-
新型IT运维管理,基础设施和数据两手都要硬
AI大模型时代,数据赋予IT人“新使命” 当下IT人在企业中扮演着运营支撑的角色。说到运维管理,相信每人都是一把辛酸泪,每天承担着繁琐、高负荷且又高风险的运维工作,但在业务规划和职业发展时又成为了“透明人”。业内有句调侃的话:“只花钱的人,不配拥有发...
-
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal
就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法—— 直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。 图片 论文地址:https://arxiv.org/abs/2401.0188...
-
打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉
GPT-4变懒的问题,又有新进展。 就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了! 图片 关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务: 完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)
摘要 ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我...
-
美国博士小哥打败女友的AI男友!7页论文让LLM降智,训出「负分男友」成功挽回
女友爱上AI了,怎么破? 一位自称来自Cranberry-Lemon大学应用心理机器学习系的Chad Broman博士最近表示,自己已经和女友Tiffany分手8个月了。 虽然很享受单身的自由,但身边没有女友的日子,连玩快艇都少了很多滋味。 他一直想找机...
-
香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币
这几天,古老的AI应用——「AI换脸」多次破圈,屡屡登上热搜。 先是网上充斥的大量泰勒斯威夫特的「AI艳照」,逼得X(原推特)只能直接屏蔽了所有有关「Tylor Swift」的搜索。 而今天香港警方向社会公布了一起更离谱的诈骗案件: 一家英国跨国企业的中...
-
大模型系列——解读RAG
RAG 是2023年最流行的基于 LLM 的应用系统架构。有许多产品几乎完全建立在 RAG 之上,覆盖了结合网络搜索引擎和 LLM 的问答服务,到成千上万个数据聊天的应用程序。很多人将RAG和Agent 作为大模型应用的两种主流架构,但什么是RAG呢?R...
-
iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩
几天前,库克在苹果电话会上证实,「今年晚些时候会发布生成式AI」。 ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。 6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布...
-
比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上
论文地址: https://arxiv.org/abs/2312.16171 Github地址: https://github.com/VILA-Lab/ATLAS 论文标题:Principled Instructions Are All You...
-
ChatLaw:基于LLaMA微调的法律大模型
文章目录 动机 数据组成 模型框架 模型评估 北大团队发布首个的中文法律大模型落地产品ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。 github地址:https://g...
-
[AIGC 大数据基础] 浅谈hdfs
HDFS介绍 什么是HDFS? HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统的一部分,是一个分布式文件系统。它被设计用于存储和处理大规模数据集,并且能够容错、高可靠和高性能地处理文...
-
什么是网络人工智能?
如今,越来越多的企业正在利用人工智能(AI 和网络之间的协同作用。随着用户设备及其生成的数据的激增,企业越来越依赖人工智能来帮助管理庞大的网络基础设施。 到2024年,60%的企业将拥有采用人工智能的基础设施,这将需要更广泛的自动化和预测分析,用于网络...
-
苹果研究团队揭示WRAP技术:用合成数据进行预训练大模型 成本低准确性高
近几个月来,大型语言模型(LLMs)在人工智能社区中引起了极大的关注和流行。这些模型在文本摘要、问答、代码完成、内容生成等任务中展示出了强大的能力。 然而,LLMs通常在不充分的网络抓取数据上进行训练。这些数据通常杂乱、无结构,表达不清晰。按照现有的扩展原...
-
如何使用单个指令微调GPT-3.5或Llama 2
由于在各种任务中的通用性,像ChatGPT和Llama 2这样的大型语言模型(LLM 广受欢迎。然而,有些应用程序需要使用自定义数据对这些模型进行微调,以获得更好的性能。 不幸的是,针对特定应用程序对大型语言模型(LLM 进行微调通常是复杂和令人沮丧的...
-
Segment Anything论文翻译,SAM模型,SAM论文,SAM论文翻译;一个用于图像分割的新任务、模型和数据集;SA-1B数据集
【论文翻译】- Segment Anything / Model / SAM论文 论文链接: https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...