-
深度学习在时间序列预测的总结和未来方向分析
2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transf...
-
谷歌AI推出ScreenAI:用于UI和信息图解读的视觉语言模型
划重点: ⭐️ Google AI 团队提出了 ScreenAI,这是一个视觉语言模型,可以全面理解 UI 和信息图。 ⭐️ ScreenAI 在多个任务上表现出色,包括图形问答(QA),元素注释,摘要生成等。 ⭐️ 该团队发布了三个新数据集,为未来研究提...
-
创作活动(九十三)———ChatGPT 和文心一言哪个更好用?
#ChatGPT 和文心一言哪个更好用?# 根据提供的搜索结果,ChatGPT和文心一言各有特点和优势,选择哪一个更好用取决于具体的应用场景和个人需求。以下是两者的对比: ChatGPT: 适用场景:适合需要生成大量知识性文本的任务,如问答系统、知识图...
-
逆天了!UniVision:BEV检测和Occ联合统一框架,双任务SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
详解面向 Java 开发人员的机器学习案例
译者 | 陈峻 审校 | 重楼 自去年以来,诸如ChatGPT 和 Bard之类的大语言模型已将机器学习提升到了一种现象级的地位。开发人员使用它们在辅助编程方面不断探索了从图像生成到疾病检测等领域的应用案例。 鉴于全球各大科技公司都在加大针对机器学习的...
-
英伟达NeMo框架在AI领域的综合应用与优势总结
一、NeMo 框架介绍 NVIDIA NeMo 是基于 PyTorch 和 PyTorch Lightning 的一个开源训练框架,源代码完全公开在 GitHub 上。NeMo 的主要目标是使 AI 开发者能够快速构建对话式 AI 模型并开发相关应用。...
-
基于LLaMA-Factory的微调记录
文章目录 数据模型准备 基于网页的简单微调 基于网页的简单评测 基于网页的简单聊天 基于网页的模型合并 微调问题测试与解决 问题测试 模板修改 强化训练 持续训练 单数据集训练 微调总结 LLaMA-Factory是一个非常好用的无代...
-
全网最全Stable Diffusion原理快速上手,模型结构、关键组件、训练预测方式!!!!
手把手教你入门绘图超强的AI绘画程序,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包(文末可获取) 【AIGC】Stable Diffusion的建模思想、训练预测方式快速 在这篇博客中,将会用机器学习入门级描...
-
两步生成25帧高质量动画,计算为SVD的8% | 在线可玩
耗费的计算资源仅为传统Stable Video Diffusion(SVD)模型的2/25! AnimateLCM-SVD-xt发布,一改视频扩散模型进行重复去噪,既耗时又需大量计算的问题。 先来看一波生成的动画效果。 赛博朋克风轻松驾驭,男孩头戴耳机,...
-
为什么人工智能应该开源?
在当今快速发展的数字时代,人工智能几乎处于所有行业革命性创新的前沿。从医疗保健、教育到娱乐,人工智能的变革性影响是显而易见的。 什么是开源人工智能? 开源人工智能是人工智能软件和工具,其源代码开放并向公众开放。开发人员、研究人员和其他感兴趣的各方可以访...
-
人工智能驱动的效率:重新定义数据中心的能源使用
在当今的数字时代,数据中心是积极管理巨大信息流的动力,以保持我们互联世界的运行。数据中心格局反映了这场技术革命,其在过去三年中增长了惊人的48%。 然而,这种进步是有代价的,因为大型数据中心是贪婪的能源消耗者,每个数据中心都需要足够的电力来供电。人工智...
-
AnyGPT:实现任意模态输入到任意模态输出
近日,复旦大学、上海人工智能实验室等机构联合推出了一款名为AnyGPT的多模态大语言模型,该模型在处理语音、文本、图像和音乐等多种模态输入时,可以生成任何模态的输出。 AnyGPT采用离散表示技术,通过在各模态输入上进行离散标记,实现了多模态信息的统一处...
-
什么是机器学习中的模型部署?
在机器学习中,模型部署是将机器学习模型集成到现有生产环境中的过程,在该环境中,模型可以接受输入并返回输出。目标是让其他人可以使用经过训练的机器学习模型的预测。 大多数在线资源侧重于机器学习生命周期的前期步骤,例如探索性数据分析(EDA 、模型选择和模型...
-
Midjourney创始人:版权问题暂时无解,AI生图不是要取代艺术家
Midjourney大火之后,艺术家的路却越走越窄了。 而最近,又曝出Midjourney等生图AI面临很严重的版权问题。 用户用非常简单的提示词就能获得无数收版权保护的图像。 最近,福布斯杂志的特约撰稿人专门采访了Midjourney的创始人David...
-
Sora给中国AI带来的真实变化
OpenAI的最新技术成果——文生视频模型Sora,在春节假期炸裂登场,令海内外的AI从业者、投资人彻夜难眠。 如果你还没有关注到这个新闻,简单介绍一下:Sora是OpenAI使用超大规模视频数据,训练出的一个通用视觉模型,可以理解和模拟运动中的物理世界,...
-
生成式人工智能和数据质量可以共存吗?
在这个高科技的时代,想必大家对于生成式人工智能并不陌生,至少都有听说过。但对于人工智能所生成的数据,大家始终有所顾虑,这就不得不涉及到数据质量了。 在这个高科技的时代,想必大家对于生成式人工智能并不陌生,至少都有听说过。但对于人工智能所生成的数据,大家...
-
SIMPL:用于自动驾驶的简单高效的多智能体运动预测基准
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving 论文链接...
-
NeRF成为过去?三维重建迈向3D GS新时代!(复旦大学最新综述)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 3D Gaussian Splatting(3D-GS)已成为计算机图形学领域的一个重大进步,它提供了明确的场景表示和新颖的视图合成,而不依赖于神经网络,如神经辐射场...
-
『拯救』开放异构场景 | HEAL:最新可扩展协作感知框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 协同感知技术能够有效解决自动驾驶车辆单体感知中存在的障碍物遮挡、视角受限、以及远距离感知能力弱等问题。然而,现有的工作都做了一个过分简单的假设,即参与协作的智能体使用相同的传感器,部署相同的感知模型。...
-
深度学习的未来:趋势和新兴技术
深度学习是人工智能(AI 的一个子集,持续推动技术进步,塑造机器感知、分析和响应数据的方式。本文将探索将在未来几年重新定义人工智能格局的最新趋势和新兴技术。 模型规模指数增长 以GPT-3等模型为例,越来越大的神经网络模型的趋势展示了对更复杂、更强大的...
-
学习生成式人工智能的七个挑战
生成式人工智能已成为一股变革力量,突破了机器所能实现的界限。 从文本和图像生成到创建真实的模拟,生成式人工智能已经在各个领域展示了其潜力。 随着该领域对熟练专业人员的需求持续飙升,掌握生成人工智能的旅程被证明是一项艰巨的任务,其特点是复杂性需要细致入微...
-
GitHub热榜第一:百万token上下文,还能生成视频,UC伯克利出品
今日GitHub热榜榜首,是最新的开源世界模型。 上下文窗口长度达到了100万token,持平了谷歌同时推出的王炸Gemini 1.5,伯克利出品。 强大的模型,命名也是简单粗暴——没有任何额外点缀,直接就叫LargeWorldModel(LWM)。...
-
100万token,一次能分析1小时YouTube视频,「大世界模型」火了
最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好...
-
RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
在大模型内卷的同时,Transformer的地位也接连受到挑战。 近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。 同时...
-
Windows、Office直接上手,大模型智能体操作电脑太6了
当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模...
-
AI自动化标注崛起,数据标注员要失业了?
在数据标注行业流行着一句话:“有多少智能,就有多少人工”。 由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些AI公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。 这也衍生出了专为AI而生的人力密集型的数据标注产业链。...
-
美国商标局确认:OpenAI 无法申请 “GPT” 商标
OpenAI 是一家开发 AI 工具和聊天机器人的公司,但其 ChatGPT 制作者可能无法拥有该技术的商标。美国专利商标局(PTO)拒绝让由 Sam Altman 领导的 OpenAI 公司注册 GPT(生成式预训练转换器 作为商标的申请。 该公司在与...
-
机器学习中的十种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。 尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。 线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影 。例子包括...
-
政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成
小伙伴们好,咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。 考虑计算机性能的因素,这次咱们在Colab上进行,Colab您可以理解为在线版的Jupyter Notebook,还不熟悉Jupyter的的小伙伴可以...
-
机器学习中七种常用的线性降维技术总结
上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA Principal Component Analysis (PCA 是一种常用的降维技术,用于...
-
AIGC实战——能量模型(Energy-Based Model)
AIGC实战——能量模型 0. 前言 1. 能量模型 1.1 模型原理 1.2 MNIST 数据集 1.3 能量函数 2. 使用 Langevin 动力学进行采样 2.1 随机梯度 Langevin 动力学 2.2 实现 Langevin...
-
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。 本文的将提供利用AI语音...
-
Nomic AI 发布首个完全开源的长文本嵌入模型,超越 OpenAI Ada-002在各项基准测试中的表现
在自然语言处理(NLP)领域不断发展的背景下,理解和处理广泛的文本内容至关重要。最近的一些进展显著提升了语言模型的能力,特别是通过文本嵌入的发展。这些嵌入成为许多应用的基础,包括大型语言模型(LLMs 的检索增强生成和语义搜索。它们将句子或文档转换为低维向...
-
使用LlamaIndex和ChatGPT的无代码检索增强生成(RAG)
检索增强生成(RAG 是使用大型语言模型(LLM 的关键工具。RAG使LLM能够将外部文档合并到它们的响应中,从而更紧密地与用户需求保持一致。这个功能在传统上使用LLM犹豫不决的领域尤其有益,尤其是在事实很重要的时候。 自从ChatGPT和类似的LLM推...
-
训不动Mixtral,要不试试LLaMA-MoE?
深度学习自然语言处理 原创作者:cola 随着各种各样增强版LLaMA的出现,Mixture-of-Expert(MoE 类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。它显著的一个好处...
-
最新的AIGC相关技术更新
1.腾讯发布PhotoMaker 《PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding》 作者机构:南开大学&腾讯 PCG ARC 实验室&东京...
-
扩展说明: 指令微调 Llama 2
这篇博客是一篇来自 Meta AI,关于指令微调 Llama 2 的扩展说明。旨在聚焦构建指令数据集,有了它,我们则可以使用自己的指令来微调 Llama 2 基础模型。 目标是构建一个能够基于输入内容来生成指令的模型。这么做背后的逻辑是,模型如此...
-
一图揽尽全球LLM崛起之路;LLM概念速查清单;DALL·E提示词红宝书·在线版;fast.ai新课带你从零实现Stable Diffusion | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? LLM 崛起之路:全球大语言模型「规模增长」可视化交互图 https://informationisbeautiful.net/visual...
-
如何使用TensorFlow和Cleanvision检测大堡礁的海星威胁?
澳大利亚的大堡礁美不胜收,是全球最大的珊瑚礁,也是多种多样的海洋生物栖息的家园。不幸的是,珊瑚礁面临蚕食珊瑚的棘冠海星(COTS)的威胁。为了控制COTS爆发,珊瑚礁管理人员使用一种名为Manta Tow勘查的方法,将潜水员拖在船后,目测评估珊瑚礁的各...
-
什么是预训练Pre-training—— AIGC必备知识点,您get了吗?
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 随着人工智能(AI 不断重塑我们的世界,其发展的一个关键方面已经成为现代机器学习模型的支柱:预训练。在本篇文章中,我们将探讨预训练的概...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(二)
3 评价结果 3.1 Spider 数据集 表 2 列出了各种提示策略和模型组合的执行准确性 (EX 和测试套件 (TS 的准确性。我们的主要发现是: 开源模型在 Spider 数据集上遇到了困难:尽管参数数量和模型性能之间存在正相关关系...
-
使用Kohya_ss训练Stable Diffusion Lora
Stable Diffusion模型微调方法 Stable Diffusion主要有 4 种方式:Dreambooth, LoRA, Textual Inversion, Hypernetworks。 Textual Inversion (也称为 Em...
-
迅易可下单Copilot for M365,助您「整顿」低效数字职场!
当多数打工人还把“今天搬砖不狠,明天地位不稳”挂在嘴边时,一种颠覆人类办公的“智能辅助”早已走进大家的视线。 近日,微软正式发布面向普通消费者和小企业开放的人工智能助手Copilot高级订阅新服务Copilot Pro,消息一出,炸翻整个技术圈。早在去年...
-
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了...
-
如何探索和可视化用于图像中物体检测的 ML 数据
近年来,人们越来越认识到深入理解机器学习数据(ML-data)的必要性。不过,鉴于检测大型数据集往往需要耗费大量人力物力,它在计算机视觉(computer vision)领域的广泛应用,尚有待进一步开发。 通常,在物体检测(Object Detectio...
-
AIGC:使用变分自编码器VAE实现MINIST手写数字生成
1 变分自编码器介绍 变分自编码器(Variational Autoencoders,VAE)是一种生成模型,用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器(Autoencoder)的扩展,自编码器是一种用于将输入数据压缩为低维表示并再...
-
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略
LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略 目录 使用 PyTorch FSDP 微调 Llama 2 70B 引言 FSDP 工作流 使用的硬件 微调 LLa...
-
Stable Diffusion结构解析-以图像生成图像(图生图,img2img)
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) AIGC专栏3——Stable Diffusion结构解析-以图像生成图像(图生图,img2img)为例 学习...
-
AI绘画Stable Diffusion进阶使用
本文讲解,模型底模,VAE美化模型,Lora模型,hypernetwork。 文本Stable Diffusion 简称sd欢迎关注 使用模型 C站:https://civitai.com/ huggingface:https://huggingfa...
-
AI大模型学习笔记之四:生成式人工智能(AIGC)是如何工作的?
OpenAI 发布 ChatGPT 已经1年多了,生成式人工智能(AIGC)也已经广为人知,我们常常津津乐道于 ChatGPT 和 Claude 这样的人工智能系统能够神奇地生成文本与我们对话,并且能够记忆上下文情境。 Midjunery和DALL·...