-
AIGC时代的视频扩散模型,复旦等团队发布领域首篇综述
AI 生成内容已经成为当前人工智能领域的最热门话题之一,也代表着该领域的前沿技术。近年来,随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布,AI 图像生成和编辑领域实现了令人惊艳的视觉效果,并且在学术界和工业界...
-
Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树
到底什么才是LLM长上下文模型的终极解决方案? 最近由普林斯顿大学和Meta AI的研究者提出了一种解决方案,将LLM视为一个交互式智能体,让它决定如何通过迭代提示来读取文本。 论文地址:https://arxiv.org/abs/2310.05029...
-
云安全中的生成式AI:雷声大雨点小?!
译者 | 晶颜 审校 | 重楼 人工智能是云安全领域的下一个热点吗? 如果您关注了过去一年左右关于生成式人工智能技术的头条新闻,您可能也会有此疑问。根据GenAI技术拥护者的说法,云安全将会是被基于GenAI的工具所改变的诸多领域之一。 对此,其他一些...
-
解读OpenAI最强文生图模型—DALL·E 3
Midjourney、Stable Difusion在商业变现和场景化落地方面获得了巨大成功,这让OpenAI看到了全新的商机,也是推出DALL·E3的重要原因之一。 上周,OpenAI宣布在ChatGPT Plus和企业版用户中,全面开放文生图模型DAL...
-
HiLM-D:自动驾驶多模态大语言模型玩出花了
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人的一些思考 不得不说,最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...
-
自动驾驶传感器融合面临的三大挑战
随着越来越多的自动驾驶汽车难题出现,挑战的难度越来越大。 汽车工业正在将传感器融合作为应对日益增加的自动驾驶汽车所需的复杂性和可靠性的最佳选择,为汽车内部如何管理和利用来自多个设备的数据的另一转变奠定了基础。 事实证明,向更大的自治迈进比起初所期望的要复...
-
Nightshade:艺术家全新反击工具,可用损坏训练数据“毒害”AI模型
自 ChatGPT 几乎一年前登场以来,生成式人工智能(AI)进入了高速发展的时代,但反对声音也逐渐增强。许多艺术家、娱乐人士、表演者甚至唱片公司已经对AI公司提起了诉讼,其中一些诉讼涉及 ChatGPT 制造商 OpenAI,原因是这些新工具背后的“秘密...
-
MiniGPT-5:一种基于生成vokens 的交错视觉和语言生成模型
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。该模型采用两阶段训练策略,首先进行无图像描述的多模态数据生成,然后利用无分类器的引导系统进一步提升生成 vokens 的效果。MiniGPT-5...
-
对人工智能发展至关重要的四种非人工智能技术
虽然人工智能设备和技术已经成为我们生活中必不可少的一部分,但机器智能可能仍然包含可以进行重大改进的领域。 为了填补这些空白,非人工智能技术可以派上用场。 人工智能(AI 是一种具有人工智能的新兴计算机技术。人们普遍认为,我们在日常生活中看到的人工智能应...
-
一文读懂全新深度学习库Rust Burn
一、什么是Rust Burn? Rust Burn是一个全新的深度学习框架,完全使用Rust编程语言编写。创建这个新框架而不是使用现有框架(如PyTorch或TensorFlow)的动机是为了构建一个适应多种用户需求的通用框架,包括研究人员、机器学习工程...
-
全新视觉提示方法SoM 让GPT-4V看的更准、分的更细
研究人员推出了一种新的视觉提示方法 Set-of-Mark(SoM),它可以让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。GPT-4V 是一种基于 GPT-4的多模态模型,可以同时处理文本和图像,并生成多种类型的输出。 然而...
-
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4发布以来,大型多模态模型 (LMM 引起了研究界越来越多的兴趣,许多工作致力于构建多模态...
-
度小满自动机器学习平台实践
一、机器学习平台 首先介绍一下度小满机器学习平台的背景、发展过程以及现状。 1、业务场景 度小满是一家金融科技公司,公司内部的业务场景主要分为三个方面: 智能风控:涉及关系数据挖掘、文本数据挖掘、情感分析等 NLP 技术,及人脸识别等 CV 技术。...
-
DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案
大语言模型又一项重大缺陷被DeepMind曝光! LLM无法纠正自己推理中的错误。 「Self-Correction」作为一种让模型修正自己回答的技术,在很多类型的任务中都能明显改进模型的输出质量。 但是最近,谷歌DeepMind和UIUC的研究人员却发...
-
斯坦福大学发布 AI 基础模型“透明度指标”,Llama 2 以 54% 居首但“不及格”
10 月 20 日消息,斯坦福大学日前发布了 AI 基础模型“透明度指标”,其中显示指标最高的是 Meta 的 Lama 2,但相关“透明度”也只有 54%,因此研究人员认为,市面上几乎所有 AI 模型,都“缺乏透明度”。 据悉,这一研究是由 HAI...
-
Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动
今天开始,人类离帮忙做家务的机器人,又近了一步! Meta宣布推出Habitat 3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。 这些具身智能背后的关键,当然就是AI Agent。有了它们,机器人可以和人类协作...
-
一段话让模型自曝「系统提示词」!ChatGPT、Bing无一幸免
ChatGPT语音对话,发布即惊艳全网—— 凭借表达自然流畅,嘎嘎乱杀一众AI对话产品。 而现在,其背后秘诀——系统提示词居然被人扒了出来! 原来对话过程中,ChatGPT要遵循下面这么多规则: 使用自然、对话性强、清晰易懂的语言,比如短句、简单词...
-
参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了
如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。 不过如果想要在某一领域(如医学、金融或科学)内最大限...
-
评论能力强于GPT-4,上交开源13B评估大模型Auto-J
随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。 虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了...