-
首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024
目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。 然而,现有的多...
-
业内:过去数月老款AI芯片降价,大模型培训成本降60%
1月24日消息,众所周知,开发大语言模型(LLM)成本高昂。这不仅包括模型本身的研发,还有在云端运行这些模型的费用。以人工智能初创公司Anthropic为例,云端运行模型的成本几乎占了该公司上个月收入的一半以上,这还未算上训练模型的成本。 然而,最近的...
-
AIWrite:智能写作工具全面解析
【产...
-
2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈
本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。 以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。 如需查看其他热门论文,欢迎移步saibo...
-
推进智慧城市:多连接设备和人工智能的重要作用
随着互联设备的快速普及,智慧城市的概念正变得越来越接近现实。这些技术先进的城市中心有望通过错综复杂的互联设备网络提高居民的生活质量,并优化城市管理者的运营效率。从智能照明和电动汽车(EV 充电器到智能电表,这些设备具有巨大的潜力,可以彻底改变城市生活。...
-
stable diffusion其他微调方法
textual inversion 发布时间:2022 目标:与DreamBooth一样,都是想要微调模型生成特定目标或风格的图像 方法:通过在vocabulary中添加一个额外的embedding来学习输入的新特征。预训练模型的所有参数都...
-
LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞
自从ChatGPT发布后,各种基于大模型的产品也快速融入了普通人的生活中,但即便非AI从业者在使用过几次后也可以发现,大模型经常会胡编乱造,生成错误的事实。 不过对于程序员来说,把GPT-4等大模型当作「代码辅助生成工具」来用的效果明显要比「事实检索工具...
-
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
大模型的「幻觉」问题马上要有解了? 威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。 如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。 如果系统可以进一步筛选评分的结果进行输...
-
Stable Diffusion中不同的采样方法
在 Stable Diffusion 模型中,采样方法是从学习到的概率分布中生成图像的算法。采样方法影响生成图像的质量、样式、速度以及过程的控制程度。以下是一些采样方法的概述和它们对图像生成可能产生的影响: DPM++系列 DP...
-
逆天了!UniVision:BEV检测和Occupancy联合统一框架,双任务SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
即将到来的政府监管下的人工智能时代
斯蒂芬·霍金曾说过一句名言:“成功创造出有效的人工智能可能是我们文明史上最大的事件,但除非我们学会如何准备和避免潜在的风险,否则人工智能可能是我们文明史上最糟糕的事件。” 人工智能以LLM(大型语言模型 的形式出现爆炸式增长。基于与ChatGPT等工具...
-
SeaArt.ai: 海艺AI绘画艺术图片模型创作平台
【产品介绍】 ...
-
AI的崛起:2024年人工智能技术趋势
在不断发展的技术领域,有一种现象一直吸引着我们的想象力,并重新定义了我们生活、工作和互动的方式:人工智能(AI 。随着我们步入2024年,人工智能将站在塑造我们未来的最重要技术趋势的最前沿。这项突破性的技术不仅改变了我们对创新的看法,而且已经成为我们日...
-
【他山之石】360 多兴趣召回 Mind 实战优化
一、业务背景 随着短视频和信息流等场景的兴起,用户在这些场景中产生了大量的行为序列,包括曝光、播放、点击、点赞和关注等。这些序列本身就具备很高的价值。因此涌现出了许多序列模型,如 YouTube DNN [1]、GRU4REC [2]、MIND [3]等...
-
ICLR'24无图新思路!LaneSegNet:基于车道分段感知的地图学习
写在前面&笔者的个人理解 地图作为自动驾驶系统下游应用的关键信息,通常以车道或中心线表示。然而,现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系,即车道线绑定中心线。虽然在一个模型中...
-
游戏+人工智能AI如何影响我们的未来:(二)游戏将成为 AIGC 的重要应用场
人工智能在诞生之初就已展现出了与电子游戏的亲密关系。—方面,其开创者们长期利用游戏 来测试人工智能程序的性能,如今的人工智能也已经具备了在各种复杂游戏中击败人类玩家的 能力。另—方面,随着人工智能技术的发展,人们也发现可以利用这项技术来辅助游戏设计 和游戏...
-
AIGC必备知识点:你不可不知的CNN(卷积神经网络)-知识全解析!
Look!?我们的大模型商业化落地产品 ?更多AI资讯请??关注 Free三天集训营助教在线为您火热答疑??? 大家在谈论的卷积神经网络究竟是什么?(Convolutional Neural Network,CNN 是一类主要用于计算机视觉领域的...
-
RoSA: 一种新的大模型参数高效微调方法
随着语言模型不断扩展到前所未有的规模,对下游任务的所有参数进行微调变得非常昂贵,PEFT方法已成为自然语言处理领域的研究热点。PEFT方法将微调限制在一小部分参数中,以很小的计算成本实现自然语言理解任务的最先进性能。 (RoSA 是一种新的PEFT技术...
-
新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加...
-
基于大语言模型赋能智体的建模和仿真:综述和展望
本文经自动驾驶之心公众号授权转载,转载请联系出处。 23年12月论文“Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspecti...
-
深入探索AIGC技术:原理、应用与未来发展
深入探索AIGC技术:原理、应用与未来发展 摘要:随着人工智能技术的飞速发展,AIGC(人工智能生成内容)已成为当今科技领域的前沿话题。本文将深入探讨AIGC的原理、技术应用以及未来发展趋势,并分析其对计算机科学和整个社会的影响。 一、AIGC的基本原...
-
ReSimAD:如何在没有真实数据的情况下,提升感知模型的泛化性能
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 自动驾驶车辆传感器层面的域变化是很普遍的现象,例如在不同场景和位置的自动驾驶车辆,处在不同光照、天气条件下的自动驾驶车辆,搭载了不同传感器设备的自动驾驶车辆,上述这些...
-
LLama Factory 实操记录(一)
1. api端口参数说明: src/api -h, --help 显示帮助信息并退出 --model_name_or_path MODEL_NAME_OR_PATH 模型权重的路径或标识...
-
广义人工智能时代:通往通用人工智能(AGI)之路
人工智能(AI 将于2024年进一步改进,大型语言模型有望进一步发展。 2023年对于人工智能和生成式人工智能来说是激动人心的一年,特别是那些采用大型语言模型(LLM 架构的人工智能,比如来自开放人工智能(GPT 4 、Anthropic(Claud...
-
AI:你总要高清视频,它来了
Magnific 图像超分 & 增强工具还正在火热体验中,它强大的图像升频与再创能力收获一致好评。现在,视频领域也有了自己的 Magnific。 拍摄的街道视频一片模糊,仿佛高度近视没戴眼镜一样: 与之相比,下面的视频清晰度高了很多: 视频画...
-
RoboFusion:通过SAM实现稳健的多模态3D检测
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.03907.pdf 多模态3D检测器致力于探索安全可靠的自动驾驶感知系统。然而,尽管在干净的基准数据集上实现了最先进的(SOTA)性能,...
-
开始弃用NeRF?为什么Gaussian Splatting在自动驾驶场景如此受欢迎?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 三维 Gaussian splatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经...
-
如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术
在人工智能(AI)的快速发展背景下,大语言模型(LLMs)凭借其在语言相关任务上的杰出表现,已成为 AI 领域的重要推动力。然而,随着这些模型在各种应用中的普及,它们的复杂性和规模也为其部署和服务带来了前所未有的挑战。LLM 部署和服务面临着密集的计算强...
-
人工智能软件测试2024年主要趋势
人工智能软件测试领域在未来可能面临多个发展趋势,其中一些趋势可能会对测试方法、工具和流程产生深远的影响。以下是塑造人工智能软件测试未来的主要趋势: 自动化和自动学习测试:随着人工智能的发展,测试自动化将变得更加智能和自适应。自动学习测试工具能够根据应用...
-
快GPT-4 10倍!这款卖疯的AI Agent产品,撼动大模型!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 现在的大型语言模型(LLM)就像牙膏一样鸡贼,你必须非常用力地挤压(正确地提示)才能得到适量的牙膏(答案)。 就像奥特曼形容现在的GPT4一样:“如果你问 GPT-4 大部分...
-
小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。 在 AAAI 2...
-
蚂蚁营销推荐场景上的因果纠偏方法
一、因果纠偏的背景 1、偏差的产生 推荐系统里根据收集的数据来训练推荐模型,给用户推荐一个合适的 item,当用户与这个 item 产生交互后,数据又会被收集用于继续训练模型,从而形成一个闭环。但是这个闭环当中可能会存在各种各样的影响因素,因此会产生误差...
-
AIGC之文本内容生成概述(下)——Transformer
在上一篇文章中,我们一口气介绍了LSTM、Word2Vec、GloVe、ELMo等四种模型的技术发展,以及每种模型的优缺点与应用场景,全文超过一万字,显得冗长且繁杂,在下文部分我们将分开介绍Transformer、BERT、GPT1/GPT2/GPT3/C...
-
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用Score Distillation Sampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡...
-
新AI图像分割方法GenSAM:一个提示实现批量图片分割
近期,研究人员提出了一种新型图像分割方法,称为Generalizable SAM(GenSAM)模型。该模型的设计目标是通过通用任务描述,实现对图像的有针对性分割,摆脱了对样本特定提示的依赖。在具体任务中,给定一个任务描述,例如“伪装样本分割”,模型需要根...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
SparseOcc:全稀疏3D全景占用预测(语义+实例双任务)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文:Fully Sparse 3D Panoptic Occupancy Prediction 链接:https://arxiv.org/pdf/2312.17118.pdf 这篇论文的出发点是什么...
-
何为交互感知?全面回顾自动驾驶中的社会交互动态模型与决策前沿!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 交互感知自动驾驶(IAAD)是一个迅速发展的研究领域,专注于开发能够与人类道路使用者安全、高效交互的自动驾驶车辆。这是一项具有挑战性的任务,因为它要求自动驾驶车辆能够理...
-
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这样婶儿的: 两分钟后,3D版大功告成: △上,Repaint123(NeRF);下,Repaint123(GS) 新方法名为Repaint...
-
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
一杯奶茶,成为 AIGC+CV 视觉前沿弄潮儿! 25个方向!CVPR 2022 GAN论文汇总 35个方向!ICCV 2021 最全GAN论文汇总 超110篇!CVPR 2021 最全GAN论文梳理 超100篇!CVPR 2020...
-
2023最新ChatGPT商业运营网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐+免费更新版本
2023最新ChatGPT商业运营网站源码+支持ChatGPT4.0+新增GPT联网功能+支持ai绘画+实时语音识别输入+用户会员套餐+免费更新版本 一、AI创作系统 二、系统程序下载 三、系统介绍 四、安装教程 五、主要功能展示 六、更新日志...
-
万字长文谈自动驾驶BEV感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 prologue 这有可能是更的最长的文章系列了,先说为什么,一方面是看到分割大模型对小模型的提升效果需要时间,另一方面是之前对自动驾驶的BEV算法做了很长时间的预研,自己也应该好好梳理一下了。 (很...
-
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
太长不看版 这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新...
-
AI平台:全智能AI一键生成PPT - 爱设计PPT
全智能AI一键生成PPT - 爱设计PPT开始生成 企业解决方案 创意热店 更多 合作API365编辑器设计资讯教育版定制拍摄成为VIP登录 | 注册爱设计PPT全新升级智能应有尽有AI赋能,释放内容创造力AI一键生成PPT说出你的内容主题让AI为你一站式...
-
AI平台:aiXcoder
aiXcoder智能软件开发工具 intelligent software development tool. What is aiXcoder?aiXcoder is an innovative, intelligent programming robo...
-
AI平台:知作zizo - 次世代创作方式,全新全能,随时随地
知作zizo - 次世代创作方式,全新全能,随时随地 Beta下载APP立即使用次世代创作方式人工智能强力驱动,灵感创意、云盘、团队协作、批注审阅、交付展示,流程全面数字化全新全能,随时随地立即使用灵感库...
-
一句话精准视频片段定位!清华新方法拿下SOTA|已开源
只需一句话描述,就能在一大段视频中定位到对应片段! 比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳: 就连“大笑”这种语义难理解型的,也能准确定位: 方法名为自适应双分支促进网络(ADPN),由清...
-
语言模型是如何感知时间的?「时间向量」了解一下
语言模型究竟是如何感知时间的?如何利用语言模型对时间的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时间变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定...
-
专补大模型短板的RAG有哪些新进展?这篇综述讲明白了
大型语言模型(LLMs)已经成为我们生活和工作的一部分,它们以惊人的多功能性和智能化改变了我们与信息的互动方式。 然而,尽管它们的能力令人印象深刻,但它们并非无懈可击。这些模型可能会产生误导性的 “幻觉”,依赖的信息可能过时,处理特定知识时效率不高,缺乏...
-
初识Stable Diffusion
界面选项解读 这是在趋动云上部署的Stable Diffusion txt2img prompt (1)分割符号:使用逗号 , 用于分割词缀,且有一定权重排序功能,逗号前权重高,逗号后权重低 (2)建议的通用范式:建议用以下归类的三大部分来...