当前位置:AIGC资讯 > 目标检测 第4页
-
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
大模型“识图”能力都这么强了,为啥还老找错东西? 例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类…… 这是因为,我们让大模型“找东西”时,往往输入的是文本。 如果描述有歧义或太偏门,像是“bat”(蝙蝠还是拍子?)或“魔鳉”(Cy...
-
HiLM-D:自动驾驶多模态大语言模型玩出花了
本文经自动驾驶之心公众号授权转载,转载请联系出处。 笔者个人的一些思考 不得不说,最近大模型在学术界火起来了,基于图文匹配的CLIP预训练模型成为近年来在多模态研究领域的经典之作。除此之外,大语言模型的蓬勃发展也进一步为多模态带来了性能提升。自动驾驶领...