目标检测 - AIGC资讯

神经架构搜索（nas）：自动化模型设计的未来

标题：神经架构搜索（NAS）：自动化模型设计的未来在人工智能领域，深度学习模型的性能往往与其架构设计紧密相关。传统上，设计高效的神经网络架构是一项既耗时又高度依赖于专家经验的任务。然而，随着计算能力的飞跃和算法创新的不断推进，神经架构搜索（Neural A...

AIGC 2025-07-19 人工智能

979阅读

自监督学习：从无标注数据中挖掘知识

自监督学习：从无标注数据中挖掘知识的艺术在人工智能领域，数据标注一直是一个既耗时又昂贵的环节。然而，随着技术的不断进步，一种名为“自监督学习”的方法正在悄然改变这一现状。自监督学习通过巧妙设计算法，使模型能够从无标注数据中自动挖掘出有价值的信息和知识，从而...

生成式AI 2025-06-26 人工智能

924阅读

图像数据的特征提取与挖掘

标题：图像数据的特征提取与挖掘：解锁视觉信息的密钥在信息时代，图像作为一种直观、丰富的数据形式，承载着海量的信息和知识。从医疗影像分析到人脸识别技术，从自动驾驶到遥感监测，图像数据的特征提取与挖掘已成为推动科技进步的关键力量。本文将深入探讨图像特征提取的基...

大数据 2025-06-21 大数据

573阅读

数据标注：ai训练的关键步骤

标题：数据标注：AI训练的关键步骤与深远影响在人工智能（AI）迅速发展的今天，机器学习模型已经成为众多行业转型升级的核心驱动力。从自动驾驶汽车到智能语音助手，从医疗影像分析到金融风险评估，AI正以前所未有的方式改变着我们的生活与工作方式。然而，这些高度智能...

大数据 2025-06-17 大数据

683阅读

数据标注平台性能评估报告：提升标注效率

标题：数据标注平台性能评估报告：探索并提升标注效率的路径一、引言在人工智能快速发展的今天，数据标注作为机器学习模型训练不可或缺的一环，其质量与效率直接关系到模型性能的优劣。一个高效、准确的数据标注平台，不仅能够加速模型的开发周期，还能显著提升模型的准确性和...

生成式AI 2025-06-16 大数据

725阅读

数据采集与计算机视觉的关系

数据采集与计算机视觉：技术融合与创新应用的前沿探索在当今快速发展的科技时代，数据采集与计算机视觉作为人工智能领域的两大核心技术，正以前所未有的速度推动着各行各业的数字化转型与智能化升级。这两项技术虽然侧重点不同，但在实际应用中却紧密相连，共同构建了一个高效...

人工智能 2025-06-13 大数据

583阅读

聚类分析：无监督学习的经典应用

聚类分析：无监督学习的经典应用在当今数据驱动的时代，机器学习已成为各行各业不可或缺的工具。其中，无监督学习作为机器学习的一个重要分支，旨在从大量未标记的数据中发现隐藏的规律和模式。聚类分析，作为无监督学习的经典应用之一，凭借其强大的数据探索能力，在众多领域...

生成式AI 2025-06-12 大数据

655阅读

“鸿儒”——AIGC团队知识管理工作台

项目介绍 “鸿儒”——AIGC团队知识管理工作台是一项创新性的信息管理和协作平台，“鸿儒”立足于AIGC（Artificial Intelligence Generated Content）技术的前沿。该平台以机器学习和自然语言处理技术为核心，致力于协助...

人工智能 2024-09-25 人工智能

1149阅读

从【人工智能】到【计算机视觉】，【深度学习】引领的未来科技创新与变革

前几天偶然发现了一个超棒的人工智能学习网站，内容通俗易懂，讲解风趣幽默，简直让人欲罢不能。忍不住分享给大家，点击这里立刻跳转，开启你的AI学习之旅吧！前言 – 人工智能教程https://www.captainbed.cn/lzx 1. 引言...

生成式AI 2024-09-07 人工智能

994阅读

鹅厂也下场，文档解析的痛点是什么？

最近，文档解析赛道颇为火热，产品更新迭代频繁，与各类大模型上下游一样发展势头很劲。6月下旬，鹅厂也在多个产品上线了文档解析功能。文档智能交互是企业、学术、个人工作中必不可少的一环，作为大模型应用的典型场景之一，它对准确、高效的文档解析工具有着长期需求。...

大数据 2024-08-29 人工智能

1173阅读

江大白 | 视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。原文链接：视觉Transformer与Mamba的创新改进，完美融合（附论文及源码）以下文章来源于微信公众号：AI视界引擎作者：AI引擎链接：https://mp.weixin.q...

大数据 2024-08-21 人工智能

1645阅读

【八股文】算法岗位八股文、深度学习、AIGC八股文面试经验（一）

1. 请解释一下Batch Normalization的原理及其在训练深度神经网络中的作用。 Batch Normalization（批归一化）是一种在训练深度神经网络时常用的技术，旨在提高训练速度、稳定性和性能。 2. 在图像预处理过程中，如何选择合适...

AIGC 2024-07-22 人工智能

1584阅读

一键部署LLaMA 3 Chinese Chat，含中文训练数据集；Food2K数据集下载，含2千类别，100万张图片...

前段时间 Llama 3 的重磅开源让 AI 圈的众人都兴奋了一把，但它对纯中文的支持不是很好，不能灵活地根据中文提问切换至相应语言进行回答。 hyper.ai 本周上线了 Llama 3 中文版——LlaMA 3 Chinese Chat 的部...

生成式AI 2024-07-05 人工智能

915阅读

论文笔记：Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization

CVPR2024 论文代码：yangxy/PASD (github.com 论文地址：[2308.14469v3] Pixel-Aware Stable Diffusion for Realistic Image Super-resolution a...

大数据 2024-06-16 人工智能

1299阅读

AIGC系列之：GroundingDNIO原理解读及在Stable Diffusion中使用

目录 1.前言 2.方法概括 3.算法介绍 3.1图像-文本特征提取与增强 3.2基于文本引导的目标检测 3.3跨模态解码器 3.4文本prompt特征提取 4.应用场景 4.1结合生成模型完成目标区域生成 4.2结合stable di...

大数据 2024-06-12 人工智能

2323阅读

改进的检测算法：用于高分辨率光学遥感图像目标检测

本文经计算机视觉研究院公众号授权转载，转载请联系出处。 01 前景概要目前，难以在检测效率和检测效果之间获得适当的平衡。我们就研究出了一种用于高分辨率光学遥感图像中目标检测的增强YOLOv5算法，利用多层特征金字塔、多检测头策略和混合注意力模块来提高...

人工智能 2024-06-05 人工智能

865阅读

YoloCS：有效降低特征图空间复杂度

本文经计算机视觉研究院公众号授权转载，转载请联系出处。论文地址：YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidificatio...

AIGC 2024-06-05 人工智能

777阅读

零基础也能搞懂卷积神经网络原理！超详细！

相信和笔者一样爱技术对AI兴趣浓厚的小伙伴们，一定对卷积神经网络并不陌生，也一定曾经对如此“高级”的名字困惑良久。笔者今天将从零开始走进卷积神经网络的世界~与大家分享！在深入了解卷积神经网络之前，我们先看看图像的原理。图像原理图像在计算机中是通...

人工智能 2024-06-04 人工智能

1086阅读

MonoDETRNext：下一代准确高效的单目3D检测方法！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解基于单目视觉的3D目标检测在各个领域都至关重要，但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上，本文提出了MonoDETRNe...

人工智能 2024-05-30 人工智能

1072阅读

Yolov10：详解、部署、应用一站式齐全！

一、前言在过去的几年里，YOLOs由于其在计算成本和检测性能之间的有效平衡，已成为实时目标检测领域的主导范式。研究人员探索了YOLO的架构设计、优化目标、数据扩充策略等，取得了显著进展。然而，依赖非极大值抑制（NMS）进行后处理阻碍了YOLO的...

生成式AI 2024-05-29 人工智能

1726阅读

用于精确目标检测的多网格冗余边界框标注

本文经计算机视觉研究院公众号授权转载，转载请联系出处。一、前言现在领先的目标检测器是从基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器，它接收输入图像并将其划分为大小相等的网格矩阵。具...

人工智能 2024-05-28 人工智能

824阅读

目标检测新SOTA，端侧实时识别，沈向洋罕见转发点赞

目标检测领域，迎来了新进展—— Grounding DINO 1.5，IDEA研究院团队出品，在端侧就可实现实时识别。这一进展获得AI大佬沈向洋转发，他一般都是一年一转的节奏。此次发布主要有两个版本：Pro和Edge。Pro版更强，Edge版更快。...

AIGC 2024-05-27 人工智能

850阅读

YOLOv10来啦！真正实时端到端目标检测

本文经自动驾驶之心公众号授权转载，转载请联系出处。过去几年里，YOLOs因在计算成本和检测性能之间实现有效平衡而成为实时目标检测领域的主流范式。研究人员针对YOLOs的结构设计、优化目标、数据增强策略等进行了深入探索，并取得了显著进展。然而，对非极大...

大数据 2024-05-27 人工智能

1195阅读

DiffMap：首个利用LDM来增强高精地图构建的网络

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文标题： DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model 论文作者： Peijin Jia, Tuo...

大数据 2024-05-27 人工智能

958阅读

PVTransformer: 可扩展3D检测的点到体素Transformer

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接：https://arxiv.org...

生成式AI 2024-05-24 人工智能

992阅读

使用自己的数据集训练DETR模型

众所周知，Transformer已经席卷深度学习领域。Transformer架构最初在NLP领域取得了突破性成果，尤其是在机器翻译和语言模型中，其自注意力机制允许模型处理序列数据的全局依赖性。随之，研究者开始探索如何将这种架构应用于计算机视觉任务，特别是...

人工智能 2024-05-23 人工智能

1824阅读

yolov部署到iPhone或终端实践全过程

本文经计算机视觉研究院公众号授权转载，转载请联系出处。期待已久的检测经典又来来了一波强袭——yolov5。其实yolov5没有完整的文件，现在最重要的应该是把yolov4弄清楚，在目标检测领域中受益匪浅，可以在某些场景得到较高的提升。今天我们还是给大...

人工智能 2024-05-23 人工智能

769阅读

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

本文经计算机视觉研究院公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源：https://github.com/LeapLabTHU/EfficientTrain 会议...

生成式AI 2024-05-23 人工智能

826阅读

开源！V2Xverse：上交发布首个面向V2X的仿真平台与端到端模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。车路协同的同步驾驶数据车路协同辅助的自动驾驶V2X-AD（Vehicle-to-everything-aided autonomous driving）在提供更安全的驾驶策略方面具有巨大潜力。研...

人工智能 2024-05-22 人工智能

1101阅读

蚂蚁多模态团队在视频多模态方向的技术探索

一、概述视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描述中直接出现，但检...

大数据 2024-05-21 人工智能

907阅读

又被 OpenAI 截胡，Google推出开源视觉语言模型：PaliGemma

前言该模型结合了 SigLIP 视觉模型和 Gemma 语言模型，这两种模型都是开放组件，使得PaliGemma在处理视觉与语言结合的任务上表现出色。 PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemm...

生成式AI 2024-05-17 人工智能

965阅读

多模态大模型在前端开发领域的应用探索

一、大模型生成前端代码 1.GPT4自动生成前端网页 GPT4展示了一个功能，画一张草图，并把它拍照发给GPT-4，GPT-4可以从图片中提取文字信息并输出HTML，自动生成网站的原型图。输入草图：图片输出页面代码：图片 2.微调的必要性一些开...

AIGC 2024-05-10 人工智能

1862阅读

还在YOLO-World？DetCLIPv3出手！性能大幅度超出一众SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成...

AIGC 2024-04-30 人工智能

993阅读

FisheyeDetNet：首个基于鱼眼相机的目标检测算法

本文经自动驾驶之心公众号授权转载，转载请联系出处。目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的近距离的感知相对来说研究较少。由于径向畸变较大，标...

生成式AI 2024-04-26 人工智能

1047阅读

超越BEVFormer！CR3DT：RV融合助力3D检测&跟踪新SOTA（ETH）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解本文介绍了一种用于3D目标检测和多目标跟踪的相机-毫米波雷达融合方法（CR3DT）。基于激光雷达的方法已经为这一领域奠定了一个高标准，但是其高算力、高成本的缺陷制约了...

生成式AI 2024-04-24 人工智能

1000阅读

超越BEVFusion！DifFUSER：扩散模型杀入自动驾驶多任务（BEV分割+检测双SOTA）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解目前，随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多，工业界和学术界非常希望一个理想的感知算法模型，可以同时完成如3D目标检测以及基于BEV空间的语义分...

AIGC 2024-04-22 人工智能

895阅读

如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征？

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人理解自动驾驶的基础任务之一是三维目标检测，而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合，又或者是毫米波雷达和相机融合，其最主要的目的就是...

大数据 2024-04-20 人工智能

960阅读

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。这篇论文聚焦于3D目标检测的领域，特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中，系统旨在预测真实场景中物体的定向3D边界框和语义类别标签，这通常依赖于点云或RGB图像...

生成式AI 2024-04-11 人工智能

844阅读

Transformer引领AI百花齐放：从算法创新到产业应用，一文读懂人工智能的未来

一、引言近年来，人工智能技术取得了举世瞩目的成果，其中，自然语言处理（NLP）和计算机视觉等领域的研究尤为突出。在这些领域，一种名为Transformer的模型逐渐成为研究热点，以其为核心的创新成果层出不穷。本文将从Transformer的原理、应用和...

大数据 2024-04-03 人工智能

917阅读

RV融合性能拉爆！RCBEVDet：Radar也有春天，最新SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息，这种方法因无法精确捕获深度信息和在恶劣天...

人工智能 2024-04-02 人工智能

999阅读

TrajectoryNAS：一种用于轨迹预测的神经结构搜索

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文链接：https://arxiv.org/pdf/2403.11695.pdf 本文介绍了TrajectoryNAS：一种用于轨迹预测的神经结构搜索。自动驾驶系统是一项快速发展的技术，其可以实现...

大数据 2024-03-26 人工智能

899阅读

UniPAD：一种通用的自动驾驶预训练模式

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解 UniPAD研究了一个关键问题：如何有效地利用大量未标记的3D点云数据进行自监督学习，以增强其在3D目标检测和语义分割等下游任务中的应用效率。这个问题之所以重要，是...

AIGC 2024-03-22 人工智能

975阅读

一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前...

生成式AI 2024-03-21 人工智能

906阅读

DECO: 纯卷积Query-Based检测器超越DETR！

本文经自动驾驶之心公众号授权转载，转载请联系出处。标题：DECO: Query-Based End-to-End Object Detection with ConvNets 论文：https://arxiv.org/pdf/2312.13735...

生成式AI 2024-03-19 人工智能

890阅读

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

遮挡是计算机视觉很基础但依旧未解决的问题之一，因为遮挡意味着视觉信息的缺失，而机器视觉系统却依靠着视觉信息进行感知和理解，并且在现实世界中，物体之间的相互遮挡无处不在。牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作系统性解决了任...

AIGC 2024-03-08 人工智能

870阅读

CLRNet：一种用于自动驾驶车道检测的分层细化网络算法

车道是具有高级语义的交通标志，特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益，例如自动驾驶和高级驾驶员辅助系统（ADAS）中的视觉导航就是一个典型的应用，它可以帮助智能车辆更好地进行自车定位并更安全地行驶。然而，车道检测拥有特定的局部模式，...

生成式AI 2024-03-08 人工智能

1068阅读

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 Visi...

生成式AI 2024-03-07 人工智能

832阅读

CVPR 2023 | 最全 AIGC 论文清单汇总版，30个方向130篇！

目录 1、图像转换/翻译 2、GAN改进/可控 3、可控文生图/定制化文生图 4、图像恢复 5、布局可控生成 6、医学图像 7、人脸相关 8、3D相关 9、deepfake检测 10、图像超分 11、风格迁移 12、去雨去噪去模糊 13、图像分割 14、视...

AIGC 2024-03-07 人工智能

1335阅读

逆天UniVision：BEV检测和Occ联合统一框架，双SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&个人理解最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处，但在特征表示、数据格式和目标方面仍存在差距，这对统一高效的3D感知...

生成式AI 2024-03-05 人工智能

889阅读