边界框 - AIGC资讯

数据标注：ai训练的关键步骤

标题：数据标注：AI训练的关键步骤与深远影响在人工智能（AI）迅速发展的今天，机器学习模型已经成为众多行业转型升级的核心驱动力。从自动驾驶汽车到智能语音助手，从医疗影像分析到金融风险评估，AI正以前所未有的方式改变着我们的生活与工作方式。然而，这些高度智能...

大数据 2025-06-17 大数据

683阅读

数据标注平台选型指南：提升标注效率与准确性

标题：数据标注平台选型指南：提升标注效率与准确性在人工智能领域，数据是驱动模型学习与进步的关键要素。高质量的数据标注对于训练出高效、准确的AI模型至关重要。随着AI应用的日益广泛，数据标注需求激增，选择一款合适的数据标注平台成为提升标注效率与准确性的关键。...

AIGC 2025-06-10 大数据

691阅读

数据标注平台选型指南终极版：提升标注效率与准确性

数据标注平台选型指南终极版：提升标注效率与准确性在当今人工智能飞速发展的时代，数据标注作为机器学习模型训练的关键环节，其重要性不言而喻。高质量的数据标注能够显著提升模型的准确性和泛化能力。然而，面对市场上琳琅满目的数据标注平台，如何选择一款既能提升标注效率...

生成式AI 2025-06-10 大数据

708阅读

数据标注平台创新应用案例：提升标注效率

标题：数据标注平台创新应用案例：如何显著提升标注效率在人工智能（AI）技术日新月异的今天，数据标注作为机器学习模型训练不可或缺的一环，其重要性日益凸显。高效、准确的数据标注不仅能够加速AI模型的迭代优化，还能直接影响到AI应用的性能和用户体验。近年来，随着...

大数据 2025-06-09 大数据

656阅读

数据标注平台选型建议：提升标注效率与准确性

数据标注平台选型建议：提升标注效率与准确性在当今数据驱动的时代，数据标注作为机器学习模型训练的关键环节，其质量与效率直接关系到模型性能的好坏。一个高效、准确的数据标注平台不仅能够加速模型迭代周期，还能显著提升模型的精准度和泛化能力。因此，选择合适的数据标注...

AIGC 2025-06-08 大数据

660阅读

数据标注最佳实践：提升标注效率与准确性

标题：数据标注最佳实践：提升标注效率与准确性在人工智能和机器学习领域，数据标注是构建高效、准确模型不可或缺的一环。高质量的数据标注不仅能够显著提升模型的性能，还能缩短模型开发周期，降低成本。然而，面对海量数据，如何高效且准确地完成标注工作成为了一个挑战。本...

AIGC 2025-06-08 大数据

809阅读

【前沿技术】扩散模型Stable Diffusion原理与应用

前言久章智能 Stable Diffusion是一种基于扩散模型（Diffusion Models）的生成技术，近年来在图像生成和其他生成任务中取得了显著的进展。该技术以其高质量的生成效果、稳定的训练过程和广泛的应用前景，迅速在学术界和工业界引起了...

生成式AI 2024-09-23 人工智能

1491阅读

Meta最新SAM2模型开源直接封神

2024年7月29日，Meta在官网发布SAM2开源消息：segment-anything-2 开源地址：https://github.com/facebookresearch/segment-anything-2 paper：sam-2-seg...

大数据 2024-08-31 人工智能

1821阅读

Gaussian Splatting+Stable Diffusion进行3D场景编辑！腾讯提出TIP-Editor新框架！

Gaussian Splatting+Stable Diffusion进行3D场景编辑！腾讯提出TIP-Editor新框架！原创小源数源AI 2024-01-29 20:19 浙江数源AI 知识星球数源AI论文推荐知识星球（每日最新论文及资...

大数据 2024-08-03 人工智能

1079阅读

stable diffusion-v2.1-pytorch以文生图推理模型

Stable Diffusion Version 2 论文 DENOISING DIFFUSION IMPLICIT MODELS https://arxiv.org/pdf/2010.02502 模型结构通过串联或更通用的交叉注意机制来调节LD...

人工智能 2024-07-08 人工智能

929阅读

AI画连环画角色更一致了！人物之间的复杂互动也能处理｜中山大学&联想团队出品

让AI画漫画角色保持一致的新研究来了! 创作的连环画效果belike: 频繁切换主体、人物之间复杂的互动也能保持角色一致性: 上述效果来自AutoStudio，是一个由中山大学和联想团队联合提出的无需训练的多智能体协同框架。 AutoStudio采用基...

大数据 2024-06-16 人工智能

1006阅读

AI绘画专栏之Stablediffusion webui Controlnet SDXL 插件之segment-anything(40)

1.是什么分割任何物体模型，还记得语义分割和镜头风格词库，这个原理就是根据语义分割做的词库 ## [2024最全大厂面试题无需C币点我下载或者在网页打开全套面试题已打包](https://pan.quark.cn/s/865a0bbd5...

大数据 2024-06-11 人工智能

1137阅读

Stable Diffusion 模型演进：LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo 等

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学。针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。合集：持续火爆！！...

生成式AI 2024-06-08 人工智能

1296阅读

YoloCS：有效降低特征图空间复杂度

本文经计算机视觉研究院公众号授权转载，转载请联系出处。论文地址：YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidificatio...

AIGC 2024-06-05 人工智能

777阅读

理解老司机，超越老司机！LeapAD：具身智能加持下的双过程自驾系统（上海AI Lab等）

本文经自动驾驶之心公众号授权转载，转载请联系出处。论文信息论文题目：Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Dr...

AIGC 2024-06-04 人工智能

1086阅读

ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文

ControlNet作者新项目，居然也搞起大模型和Agent了。当然还是和AI绘画相关:解决大伙不会写提示词的痛点。现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”: 这就是ControlNet作者Lvmin Zhang的新玩具...

大数据 2024-06-02 人工智能

845阅读

手把手教你基于华为云，实现MindSpore模型训练

本文分享自华为云社区《【昇腾开发全流程】MindSpore华为云模型训练》，作者：沉迷sk。前言学会如何安装配置华为云ModelArts、开发板Atlas 200I DK A2。并打通一个Ascend910训练到Ascend310推理的全流程...

大数据 2024-05-29 人工智能

931阅读

用于精确目标检测的多网格冗余边界框标注

本文经计算机视觉研究院公众号授权转载，转载请联系出处。一、前言现在领先的目标检测器是从基于深度CNN的主干分类器网络重新调整用途的两级或单级网络。YOLOv3就是这样一种众所周知的最先进的单级检测器，它接收输入图像并将其划分为大小相等的网格矩阵。具...

人工智能 2024-05-28 人工智能

820阅读

PVTransformer: 可扩展3D检测的点到体素Transformer

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：PVTransformer: Point-to-Voxel Transformer for Scalable 3D Object Detection 论文链接：https://arxiv.org...

生成式AI 2024-05-24 人工智能

992阅读

使用自己的数据集训练DETR模型

众所周知，Transformer已经席卷深度学习领域。Transformer架构最初在NLP领域取得了突破性成果，尤其是在机器翻译和语言模型中，其自注意力机制允许模型处理序列数据的全局依赖性。随之，研究者开始探索如何将这种架构应用于计算机视觉任务，特别是...

人工智能 2024-05-23 人工智能

1823阅读

自动驾驶场景中的长尾问题怎么解决？

本文经自动驾驶之心公众号授权转载，转载请联系出处。昨天面试被问到了是否做过长尾相关的问题，所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况，即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原...

大数据 2024-05-20 人工智能

1203阅读

CVPR'24 Oral | 一览纯稀疏点云检测器SAFDNet的前世今生！

写在前面&笔者的个人理解 3D点云物体检测对自动驾驶感知至关重要，如何高效地从稀疏点云数据中学习特征表示是3D点云物体检测面临的一个关键挑战。我们在本文中将会介绍团队发表在NeurIPS 2023的HEDNet和CVPR 2024的SAFDNet...

人工智能 2024-05-17 人工智能

994阅读

又被 OpenAI 截胡，Google推出开源视觉语言模型：PaliGemma

前言该模型结合了 SigLIP 视觉模型和 Gemma 语言模型，这两种模型都是开放组件，使得PaliGemma在处理视觉与语言结合的任务上表现出色。 PaliGemma的使用场景包括图像字幕、图像标签和视觉问答等。这些应用场景利用了PaliGemm...

生成式AI 2024-05-17 人工智能

965阅读

SIGGRAPH'24 | 太逆天了！利用分层3D GS，实时渲染超大规模场景！

本文经自动驾驶之心公众号授权转载，转载请联系出处。近年来，新视角合成取得了重大进展，3D Gaussian splatting提供了出色的视觉质量、快速训练和实时渲染。然而，训练和渲染所需的资源不可避免地限制了可以以良好视觉质量表示的场景大小。本文引入...

大数据 2024-05-11 人工智能

1318阅读

一览Occ与自动驾驶的前世今生！首篇综述全面汇总特征增强/量产部署/高效标注三大主题

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务，适用于具有成本效益的自动驾驶感知系统，它可以...

大数据 2024-05-08 人工智能

859阅读

还在YOLO-World？DetCLIPv3出手！性能大幅度超出一众SOTA！

本文经自动驾驶之心公众号授权转载，转载请联系出处。现有的开词汇目标检测器通常需要用户预设一组类别，这大大限制了它们的应用场景。在本文中，作者介绍了DetCLIPv3，这是一种高性能检测器，不仅在开词汇目标检测方面表现出色，同时还能为检测到的目标生成...

AIGC 2024-04-30 人工智能

993阅读

FisheyeDetNet：首个基于鱼眼相机的目标检测算法

本文经自动驾驶之心公众号授权转载，转载请联系出处。目标检测在自动驾驶系统当中是一个比较成熟的问题，其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而，利用鱼眼相机进行环视的近距离的感知相对来说研究较少。由于径向畸变较大，标...

生成式AI 2024-04-26 人工智能

1047阅读

谷歌AI提出MathWriting:整合人工书写和合成数据集等改变手写数学表达式识别

近年来，在线文本识别模型取得了显著进展，但数学表达（ME）识别作为更为复杂的任务仍未得到足够关注。谷歌研究团队推出了 MathWriting，一个专注于在线手写数学表达的数据集，包含230k 人工编写和400k 合成样本，超越了类似 IM2LATEX-1...

大数据 2024-04-24 人工智能

916阅读

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

本文经自动驾驶之心公众号授权转载，转载请联系出处。原标题：Towards Realistic Scene Generation with LiDAR Diffusion Models 论文链接：https://hancyran.github.io/a...

生成式AI 2024-04-24 人工智能

1007阅读

如何利用Transformer有效关联激光雷达-毫米波雷达-视觉特征？

本文经自动驾驶之心公众号授权转载，转载请联系出处。笔者个人理解自动驾驶的基础任务之一是三维目标检测，而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合，又或者是毫米波雷达和相机融合，其最主要的目的就是...

大数据 2024-04-20 人工智能

960阅读

效率狂增16倍！VRSO：纯视觉静态物体3D标注，打通数据闭环！

本文经自动驾驶之心公众号授权转载，转载请联系出处。标注之殇静态物体检测（Static object detection，SOD），包括交通信号灯、导向牌和交通锥，大多数算法是数据驱动深度神经网络，需要大量的训练数据。现在的做法通常是对大量的训练样本...

AIGC 2024-04-11 人工智能

1003阅读

多个SOTA ！OV-Uni3DETR：提高3D检测在类别、场景和模态之间的普遍性（清华&港大）

本文经自动驾驶之心公众号授权转载，转载请联系出处。这篇论文聚焦于3D目标检测的领域，特别是Open-Vocabulary的3D目标检测。在传统的3D目标检测任务中，系统旨在预测真实场景中物体的定向3D边界框和语义类别标签，这通常依赖于点云或RGB图像...

生成式AI 2024-04-11 人工智能

844阅读

80M参数打平GPT-4！苹果发超强上下文理解模型ReALM，聪明版Siri马上就来

【新智元导读】苹果公司发布了一款参数量仅为80M的最新模型——ReALM，能够将各种形式的上下文转换为文本进行理解，包括解析屏幕、多轮对话以及上下文引用，提升了Siri等智能助手的反应速度和智能程度。会读心的Siri想不想要? 今天，苹果发布了自家的最新...

生成式AI 2024-04-03 人工智能

895阅读

80M参数打平GPT-4！苹果发超强上下文理解模型，聪明版Siri马上就来

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 会读心的Siri想不想要？今天，苹果发布了自家的最新模型ReALM，仅需80M参数，就能在上下文理解能力上打平甚至超越GPT-4！...

AIGC 2024-04-03 人工智能

905阅读

让Siri不再智障！苹果定义新的端侧模型，“大大优于GPT-4，摆脱文本，可视化模拟屏幕信息，最小参数模型相较基线系统仍提升5%

撰稿丨诺亚出品 | 51CTO技术栈（微信号：blog51cto）总被用户吐槽“有点智障”的Siri有救了！ Siri自诞生以来就是智能语音助手领域的代表之一，但很长一段时间里，其表现并不尽如人意。然而，苹果的人工智能团队最新...

人工智能 2024-04-02 人工智能

996阅读

苹果AI放大招？新设备端模型超过GPT-4，有望拯救Siri

在最近的一篇论文中，苹果的研究人员宣称，他们提出了一个可以在设备端运行的模型，这个模型在某些方面可以超过 GPT-4。具体来说，他们研究的是 NLP 中的指代消解（Reference Resolution）问题，即让 AI 识别文本中提到的各种实体...

大数据 2024-04-02 人工智能

864阅读

15个推荐开源免费图像标注工具

图像标注是向图像添加标签或注释的元数据，使图像上的内容具有上下文含义。这个过程在机器学习中具有重要意义，助于在训练视觉模型过程中准确地识别图像中的元素。视觉模型最终的用途也非常广泛，例如，帮助车辆识别道路上的不同物体或障碍物、通过对医学图像的识别帮助疾...

AIGC 2024-03-27 人工智能

3135阅读

3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是2D数据，没有集成更通用的3D物理世界。此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了世界的动态性，以及动作和动态之间的关...

生成式AI 2024-03-26 人工智能

902阅读

零样本6D物体姿态估计框架SAM-6D，向具身智能更进一步

物体姿态估计在许多现实世界应用中起到至关重要的作用，例如具身智能、机器人灵巧操作和增强现实等。在这一领域中，最先受到关注的任务是实例级别 6D 姿态估计，其需要关于目标物体的带标注数据进行模型训练，使深度模型具有物体特定性，无法迁移应用到新物体上。后来...

大数据 2024-03-25 人工智能

931阅读

为自动驾驶而生，Lightning NeRF：速度提升10倍

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解最近的研究强调了NeRF在自动驾驶环境中的应用前景。然而室外环境的复杂性，加上驾驶场景中的视点受限，使精确重建场景几何体的任务变得复杂。这些挑战往往会导致重建质量下降...

人工智能 2024-03-19 人工智能

828阅读

全球首个基于大语言模型的自动驾驶语言控制模型

Arxiv论文链接：https://arxiv.org/abs/2312.03543项目主页：https://github.com/Petrichor625/Talk2car_CAVG 近年来，工业界和学术界都争先恐后地研发全自动驾驶汽车（AVs）。尽...

人工智能 2024-03-19 人工智能

1063阅读

实时加SOTA一飞冲天！FastOcc：推理更快、部署友好Occ算法来啦！

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在自动驾驶系统当中，感知任务是整个自驾系统中至关重要的组成部分。感知任务的主要目标是使自动驾驶车辆能够理解和感知周围的环境元素，如行驶在路上的车辆、路旁的行人、行驶过...

生成式AI 2024-03-14 人工智能

1043阅读

Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解

一、简介 2021年5月，OpenAI发表了《扩散模型超越GANs》的文章，标志着扩散模型（Diffusion Models，DM）在图像生成领域开始超越传统的GAN模型，进一步推动了DM的应用。然而，早期的DM直接作用于像素空间，这意味着要优化一...

生成式AI 2024-03-14 人工智能

3017阅读

如何只用两个Python函数在几分钟内创建完整的计算机视觉应用程序

译者 | 李睿审校 | 重楼本文首先概述典型的计算机视觉应用程序的要求。然后，介绍Pipeless这一为嵌入式计算机视觉提供无服务器开发体验的开源框架。最后，提供一个详细的步骤指南，介绍如何创建和执行一个简单的对象检测应用程序，该应用程序只需采用几...

大数据 2024-03-12 人工智能

918阅读

华人CV宗师黄煦涛高徒离职特斯拉，加入OpenAI！专攻多模态模型研究

OpenAI又迎来一位AI大将。最近，华人科学家程博文官宣离职特斯拉，即将加入OpenAI专攻多模态模型的研究。图片今天是我在特斯拉自动驾驶部门的最后一天，这一年半的经历真的很棒：有机会与才华横溢的同事们共事，学习了如何开发出色的产品等等。但我向通...

AIGC 2024-03-11 人工智能

810阅读

CLRNet：一种用于自动驾驶车道检测的分层细化网络算法

车道是具有高级语义的交通标志，特别是在视觉导航系统中尤其重要。检测车道可以使许多应用受益，例如自动驾驶和高级驾驶员辅助系统（ADAS）中的视觉导航就是一个典型的应用，它可以帮助智能车辆更好地进行自车定位并更安全地行驶。然而，车道检测拥有特定的局部模式，...

生成式AI 2024-03-08 人工智能

1067阅读

EfficientViT-SAM：精度不变原地起飞！

作者提出了EfficientViT-SAM，这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时，作者用EfficientViT替换了沉重的图像编码器。在训练方面，首先从SAM-ViT-H图像编码器向EfficientV...

大数据 2024-02-23 人工智能

1095阅读

被字节辟谣的中文版Sora，究竟厉害在哪里？

撰稿 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）近日，市场有消息称，在Sora引爆文生视频赛道之前，国内的字节跳动也推出了一款新型视频模型Boximator，与Gen-2、Pink1.0等既有模型相比，Boximator的独特...

生成式AI 2024-02-21 人工智能

873阅读

如何使用TensorFlow和Cleanvision检测大堡礁的海星威胁？

澳大利亚的大堡礁美不胜收，是全球最大的珊瑚礁，也是多种多样的海洋生物栖息的家园。不幸的是，珊瑚礁面临蚕食珊瑚的棘冠海星（COTS）的威胁。为了控制COTS爆发，珊瑚礁管理人员使用一种名为Manta Tow勘查的方法，将潜水员拖在船后，目测评估珊瑚礁的各...

生成式AI 2024-02-17 人工智能

1444阅读

如何探索和可视化用于图像中物体检测的 ML 数据

近年来，人们越来越认识到深入理解机器学习数据（ML-data）的必要性。不过，鉴于检测大型数据集往往需要耗费大量人力物力，它在计算机视觉（computer vision）领域的广泛应用，尚有待进一步开发。通常，在物体检测（Object Detectio...

人工智能 2024-02-16 人工智能

984阅读