- 
        自监督学习:让ai从无标签数据中自主学习标题:自监督学习:让AI从无标签数据中自主学习在人工智能的浩瀚宇宙中,监督学习曾长期占据主导地位,它依赖于大量标注精确的数据来训练模型,从而实现高精度的预测或分类任务。然而,随着数据量的爆炸式增长和标注成本的高昂,人们开始探索如何在缺乏明确标签的情况下,让... 
- 
        多模态大模型:文本、图像与语音的终极融合标题:多模态大模型:文本、图像与语音的终极融合——开启智能交互新时代随着人工智能技术的飞速发展,我们正逐步迈入一个前所未有的智能时代。在这个时代里,信息的传递与处理不再局限于单一维度,而是向着多元化、综合化的方向迈进。多模态大模型,作为这一趋势的集大成者,... 
- 
        图神经网络:解锁复杂关系数据的密钥标题:图神经网络:解锁复杂关系数据的密钥在大数据与人工智能蓬勃发展的今天,数据的复杂性日益凸显,尤其是在处理具有复杂关联性和层次结构的数据时,传统方法往往显得力不从心。图神经网络(Graph Neural Networks, GNNs)作为一种新兴的深度学... 
- 
        自监督学习:减少对标注数据的依赖自监督学习:减少对标注数据的依赖在人工智能和机器学习的广阔领域中,数据标注一直是一个核心而复杂的环节。传统的监督学习方法依赖于大量经过精心标注的数据来训练模型,然而,高质量的标注数据往往稀缺且成本高昂。为了解决这一问题,自监督学习作为一种新兴范式,正逐渐... 
- 
        自监督学习:从无标注数据中挖掘知识自监督学习:从无标注数据中挖掘知识的艺术在人工智能领域,数据标注一直是一个既耗时又昂贵的环节。然而,随着技术的不断进步,一种名为“自监督学习”的方法正在悄然改变这一现状。自监督学习通过巧妙设计算法,使模型能够从无标注数据中自动挖掘出有价值的信息和知识,从而... 
- 
        数据挖掘中的多模态数据融合标题:数据挖掘中的多模态数据融合:挑战、方法与未来展望随着信息技术的飞速发展,数据呈现出爆炸性增长,且形式多样,包括但不限于文本、图像、音频、视频等,这些数据被统称为多模态数据。在数据挖掘领域,多模态数据融合成为了一个热门且至关重要的研究方向。它旨在通过整... 
- 
        一文看懂llama2(原理&模型&训练)Llama2(大型语言模型2) Llama2(大型语言模型2)主要基于近年来火爆的Transformer架构。下面是Llama2的几个核心原理: Transformer 架构: Llama2采用了Transformer网络,它通过自注意力机制来处理... 
- 
        AIGC学习笔记—LLM(前言)大语言模型本身我不是很了解,但是掌握一些基础的知识点,由于要准备某个公司的二面,所以浅学一下这个技术,也是边摸索边学习...... 首先,我先简单的解释一下大模型,大模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十... 
- 
        AI自学超越人工标注训练,蚂蚁数科2篇自监督学习论文入选国际顶会近日,蚂蚁数科2项研究成果分别入选“欧洲计算机视觉会议(ECCV)”和“国际机器学习大会(ICML ”,可实现无需人工打标数据的情况下,通过自监督学习、强化学习等方法训练模型输出可信结果。据悉,两项成果将被应用于视频版权保护和智能问答领域。作为人工智能领域... 
- 
        Whisper-AT:抗噪语音识别模型(Whisper)实现通用音频事件标记(Audio Tagger)本文介绍一个统一音频标记(Audio Tagger)和语音识别(ASR)的模型:Whisper-AT,通过冻结Whisper的主干,并在其之上训练一个轻量级的音频标记模型。Whisper-AT在额外计算成本不到1%的情况下,可以在单次前向传递... 
- 
        阿里图片编辑项目MimicBrush 可通过AI技术完美融合两张图片(附MimicBrush产品地址)MimicBrush 是阿里巴巴推出的一款创新的图片编辑项目,它通过先进的AI技术,能够将一张图片的某一部分融合到另一张图片上。这项技术在电商商品展示、图片编辑和内容迁移等多个领域具有广泛的应用潜力。 核心特点: 模仿式编辑:用户可以直接从野外参考图像... 
- 
        基于分层自监督学习将视觉Transformer扩展到千兆像素图像本文经计算机视觉研究院公众号授权转载,转载请联系出处。 Vision Transformers (ViT 及其多尺度和分层变体已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如256×256、384×384)。 1 概括 对于计算病... 
- 
        简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024本文经计算机视觉研究院公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2405.08768 代码和预训练模型已开源:https://github.com/LeapLabTHU/EfficientTrain 会议... 
- 
        综述!全面概括基础模型对于推动自动驾驶的重要作用写在前面&笔者的个人理解 近年来,随着深度学习技术的发展和突破,大规模的基础模型(Foundation Models)在自然语言处理和计算机视觉领域取得了显著性的成果。基础模型在自动驾驶当中的应用也有很大的发展前景,可以提高对于场景的理解和推理。... 
- 
        综述170篇「自监督学习」推荐算法,港大发布SSL4Rec:代码、资料库全面开源!推荐系统对于应对信息过载挑战至关重要,它们根据用户的个人偏好提供定制化推荐。近年来深度学习技术极大地推动了推荐系统的发展,提升了对用户行为和偏好的洞察力。 然而,由于数据稀疏性的问题,传统的监督学习方法在实际应用中面临挑战,这限制了它们有效学习用户表示的... 
- 
        Meta 发布新多token预测技术,使AI模型速度提升3倍近期,Meta、Ecole des Ponts ParisTech 和 Université Paris-Saclay 的研究人员在一项研究中提出了一种改进 AI 大型语言模型(LLMs)准确性和速度的方法,即通过同时预测多个token。这与自回归语言模型... 
- 
        LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向机器如何能像人类和动物一样高效地学习?机器如何学习世界运作方式并获得常识?机器如何学习推理和规划…… 当一系列问题被提出时,有人回答自回归 LLM 足以胜任。 然而,知名 AI 学者、图灵奖得主 Yann LeCun 并不这么认为,他一直唱衰自回归 LL... 
- 
        AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快AssemblyAI 最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。先说结果,Universal-1比Whisper Large-v3更准确,比fast Whisper更快,38秒... 
- 
        量产杀器!P-Mapnet:利用低精地图SDMap先验,建图性能暴力提升近20个点!本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一,现有的算法在远距离范围下的感知表现依然较差。为此,我们提出了P-MapNet,其中的“P”强调我们专注于融合地图先验以... 
- 
        CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在... 
- 
        何恺明新作:消除数据集偏差的十年之战MIT新晋副教授何恺明,新作新鲜出炉: 瞄准一个横亘在AI发展之路上十年之久的问题:数据集偏差。 该研究为何恺明在Meta期间与刘壮合作完成,他们在论文中指出: 尽管过去十多年里业界为构建更大、更多样化、更全面、偏差更小的数据集做了很多努力,但现代神经... 
- 
        UniPAD:一种通用的自动驾驶预训练模式本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 UniPAD研究了一个关键问题:如何有效地利用大量未标记的3D点云数据进行自监督学习,以增强其在3D目标检测和语义分割等下游任务中的应用效率。这个问题之所以重要,是... 
- 
        谷歌通用AI智能体发布,3D游戏玩法要变天了谷歌DeepMind号称打造出了首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体。 名为SIMA,不是NPC,是可以成为玩家拍档,帮忙干活打杂的那种。 比如,在《模拟山羊3》(Goat Simulator 3)中当司机开开车: 在... 
- 
        首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任图学习(Graph Learning)技术能够对复杂的关系数据进行挖掘和学习,在推荐系统、社交网络分析、引用网络和交通网络等多个领域都显示出了巨大的应用价值。 图神经网络(Graph Neural Networks, GNNs)基于迭代的消息传递机制,能... 
- 
        “羊驼“入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA本文首发:AIWalker https://arxiv.org/abs/2403.00522 https://github.com/Meituan-AutoML/VisionLLaMA 本文概述 大型语言模型构建在基于Transf... 
- 
        怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。 面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误: 归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到... 
- 
        VSP-LLM官网体验入口 视觉语音处理AI模型免费使用下载地址VSP-LLM是一个结合视觉语音处理与大型语言模型的框架,旨在通过LLMs的强大能力最大化上下文建模能力。VSP-LLM设计用于执行视觉语音识别和翻译的多任务,通过自监督视觉语音模型将输入视频映射到LLM的输入潜在空间。该框架通过提出一种新颖的去重方法和低... 
- 
        揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。 在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发... 
- 
        OS-AIGC通用生成式人工智能模型加密接入标准API协议-2023 Beta版说明 OS-AIGC通用生成式人工智能模型加密接入标准API协议(Universal Language Model Encryption Access Standard API Protocol)国内的通用语言大模型的加密接入标准API协议。能够适配各种... 
- 
        未来五年AI如何改变各学科?从LLM到AI蛋白设计、医疗保健......五年前(2019 年 1 月),《Nature Machine Intelligence》创刊。当然,就人工智能(AI)而言,五年前似乎是一个不同的时代。 1 月 24 日,Nature Machine Intelligence 杂志在《Annivers... 
- 
        [论文精读] 自条件图像生成 - 【恺明大神新作,AIGC 新基准】论文导读: 论文背景: 2023年8月,AI大神何恺明在个人网站宣布,2024年将加入MIT担任教职,回归学术界。这篇论文是其官宣加盟MIT后首度与MIT师生合著的公开论文,论文一作本科毕业于清华姚班,二作为MIT电气工程与计算机科学系教授,今年的斯... 
- 
        马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力Sam Altman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。 那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平? 当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视... 
- 
        ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞如何根据特定需求选择视觉模型? ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指标上如何相互比较? 来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。 论文地址:ht... 
- 
        谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途获取高质量数据,已经成为当前大模型训练的一大瓶颈。 前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。 甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。 一直以来,AI界多位大佬认为「合成数据」... 
- 
        ChatGPT和文心一言的优缺点比较ChatGPT和文心一言都是自然语言生成技术的代表,下面是它们的优缺点比较: ChatGPT的优点: 自由度高:ChatGPT生成的文本与给定的话题没有紧密的关联,可以灵活地生成多种不同的文本。 多样性高:ChatGPT可以生成多样性高的文本,因为其... 
- 
        Meta语音达LLaMA级里程碑!开源MMS模型可识别1100+语言【新智元导读】Meta的大规模多语言语音 (MMS) 项目将彻底改变语音技术,使用wav2vec 2.0的自监督学习,MMS将语音技术扩展到1100到4000种语言。 在语音方面,Meta又达到了另一个LLaMA级的里程碑。 今天,Me... 
- 
        R-CNN作者Ross Girshick离职,何恺明、谢赛宁回归学界,Meta CV走出了多少大神FAIR 又一位大佬级研究科学家「出走了」,这次是 R-CNN 作者 Ross Girshick。 近日,Meta 首席科学家 Yann LeCun 发推宣布,Ross Girshick 将离开 FAIR,加入艾伦人工智能研究所(AI2)。此前离职的还... 
- 
        AIGC之GPT-4:GPT-4的简介与详细攻略AIGC之GPT-4:GPT-4的简介与详细攻略 简介 欢迎来到人工智能生成内容(AIGC)时代的新篇章!本篇博客将介绍GPT-4(Generative Pre-trained Transformer 4)的核心原理、意义、亮点、技术点、缺点以及使... 
- 
        疑似威胁人类?OpenAI神秘Q*项目更多信息曝光,马斯克、Lecun下场争论…夕小瑶科技说 原创 作者 | 王二狗大家好我是二狗 随着前天 OpenAI 官宣 Sam Altman 将回归,并继续担 CEO,OpenAI“宫斗事件”已经告一段落了。 然而,对于专业吃瓜的二狗来说,有一个核心问题还是没有搞明白: Sam Altman... 
- 
        图像相似度比较之 CLIP or DINOv2在人工智能领域,计算机视觉的两大巨头是CLIP和DINOv2。CLIP改变了图像理解的方式,而DINOv2为自监督学习带来了新的方法。在本文中,我们将探索定义CLIP和DINOv2的强项和微妙之处的旅程。我们旨在发现这些模型中哪一个在图像相似度任务的世界... 
- 
        UniPAD:通用自动驾驶预训练模式!各类感知任务都可支持本文经自动驾驶之心公众号授权转载,转载请联系出处。 最近,新论文推陈出新的速度着实太快有点读不过来的感觉。可以看到的是,语言视觉多模态大模型融合已经是业界共识了,UniPad 这篇文章就比较有代表性,多模态的输入,类世界模型的预训练基座模型,同时又方便扩... 
- 
        马毅、沈向洋联手,首届CPAL开奖!16人获新星奖,华人学者占据半壁江山就在昨天,首届CPAL简约学术会议,正式公布了新星奖获奖者名单! CPAL专注于解决机器学习、信号处理、优化等领域中普遍存在的简约、低维结构问题,并探索低维结构在智能硬件与系统、交叉科学和工程等新兴方向的应用。 创办这个会议的出发点,就是将其设计为一个... 
- 
        UniPAD:自动驾驶通用预训练范式来了!本文经自动驾驶之心公众号授权转载,转载请联系出处。 UNIPAD:自动驾驶通用预训练范式 原标题:UNIPAD: A UNIVERSAL PRE-TRAINING PARADIGM FOR AUTONOMOUS DRIVING 论文链接:https:/...