-
大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增
大型语言模型(LLM)通常拥有数十亿的参数,用了数万亿 token 的数据进行训练,这样的模型训练、部署成本都非常高。因此,人们经常用各种模型压缩技术来减少它们的计算需求。 一般来讲,这些模型压缩技术可以分为四类:蒸馏、张量分解(包括低秩因式分解)、剪枝...
-
自动驾驶仿真大观!一起聊聊自动驾驶仿真这个行当!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 今天将由我来为大家浮光掠影地介绍一下自动驾驶仿真这个行当。 首先说为什么自动驾驶需要仿真。几年前看非诚勿扰,嘉宾黄澜表示要有2/3的人接受自动驾驶她才会接受,体现了普通群众对于自动驾驶安全性的关注。而...
-
2024年1月17日Arxiv最热论文推荐:清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作
本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。 论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台(saibomaliang.com)上的智能体 「AI论文解读达人」 提供。 如需查看其他热门论文,欢迎移步 ...
-
从零手搓MoE大模型,大神级教程来了
传说中GPT-4的“致胜法宝”——MoE(混合专家)架构,自己也能手搓了! Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。 这个项目被作者叫做MakeMoE,详细讲述了从注意力构建到形成完整MoE模型的过程。...
-
通义千问视觉语言模型Qwen-VL在线体验入口 阿里云AI在线使用入口
Qwen-VL是阿里云推出的通用型视觉语言模型,具备强大的视觉理解和多模态推理能力。采用 Transformer 结构,以 7B 参数规模进行预训练,支持 448x448 分辨率,能够端到端处理图像与文本的多模态输入与输出。Qwen-VL在多个视觉基准测试...
-
ADMap:用于重建在线矢量化高精地图的抗干扰框架
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://arxiv.org/pdf/2401.13172.pdf 代码链接:https://github.com/hht1996ok/ADMap 摘要 本文介绍了ADMap:用...
-
NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜
近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2023大会进行了精选回顾总结。 在NeurIPS会议总共接受的3586篇论文之中,除去6篇获奖论文,其他论文也同样优秀和具有潜力,甚至有可能预示着下一个AI领域的新突破...
-
一句话让小姐姐为我换了N套衣服,谷歌卷出视频生成新高度,网友:竞赛加码
谷歌一出手,又把AI视频生成卷上了新高度。 一句话生成视频,现在在名为Lumiere的AI操刀下,可以是酱婶的: △“阳光明媚,帆船在湖中航行” 如此一致性和质量,再次点燃了网友们对AI视频生成的热情:谷歌加入战局,又有好戏可看了。 不止是文生视频,...
-
FlashAttention2原理解析以及面向AIGC的加速实践
FlashAttention-2提出后,便得到了大量关注。本文将具体讲述FlashAttention-2的前世今生,包括FlashAttention1&2的原理解析、加速效果比较以及面向AIGC的加速实践,在这里将相关内容与大家分...
-
如何应对当今数据和人工智能市场的不确定性
任何一直关注数据分析和人工智能(AI 市场新闻的人都知道,过去几年发生了巨大的变化。开源语言的兴起给SAS等基础分析技术带来了压力。初创企业已经烧光了现金并吸取了惨痛的教训,有时甚至没有实现可持续的商业模式。当然,生成式人工智能的快速采用,让每个人都质疑...
-
Lumiere文生视频模型怎么使用 AI生成视频Lumiere官网地址入口
Lumiere是一个文本到视频扩散模型,旨在合成展现真实、多样和连贯运动的视频,解决视频合成中的关键挑战。我们引入了一种空时U-Net架构,可以一次性生成整个视频的时间持续,通过模型的单次传递。这与现有的视频模型形成对比,后者合成远距离的关键帧,然后进行时...
-
Whale 帷幄创始人叶生晅:AIGC 时代,营销的范式变了丨未来 AI 谈
「未来 AI 谈」是「Marteker 营销技术官」联合「Digital Frontier 首席数字官」共同发起的一档对话栏目,旨在探讨生成式 AI 的崛起对泛营销技术和营销自动化带来的影响,以期帮助全行业探索 AIGC 时代的新营销之路。...
-
苹果十年造车再次梦碎,库克把自动驾驶降到L2!烧光几十亿刀原型车流产,延期至2028
苹果的造车梦,又双叒碎了! 在十年研发汽车的关键阶段,苹果忽然转变战略,给自动驾驶大降级。 遥想当年,苹果提出进军全自动驾驶领域的时候,可是期待着造出继iPhone之后的下一个万亿美元价值的产品。 然而,苹果用了十年的时间,每年都投入数亿美元之后,终...
-
万字总结 | 2023大模型与自动驾驶论文走马观花
本文经自动驾驶之心公众号授权转载,转载请联系出处。 2023年已经匆匆过去大半,不知各位自动驾驶小伙伴今年的工作生活情况是否顺利呢?高阶ADAS方案量产了吗?新的文章和实验进展又是否顺利呢?今天给大家总结了2023年前后的一些自动驾驶结合大模型的开创性...
-
迈向分割的大一统!OMG-Seg:一个模型搞定所有分割任务
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者个人思考 图像分割已经从单任务分割走到了语义分割、实例分割、全景分割三种分割任务的统一;大模型以及多模态的发展又带来了文本和图像统一,使得跨模态端到端成为可能;追求更高级、更全面...
-
百分点科技宣布接入百度文心一言能力
2月16日, 百分点科技宣布成为百度文心一言(英文名:ERNIE Bot)首批生态合作伙伴。后续,百分点科技将全面体验并接入文心一言的能力。 百分 点科技专注于数据科学理论和技术的创新实践,长期坚持基础技术和行业应用并重的自主研发...
-
文心一言放开,百度搜索AI最强评测
今天凌晨,百度突然官宣,文心一言全面开放,人人都能上手用了! 现在,只需登陆「文心一言官网」即可体验。 真正重磅的是,一批全新重构的百度AI原生应用,包括百度搜索、「文心一言APP」、输入法、百度文库率先开放。 人人皆知,百度搜索是...
-
2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈
本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。 以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。 如需查看其他热门论文,欢迎移步saibo...
-
AI计算如何助推800G光模块发展?
...
-
迈向端到端自动驾驶,地平线正式开源Sparse4D算法
1月22日,地平线将纯视觉自动驾驶算法——Sparse4D系列算法开源,推动行业更多开发者共同参与到端到端自动驾驶、稀疏感知等前沿技术方向的探索中。目前,Sparse4D算法已在GitHub平台上线,开发者可关注地平线GitHub官方账号“Horizon...
-
蚂蚁数科CTO王维:我们不会直接做大模型,专注垂类行业应用
“AI与数据是相生相伴的共同体,高质量的行业数据才能使大模型在产业发挥更大价值。蚂蚁数科将进一步拓展数据相关技术的布局,以加速产业数字化迈入下一阶段。”1月19日,王维首次以蚂蚁数科CTO的身份亮相媒体沟通会。 数据是数字时代的“新石油”。王维认为,一方面...
-
MagicVideo-V2体验入口 字节AI视频生成工具使用方法下载链接
MagicVideo-V2 是一款卓越的AI视频生成工具,它集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,构建了一个端到端视频生成管道。如果您想了解如何使用MagicVideo-V2 以及它的出色特点,请继续阅读。 MagicVid...
-
部署新思路 | Minuet:在 GPU 上加速 3D 稀疏卷积
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Minuet: Accelerating 3D Sparse Convolutions on GPUs 论文链接:https://arxiv.org/pdf/2401.06145.pdf 代码...
-
【他山之石】360 多兴趣召回 Mind 实战优化
一、业务背景 随着短视频和信息流等场景的兴起,用户在这些场景中产生了大量的行为序列,包括曝光、播放、点击、点赞和关注等。这些序列本身就具备很高的价值。因此涌现出了许多序列模型,如 YouTube DNN [1]、GRU4REC [2]、MIND [3]等...
-
一张图500元是目前AIGC最高“回报”?小冰李笛:调用API的商业模式不适用于未来 | MEET 2024...
编辑部 发自 凹非寺量子位 | 公众号 QbitAI AIGC在商业界中,最大的一笔回报是多少? 答案可能是:一张图片,500元。 而且这就是发生在最近、号称人工智能著作权第一案的真实案例: A利用人工智能技术生成了一张图片,...
-
智能车的「ChatGPT时刻」,还有多远?
要说今年“科技春晚”CES上最吸引眼球的是什么,智能车当属其一。 毕竟大模型一上车,智能座舱都卷成酱婶了: 让车上的数字助手帮忙记录约饭日程,Ta能直接帮你把餐厅也给预定了。 △骁龙座舱平台效果展示 规划路线这种事儿也变得充满巧思,数字助手会根据你的习...
-
智能车的「ChatGPT时刻」,还有多远?| 模力时代
要说今年“科技春晚”CES上最吸引眼球的是什么,智能车当属其一。 毕竟大模型一上车,智能座舱都卷成酱婶了: 让车上的数字助手帮忙记录约饭日程,Ta能直接帮你把餐厅也给预定了。 △骁龙座舱平台效果展示 规划路线这种事儿也变得充满巧思,数字助手会根据你的习...
-
ICLR'24无图新思路!LaneSegNet:基于车道分段感知的地图学习
写在前面&笔者的个人理解 地图作为自动驾驶系统下游应用的关键信息,通常以车道或中心线表示。然而,现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系,即车道线绑定中心线。虽然在一个模型中...
-
ICLR 2024接收率31%,清华LCM论文作者:讲个笑话,被拒了
ICLR 2024 国际学习表征会议已经来到了第十二届,将于今年 5 月 7 日 - 11 日在奥地利维也纳会展中心举行。 在机器学习社区中,ICLR 是较为「年轻」的学术顶会,它由深度学习巨头、图灵奖获得者 Yoshua Bengio 和 Yann L...
-
机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接...
-
马斯克发“擎天柱”机器人叠衣服视频 动作虽慢但自然
1月16日消息,当地时间周一特斯拉首席执行官埃隆·马斯克(Elon Musk)在社交媒体X上发布了公司人形机器人“擎天柱”(Optimus)叠衣服的演示视频,令人印象深刻。 特斯拉最终希望人形机器人能够帮助制造汽车,但目前还不能做到这一点。 当该公司首...
-
马斯克机器人炫技引千万网友围观!
特斯拉机器人,开始干家务了。 马斯克通过最新视频,晒起特斯拉擎天柱机器人叠衣服,引发大量网友围观。 现在机器人叠衣服只需要3步,30秒一件。 第一步,先把衣服从篮子里拿出来,直接就叠好一边袖子。 第二步,丝滑调整衣服位置,对齐另外半边。 最后一头一...
-
超越BEVFusion!又快又好的极简BEV融合部署方案
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 在算法开发中,激光雷达-相机3D目标检测遇到了过度拟合问题,这是由于违反了一些基本规则。在数据集构建的数据标注方面,本文参考了理论补充,并认为回归任务预测不应涉及来自...
-
OpenVINO异步Stable Diffusion推理优化方案
文章目录 Stable Diffusion 推理优化 背景 技术讲解: 异步优化方案思路: 异步推理优化原理 OpenVINO异步推理Python API...
-
【计算机视觉 | 目标检测】术语理解9:AIGC的理解,对比学习,解码器,Mask解码器,耦合蒸馏,半耦合,图像编码器和组合解码器的耦合优化
文章目录 一、AIGC的理解 二、对比学习 三、解码器 四、Mask解码器 五、耦合蒸馏 六、半耦合 七、图像编码器和组合解码器的耦合优化 一、AIGC的理解 AIGC指的是使用人工智能技术自动生成的各类数字内容,包括文本、图像、...
-
视觉高精地图构建的全面回顾!一起看看无图感知都有哪些落地方案(清华&滴滴)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 近年来,自动驾驶受到越来越多的关注,高精地图成为自动驾驶技术的关键组成部分。这些地图提供了道路网络的复杂细节,并作为车辆定位、导航和决策等关键任务的基本输入。鉴于视觉...
-
13个优秀开源语音识别引擎
语音识别(ASR)在人机交互方面发挥着重要的作用,可用于:转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括:分析音频、音频分解、格式转换、文本匹配,但实际的语音识别系统可能会更复杂,并且可能包括其他步骤和功能组件...
-
机器人又拿下一种家务:10小时学会煮咖啡,仅需观看人类演示视频
上周斯坦福炒虾机器人炸场之后,又火了一个煮咖啡机器人。 它的厉害之处在于通过观看人类的示范视频,仅需10小时端到端训练,就能学会并完全自主搞定这一任务。 当然,更准确地来说是操作咖啡机: 只见它打开机盖、放入咖啡包,再按下开始按钮,整个过程一气呵成,无...
-
MongoDB携手亚马逊云科技优化Amazon CodeWhisperer建议,助力开发者在MongoDB上构建应用程序
MongoDB (NASDAQ: MDB 和亚马逊 (NASDAQ: AMZN 旗下的亚马逊云科技(AWS)今日宣布,双方正在协作优化Amazon CodeWhisperer,为在MongoDB上的应用程序开发和改进工作提供更好的建议和支持。Mongo...
-
何为交互感知?全面回顾自动驾驶中的社会交互动态模型与决策前沿!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 交互感知自动驾驶(IAAD)是一个迅速发展的研究领域,专注于开发能够与人类道路使用者安全、高效交互的自动驾驶车辆。这是一项具有挑战性的任务,因为它要求自动驾驶车辆能够理...
-
一张图500元是目前AIGC最高“回报”?小冰李笛:调用API的商业模式不适用于未来 | MEET 2024
AIGC在商业界中,最大的一笔回报是多少? 答案可能是:一张图片,500元。 而且这就是发生在最近、号称人工智能著作权第一案的真实案例: 这个案子出来之后,引发了很多人都会讨论,认为它会不会对法学界、对人工智能的著作权、版权等问题的实践具有一些新的指导意...
-
小冰正式发布克隆人:已经有人拿它年入100万了!
凭着AI,月入10万、年入100万,你敢想? 别不信,好几位百万粉丝网红已经做到了。 例如半藏森林,她用AI的打开方式是这样的: 不仅容貌和声音与真人无异,而且还是可以秒回消息、打视频电话聊天的那种。 而这,便是由小冰克隆人在这个世界中打造的另一位半藏森...
-
AI平台:腾讯智影-在线智能视频创作平台
腾讯智影-在线智能视频创作平台 登录智影AI智能创作工具融合多种 AIGC 能力,智能视频创作只需一个工具。立即体验数字人文本配音文章转视频选择角色并输入文字即可生成视频,可以定制你的专属数字人形象大家好,我是腾讯智影推出的...
-
让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更...
-
在选择GenAI供应商时如何权衡风险和回报
11月中旬,OpenAI董事会解雇了公司CEO奥特曼,他让ChatGPT声名鹊起,并开启了企业AI部署的新纪元。在接下来的三天里,几乎所有的公司员工都表示要离开公司,OpenAI的命运看起来非常不确定。 整个业务都建立在OpenAI及其API之上。 根...
-
端到端的自动驾驶会取代Apollo、autoware这类框架吗?
本文经自动驾驶之心公众号授权转载,转载请联系出处。 Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes 作者单位:百度 作者:共一 Jian...
-
苹果ferret官网体验入口 Apple AI模型工具免费下载地址
Appleml-ferret是一个先进的端到端机器学习语言模型(MLLM),专门设计用于在多模态环境中进行精准定位。它结合了混合区域表示和空间感知的视觉采样器,支持对细粒度和开放词汇的引用和定位。此外,ml-ferret还包含了包括约 110 万个样本的G...
-
AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型
在 19 世纪,印象主义的艺术运动在绘画、雕塑、版画等艺术领域盛行,其特点是以「短小的、断断续续的笔触,几乎不传达形式」为特征,就是后来的印象派。简单来说印象派笔触未经修饰而显见,不追求形式的精准,模糊的也合理,其将光与色的科学观念引入到绘画之中,革新...
-
Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%
最近几年发布的AI模型,如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构,但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势,这一特性严重限制了Transformer在长序列下的应用,例如无法一次性处理一...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...