-
AI机器人席卷CES!OpenAI暗自解除ChatGPT军事应用限制,天网来了?
前一阵的斯坦福「炒虾机器人」,让无数人感慨:2024年怕不是要成为机器人元年? 就在这几天的CES 2024上,又一大波机器人在展厅里引起了轰动! 比如这个机器人咖啡师,娴熟地将一壶光滑的泡沫牛奶倒在拿铁咖啡上。 开始,它会慢慢倒出牛奶,随后,它优雅...
-
如何高效部署大模型?CMU最新万字综述纵览LLM推理MLSys优化技术
在人工智能(AI)的快速发展背景下,大语言模型(LLMs)凭借其在语言相关任务上的杰出表现,已成为 AI 领域的重要推动力。然而,随着这些模型在各种应用中的普及,它们的复杂性和规模也为其部署和服务带来了前所未有的挑战。LLM 部署和服务面临着密集的计算强...
-
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一...
-
Meta承认使用盗版书籍训练AI:拒绝赔偿作家
快科技1月14日消息,据国内媒体报道,Meta最近因使用数千本盗版书籍训练人工智能模型存在法律风险而引发版权侵权诉讼。 据悉,Meta使用大量盗版书籍的Books3”数据集训练其LLAM 1和LLAM 2模型,Meta虽承认使用了 Books3 数据集,却...
-
实战AI大模型:AIGC及经典模型
今天,人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣,它不仅成为技术发展的核心驱动力,更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习,通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型(简称AI大模型)以其强大的...
-
大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性! 而且还是自定义那种,16种MBTI都能选。 图源备注:图片由AI生成,图片授权服务商Midjourney 这样一来,即便是同一个大模型,不同性格下的回答都不一样。 比如提问:你周末喜欢干什么? 这样能干啥呢?北大的童...
-
视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
视频场景图生成(VidSGG)旨在识别视觉场景中的对象并推断它们之间的视觉关系。 该任务不仅需要全面了解分散在整个场景中的每个对象,还需要深入研究它们在时序上的运动和交互。 最近,来自中山大学的研究人员在人工智能顶级期刊IEEE T-IP上发表了一篇论文...
-
为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
在当前智能对话模型的发展中,强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库,而如何构建这样的语料库,已成为行业中的一大挑战。 在备受瞩目的 AI for Math 领域,由于高质量的数学语料相对稀缺,这限制了生成式...
-
AI机器人席卷CES!OpenAI暗自解除ChatGPT这项限制,天网来了?
【新智元导读】CES2024上,各路机器人又是做咖啡拉花,又是给人按摩,让人大开眼界。然而就在这时,网友却惊讶地发现,OpenAI竟然悄悄删除了ChatGPT用于*和战争的限制! 前一阵的斯坦福「炒虾机器人」,让无数人感慨:2024年怕不是要成为机器人元年...
-
【腾讯云HAI】都2023年了,HAI没玩过AIGC?
:::info 腾讯云高性能应用服务(Hyper Application lnventor,HA ,是一款面向 Al、科学计算的 GPU 应用服务产品,为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。在 HA] 中,根据应...
-
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍! 而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。 有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。 近日,来自得克萨斯农...
-
单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA
如何从一段视频中找出感兴趣的片段?时序行为检测(Temporal Action Localization,TAL)是一种常用方法。 利用视频内容进行建模之后,就可以在整段视频当中自由搜索了。 而华中科技大学与密歇根大学的联合团队最近又为这项技术带来了新的...
-
微软祭出代码大模型WaveCoder!四项代码任务两万个实例数据集,让LLM泛化能力飙升
用高质量数据集进行指令调优,能让大模型性能快速提升。 对此,微软研究团队训练了一个CodeOcean数据集,包含了2万个指令实例的数据集,以及4个通用代码相关任务。 与此同时,研究人员微调了一个代码大模型WaveCoder。 论文地址:https://...
-
吃了几个原作者才能生成这么逼真的效果?文生图涉嫌视觉「抄袭」
不久之前,《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。 GPT-4 输出的许多回答中,几乎逐字逐句地抄袭了《纽约时报》的报道: 图中红字是 GPT-4 与《纽约时报》报道重复的部分。 对此,各个专...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了
当大家都在研究大模型(LLM)参数规模达到百亿甚至千亿级别的同时,小巧且兼具高性能的小模型开始受到研究者的关注。 小模型在边缘设备上有着广泛的应用,如智能手机、物联网设备和嵌入式系统,这些边缘设备通常具有有限的计算能力和存储空间,它们无法有效地运行大型语...
-
何为交互感知?全面回顾自动驾驶中的社会交互动态模型与决策前沿!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 交互感知自动驾驶(IAAD)是一个迅速发展的研究领域,专注于开发能够与人类道路使用者安全、高效交互的自动驾驶车辆。这是一项具有挑战性的任务,因为它要求自动驾驶车辆能够理...
-
突破 Pytorch 核心点,自动求导 !!
嗨,我是小壮! 关于pytorch中的自动求导操作,介绍有关pytorch自动求导的概念. 自动求导是深度学习框架中的一项重要功能,它允许机器学习模型自动计算梯度,进而进行参数更新和优化。 PyTorch是一个流行的深度学习框架,它通过动态计算图和自动...
-
顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成逼真表情与动作
当你和朋友隔着冷冰冰的手机屏幕聊天时,你得猜猜对方的语气。当 Ta 发语音时,你的脑海中还能浮现出 Ta 的表情甚至动作。如果能视频通话显然是最好的,但在实际情况下并不能随时拨打视频。 如果你正在与一个远程朋友聊天,不是通过冰冷的屏幕文字,也不是缺乏表情...
-
人工智能可以像人类一样拥有创造力吗?
创造力是人类的一种独特的能力,它使我们能够创造出新颖、有价值、有意义的作品,如艺术、文学、科学、技术等。创造力也是人类社会的一种重要的驱动力,它促进了文化、经济、教育等领域的发展和进步。创造力到底是什么?它是如何产生的?它又如何被评估和提升的?这些问题一...
-
年度大盘点:AIGC、AGI、GhatGPT震撼登场!揭秘人工智能大模型的奥秘与必读书单
这里写目录标题 前言 01 《ChatGPT 驱动软件开发》 02 《ChatGPT原理与实战》 03 《神经网络与深度学习》 04 《AIGC重塑教育》 05 《通用人工智能》 前言 在2023年,人工智能领域经历了一场前...
-
攻克图像「文本生成」难题,碾压同级扩散模型!两代TextDiffuser架构深度解析
近年来,文本生成图像领域取得了显著进展,尤其是基于扩散(Diffusion)的图像生成模型在细节层面上展现出逼真的效果。 然而,一个挑战仍然存在:如何将文本准确地融入图像。 生活中存在大量的「含文本图像」,从广告海报到书籍封面,再到路牌指示,都包含了重要...
-
模型A:幸亏有你,我才不得0分,模型B:俺也一样
琳琅满目的乐高积木,通过一块又一块的叠加,可以创造出各种栩栩如生的人物、景观等,不同的乐高作品相互组合,又能为爱好者带来新的创意。 我们把思路打开一点,在大模型(LLM)爆发的当下,我们能不能像拼积木一样,把不同的模型搭建起来,而不会影响原来模型的功能,...
-
当LLM学会左右互搏,基础模型或将迎来集体进化
金庸武侠小说中有一门武学绝技:左右互搏;乃是周伯通在桃花岛的地洞里苦练十余年所创武功,初期想法在于左手与右手打架,以自娱自乐。而这种想法不仅能用来练武功,也能用来训练机器学习模型,比如前些年风靡一时的生成对抗网络(GAN)。 进入现今的大模型 (LLM ...
-
语言模型是如何感知时间的?「时间向量」了解一下
语言模型究竟是如何感知时间的?如何利用语言模型对时间的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时间变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定...
-
文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费
“发光的水母从海洋中慢慢升起,”在 Morph Studio 中继续输入想看到的景象,“在夜空中变成闪闪发光的星座”。 几分钟后,Morph Studio 生成一个短视频。一只水母通体透明,闪闪发光,一边旋转着一边上升,摇曳的身姿与夜空繁星相映成趣。...
-
看见这张图没有,你就照着画:谷歌图像生成AI掌握多模态指令
用图2的风格画图1的猫猫并给它戴上一顶帽子。谷歌新设计的一种图像生成模型已经能做到这一点了!通过引入指令微调技术,多模态大模型可以根据文本指令描述的目标和多张参考图像准确生成新图像,效果堪比 PS 大神抓着你的手助你 P 图。 在使用大型语言模型(LLM...
-
谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打
火爆全网的斯坦福炒虾机器人,一天之内人气暴涨。 毕竟这样能炒菜能洗碗的全能机器人,谁不想带一个回家,把自己从家务中解放出来呢! 据说,这个项目是斯坦福华人团队花了三个月的时间做出来的。 今天,团队直接放出了更多细节。 这个机器人的技能多种多样,令人眼...
-
科学期刊将引入AI工具Proofig检测图片欺诈
日前,科学期刊Science宣布其所有期刊将开始使用商业软件,自动检测不当篡改的图像。 Science称,他们的所有期刊将开始使用商业软件 Proofig,以自动检测被不适当操控的图像。这一决定被认为是一项重要的举措,旨在防范科学研究中的欺诈行为,尤其是图...
-
LeCun自曝曾因工资太低拒绝谷歌Offer!如果自己加入,会让谷歌研究文化更开放
图灵三巨头之一的LeCun,本来可以入职谷歌,甚至让它更开放? 最近,LeCun在网上分享出的这段陈年往事,让许多人大呼意外。 2002年,他拒绝了去谷歌当研究总监 原来,2002年1月,LeCun曾收到拉里·佩奇的邀请,去谷歌当研究主管。 不过,考虑...
-
科学家称AI存在5%的概率导致人类灭绝
在最新一项对人工智能研究者的调查中,科学家们普遍认为,超级人工智能的可能发展存在导致人类灭绝的非微不足道的风险,然而在这一问题上存在广泛的分歧和不确定性。 这一发现来自对2700名近期在六个顶级AI会议上发表论文的研究者进行的调查,这是迄今为止最大规模的A...
-
室温超导有续集?中国团队再次证明LK-99可能存在迈斯纳效应,论文刚刚上传
一篇室温超导论文,再次掀起了互联网的小小波动。 在最新的一篇论文中,作者们再次证明了室温下铜取代铅磷灰石(LK-99)中可能存在迈斯纳效应。 论文链接:https://arxiv.org/pdf/2401.00999.pdf 在室温下,用铜取代的铅磷灰...
-
李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了
AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄...
-
让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略(generalizable vision-based human-to-robot handover policies)。这种可泛化策略使得机器人能更...
-
ChatGPT在儿科疾病诊断中错误率高达83%
发表在《美国医学会儿科杂志》上的一项研究表明,ChatGPT-4在儿科医学病例的诊断方面的准确率仅为17%,较去年一般医学病例的39%更低。 这一低成功率显示出人类儿科医生在短时间内不太可能失业的现实,研究强调了临床经验在医学领域的不可替代性。研究人员指出...
-
面部图像修复突破性AI方法Dual-Pivot Tuning 实现人脸模糊变高清
图像修复一直是一个备受研究者关注的复杂挑战,其主要目标是在维持降质输入的感知质量的同时,创建视觉上吸引人且自然的图像。在没有有关主题或降质的信息的情况下(盲目恢复),了解自然图像范围至关重要。为了恢复面部图像,必须在确保输出保留个体独特面部特征之前包含身份...
-
黑客解锁特斯拉自动驾驶系统的“隐藏模式”
在近日举行的混沌计算大会上,来自柏林工业大学的三名网络安全研究人员演示了如何通过“电压故障攻击”成功破解特斯拉的自动驾驶系统,不但能获取系统和用户敏感数据,而且解锁了特斯拉自动驾驶的隐藏模式——“Elon模式”。 特斯拉自动驾驶的隐藏模式——“Elon...
-
GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发
如今,GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。 然而,如果想在不影响性能的前提下,寻求具有成本效益的替代方案,开源方案就蕴藏着无限可能。 国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案,可...
-
AI识别出地震先兆信号?机器学习发现数据神秘关联,人类有望预测地震
最近一段时间,世界各地地震频发。 就在1月1日,日本突发里氏7.6级的地震,随后陆续有灾情传出。据统计,目前至少已有62人死亡。 而下面这个问题,也再一次被提起:人类究竟什么时候能及时预测地震呢? 别急,已经在进步了。 现在,在用AI和其他技术及时预测...
-
高情商的NPC来了,刚伸出手,它就做好了要配合下一步动作的准备
在虚拟现实、增强现实、游戏和人机交互等领域,经常需要让虚拟人物和屏幕外的玩家互动。这种互动是即时的,要求虚拟人物根据操作者的动作进行动态调整。有些互动还涉及物体,比如和和虚拟人物一起搬动一把椅子,这就需要特别关注操作者手部的精确动作。智能、可交互的虚拟人...
-
百度大模型这一年:文心一言国内首个用户破亿,飞桨开发者超千万
文心一言用户规模破1亿,飞桨的开发者数量达到1070万。 只用短短两个月,文心大模型4.0整体效果又提升了32%。 2023年12月28日,在刚刚过去的 WAVE SUMMIT+2023深度学习开发者大会上,百度揭幕了文心大模型与深度学习平台飞桨的一系列新...
-
从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述
大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其...
-
这是GPT-4变笨的新解释
变笨的本质是知识没进脑子。 自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场「信任危机」。 如果说今年早些时候那次「间歇式降智」与 OpenAI 重新设计 GPT-4架构有关,前段时间的「变懒」传闻就更搞笑了,有人测出只要告诉 GPT-4「现在...
-
文生视频下一站,Meta已经开始视频生视频了
文本指导的视频到视频(V2V)合成在各个领域具有广泛的应用,例如短视频创作以及更广泛的电影行业。扩散模型已经改变了图像到图像(I2I)的合成方式,但在视频到视频(V2V)合成方面面临维持视频帧间时间一致性的挑战。在视频上应用 I2I 模型通常会在帧之间...
-
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉
大型语言模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。 幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员...
-
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。 Gemini的推理能力,真的比GPT-4弱吗? 此前,谷歌憋出的重磅复仇神器Gemini P...
-
《我的世界》化身AI小镇,NPC居民角色扮演如同真人
注意看,这个方块人正在快速思考面前几位“不速之客”的身份。 原来她是遇到了危险,意识到这一点之后,她马上开始在脑海中搜索策略。 最终,她的方案是先逃跑然后寻求帮助,并马上付诸行动。 与此同时,对面的人也在进行着和她一样的思考…… 这样的一幅场景出现...
-
脑机结合时代即将到来 人类文明将会飞速发展
作者 | 洪涛、奥托·麦克 作者均为美国佐治亚理工学院博士后 人类历史上,每一次重大的技术革命,都会引发对人类自身乃至整个社会的冲击;脑机接口(BCI 也一样,对人类社会来说,这门高新科技将会引发一场新的社会变革的风暴。正如国际知名学者周海中先生1995...
-
微软推出AI助手Copilot的正式版本;ChatGPT:七位研究人员分享他们的观点
? AI新闻 ? 微软推出AI助手Copilot的正式版本 摘要:微软宣布其AI助手Copilot正式上线,此前Copilot的预览版已成为很多用户的日常AI伴侣。此次上线后,Copilot将继续提供AI驱动的网络聊天体验,并具备商业数据保护功能,...
-
基础模型+机器人:现在已经走到哪一步了
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。近日,CMU 的 Yonatan Bisk 和 Google DeepMind...