-
一张图即出AI视频!谷歌全新扩散模型,让人物动起来
只需一张照片,和一段音频,就能直接生成人物说话的视频! 近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。 论文地址:https://enriccorona.github.io/vlogger/paper.p...
-
TOXCL:用于检测和解释隐性有毒言论的统一AI框架
社交媒体上的毒性言论可能会像野火般蔓延,特别是针对个人和边缘化群体。明显的仇恨言论相对容易被发现,但隐含毒性——依赖于刻板印象和编码语言而不是明显的侮辱——提出了更为棘手的挑战。如何训练人工智能系统不仅能够检测到这种隐晦的毒性,还能解释为何它是有害的呢?...
-
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
随着ChatGPT的出现,大语言模型在生成连贯文本和遵循指令方面获得了巨大技术突破。然后在推理和解决复杂内容方面,面临内容不准确、安全等难题。 谷歌Deepmind和南加州大学的研究人员提出了“SELF-DISCOVER”。这是一种用于大语言模型的通用框架...
-
维普AIGC检测怎么规避:七个策略助你顺利过关
大家好,小发猫降重今天来聊聊维普AIGC检测怎么规避:七个策略助你顺利过关,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 维普AIGC检测怎么规避:七个策略助你顺利过关 在学术研究领域,AI...
-
LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」
在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。 图无处不在。 互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。 但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能...
-
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
技术的发展总是伴随着被滥用的风险,从ChatGPT到最近发布的文本转视频工具Sora,AI生成的内容越是逼真,被滥用的风险也就越高。 仅仅一年前,大家还在嘲笑AI生成的「威尔史密斯吃意大利面」不自然,手部、嘴部、面条没有一个真实的;但现在的顶级AI模型已...
-
百度文库AI智能写作:论文降重的新篇章
大家好,小发猫降重今天来聊聊百度文库AI智能写作:论文降重的新篇章,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 百度文库AI智能写作:论文降重的新篇章 在这个信息爆炸的时代,学术写作的重要...
-
腾讯机器人研究登顶刊!能帮程序员安显示器,像真人一样协同干活
国产机器人新突破: 两只各自独立的机械臂,已经可以丝滑地打配合了! 不信你看这双手拧瓶盖: 拧完再端起杯子倒水: 活灵活现,如真人。 呐,还能搭把手帮程序员安装好显示屏: 甚至接过“同事”手里的大箱子: 可以说是各种几何和物理特性的物体都能稳稳h...
-
清华和微软联合起来对提示词下手了!直接缩短80%,跟大模型对话的头疼系数直线下降!变相扩大了上下文窗口!
出品 | 51CTO技术栈(微信号:blog51cto) 想一下,现在普通人调用个大模型有多别扭,你得一个个上传文件,然后再告诉它自己想要什么样的输出,最好给它一套优秀的模版,它才能给出个像样的回答。 这就好比你自己的大脑都快想出答案来了,它只不过是帮...
-
苹果再发多模态论文!陪我们走过十年的“Hey Siri”会被更智能的交互方式取代吗?
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 全面发力AI的苹果,再出新研究! 随着人工智能技术的发展,我们熟悉的“Hey Siri”或将成为历史。 苹果团队最新出炉的论文《利用大型语言模型进行设备指向性语音检测的多模...
-
继电动汽车之后,下一次汽车转型是否已经发生?
随着从内燃机汽车向电动汽车的转变从未消失,停在街边的汽车连接充电线如何迅速成为一种常见景象。而且似乎一些汽车制造商已经度过了过渡阶段。汽车数字化和计算机化是另一个重大转变,它拥有约1亿行代码和1,000多个半导体芯片,而且这一趋势还在持续增长。据估计,...
-
超越Sora!AI视频模型StreamingT2V可生成120秒超长视频
近日,UT奥斯丁等机构提出的StreamingT2V技术引发了广泛关注,将AI视频生成推向了新的高度。这项技术突破了以往视频长度的限制,实现了生成高度一致且长度可扩展的视频。 StreamingT2V技术的核心构架包括条件注意力模块(CAM)和外观保持模...
-
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人,跑步又破纪录了! 最近,HYBRID ROBOTICS研究团队的Cassie,给我们来了一段惊艳的表演—— 以2分34秒的成绩,跑完了400米! 随后,它又在不需要额外训练的情况下,完成了1.4米的跳远。 是的,相信你已经注意到了...
-
报告:ChatGPT 撰写的近期AI会议同行评审高达 17%
最近的一项研究揭示了一个重要发现:2023-2024年顶级人工智能会议的同行评审中可能包含大量来自 ChatGPT 等模型的 AI 生成内容。 图源备注:图片由AI生成,图片授权服务商Midjourney 研究人员利用一种新颖的统计技术,估计了大量文档中...
-
突破性的百万级视频和语言世界模型:Large World Model~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 在探索如何让AI更好地理解世界方面,最近的一项突破性研究引起了广泛关注。来自加州大学伯克利分校的研究团队发布了“Large World Model, LWM”,能够同时处理百万级长度的视频和语言序列,...
-
新研究:大语言模型“涌现”能力不令人惊讶也不难预测
3月26日消息,一项新的研究认为,大语言模型性能的显著提升并不令人意外,也并非无法预测,实际上这是由我们衡量人工智能性能的方式所决定的。 两年前,450位研究人员在一个名为超越模仿游戏基准(Beyond the Imitation Game Bench...
-
通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度
一个模型建模所有图结构关系—— 香港大学数据智能实验室最新图结构大模型来了。 它叫HiGPT,由GraphGPT原班人马打造。 后者是将图数据与大模型结合的代表方法之一: 通过用图指令微调将图数据与大模型对齐,在下游任务上一度彰显了惊人的泛化性(Zero...
-
GPT-4「荣升」AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成
LLM在飞速进步的同时,人类也越来越难以区分LLM生成的文本与人工编写的内容,甚至分辨能力与随机器不相上下。 这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。 尽管在个例上难以察觉,但由于LLM的输出趋于一致性,这种趋势可能会放大语料库级...
-
3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。 此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关...
-
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访
Q* Transformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。 当记者试图询问...
-
如何利用对抗学习实现产品推荐功能?
作者 | 汪昊 审校 | 重楼 推荐系统自1992 年首篇论文提出协同过滤算法诞生以来,经历了互联网公司百万次的模型迭代,犹如不断涅的凤凰,从一次又一次的低谷中不断重生,先后诞生了百分点、快手、抖音、今日头条等知名的公司和产品。 推荐系统最大的功能在于...
-
清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星
在自然语言处理中,有很多信息其实是重复的。 如果能将提示词进行有效地压缩,某种程度上也相当于扩大了模型支持上下文的长度。 现有的信息熵方法是通过删除某些词或短语来减少这种冗余。 然而,作为依据的信息熵仅仅考虑了文本的单向上下文,进而可能会遗漏对于压缩至关...
-
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!
Transformer作者中唯一去了OpenAI的那位,公开承认了: 他参与了Q*项目,是这项新技术的发明者之一。 这几天除了英伟达老黄组局把Transformer作者聚齐,他们中的几位还接受了连线杂志的采访,期间出了这么一个小插曲。 当记者试图询问Lu...
-
零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步
物体姿态估计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。 在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来...
-
突发!Stability AI的CEO,跑路了
生成式 AI 的明星创业公司 Stability AI,现在是风雨飘摇的状态。 周六上午,Stability AI 突然发布一项公告,宣布公司 CEO Emad Mostaque 辞职。 公告全文内容如下: 今天早些时候,Emad Mo...
-
AIGC 实战:Ollama 和 Hugging Face 是什么关系?
HuggingFace(拥抱脸)和Ollama都与**大型语言模型(LLMs)**有关,但它们的用途不同: HuggingFace: HuggingFace 是一个知名的平台,提供各种预训练的LLMs,包括流行的模型如GPT-3、BERT和...
-
中国培养了全球一半顶尖AI人才!大幅领先美国
快科技3月24日消息,据国外媒体报道,虽然美国目前在AI上处于领先地位,但是在AI顶尖人才培养上,中国却已经大幅领先美国,成为全球第一。 报道表示,根据美国保尔森基金会旗下的麦克罗波洛智库(Macro Polo)的最新研究,中国已经超越美国成为AI人才最大...
-
AI太烧钱 图像生成头部玩家也玩不起了? Stability AI CEO辞职
3月23日消息,总部位于英国伦敦的AI图像生成头部玩家Stability AI突然宣布公司 CEO Emad Mostaque 辞职。 随后,Emad Mostaque 在社媒平台 X 上宣布,自己离职后将致力于去中心化人工智能(Decentralized...
-
对大型语言模型的安全性能进行基准测试,谁更胜一筹?
大型语言模型(LLM)机器学习技术正在迅速发展,催生了多个相互竞争的开源和专有架构。除了与ChatGPT等平台相关的生成式文本任务外,LLM还被证实在许多文本处理应用程序中具有实用价值,可以协助编写代码以及对内容进行分类。 SophosAI研究了许多在网...
-
Nature重磅:AI击败最先进全球洪水预警系统,提前7天预测河流洪水,每年挽救数千人生命
洪水是最常见的自然灾害类型,全球有近 15 亿人(约占世界人口的 19%)直接面临严重洪水事件的巨大风险。洪水还造成巨大的物质损失,每年造成全球经济损失约 500 亿美元。 近年来,人类造成的气候变化进一步增加了一些地区的洪水频率。然而,目前的预报方法主...
-
为人工智能提供动力:日益严峻的能源挑战
...
-
文生图的基石CLIP模型的发展综述
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里...
-
MIT研究员推新AI图片生成框架DMD:AI 单步生成高质量图像 速度快30倍
在当今人工智能时代,计算机可以通过扩散模型生成自己的 “艺术”,逐步向嘈杂的初始状态添加结构,直到清晰的图像或视频出现。 扩散模型突然变得异常受欢迎:输入几个词,即可体验现实与幻想交汇的梦幻景象。在幕后,这涉及一个复杂、耗时的过程,需要算法多次迭代才能完美...
-
谷歌推出通用AI代理:能自动执行600多种动作,游玩复杂3D游戏
谷歌DeepMind的研究人员推出了一种面向3D环境的通用AI代理——SIMA。 SIMA无需访问游戏的源代码,也不需要定制的API。只需要输入图像和用户提供的简单自然语言文本指令,SIMA就能像人类玩家一样执行走路、跑步、建造、打开地图等各种游戏中的操作...
-
MOTIA官网体验入口 AI视频内容外延处理工具免费使用地址
MOTIA是一个基于测试时适应的扩散方法,利用源视频内的内在内容和运动模式来有效进行视频外延画。该方法包括内在适应和外在渲染两个主要阶段,旨在提升视频外延画的质量和灵活性。 点击前往MOTIA官网体验入口 谁可以从MOTIA中受益? MOTIA适用于研究...
-
Stable Diffusion核心团队集体离职 AI巨头Stability AI面临财务危机
近日,Stable Diffusion的核心研究团队宣布集体离职,这一消息在科技界引起了广泛关注。团队的领导Robin Rombach、共同一作Andreas Blattmann以及另一位作者Dominik Lorenz均在离职名单之上。尽管具体离职原因尚...
-
预计到2028年面部识别市场规模将达到134亿美元
2023年全球人脸识别市场规模估计为63亿美元,预计到2028年将达到134亿美元,预测期内复合年增长率为16.3%。疫情期间和疫情后人脸识别技术的加速采用推动了人脸识别市场的增长。这是根据最新报告得出的结论。 研究人员发现,全球对新冠疫情的反应与包括...
-
英伟达推出6G研究云平台,致力于实现6G RAN雄伟目标
在凭借RAN加速器进军移动网络领域之后,英伟达希望依托芯片和AI技术,能够在6G领域发挥更大、更关键的作用。 在日前举办的2024年度GTC AI大会上,英伟达宣布推出新的6G研究云平台(6G Research Cloud Platform 。这是一种...
-
无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么
3 月 21 日消息,AI 浪潮席卷而来,此前不少人认为“提示词工程师”会成为新兴工种,而 MindEye 的问世表明,这个岗位或许没有存在的价值了。 此前不少人认为,未来 AI 时代并不在于某个模型是否强大,而是在于人类是否能够更高效利用这些 AI...
-
维普AIGC检测怎么规避?七大策略助你提升学术写作原创性
大家好,小发猫降ai今天来聊聊维普AIGC检测怎么规避?七大策略助你提升学术写作原创性,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: 维普AIGC检测怎么规避?七大...
-
Reportify体验入口 投资研究AI问答平台使方法用指南
Reportify是一个创新的AI驱动投资研究问答平台,旨在为投资者、金融分析师和市场研究人员提供快速、深入的财经信息问答服务。通过智能分析最新的财报、公司业绩、市场动态等,Reportify帮助用户迅速获取和深度分析财经领域的关键信息,从而作出更明智的投...
-
HPT官网体验入口 HyperGAI多模态语言开源模型框架免费使用地址
HPT是HyperGAI研究团队推出的新型多模态大型语言模型框架。它具有高效且可扩展地训练大型多模态基础模型的能力,能够理解包括文本、图像、视频等多种输入模态。HPT框架不仅可以从头开始训练,还可以通过现有的预训练视觉编码器和/或大型语言模型进行高效适配。...
-
奥特曼回应一切:GPT-5、董事会宫斗、Ilya当时看到了什么
今年 2 月随着 Sora 的横空出世,大家再一次把目光聚集到 OpenAI。 不仅如此,去年亮相的 ChatGPT、GPT-4,更是把 AI 直接带入到生成式人工智能领域。作为一家引领科技潮流的机构,大家自然对其方方面面都产生好奇。 在最近的一次采访中...
-
如何从头开始编写LoRA代码,这有一份教程
LoRA(Low-Rank Adaptation)作为一种用于微调 LLM(大语言模型)的流行技术,最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其...
-
ai写作论文会被抄袭吗为什么
大家好,小发猫降重今天来聊聊ai写作论文会被抄袭吗为什么,希望能给大家提供一点参考。 以下是针对论文重复率高的情况,提供一些修改建议和技巧,可以借助此类工具: 标题:AI写作论文会被抄袭吗?背后原因深度解析 近年来,随着人工智能技术的飞速发展,A...
-
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stable Diffusion背后公司Stability AI又上新了。 这次带来的是图生3D方面的新进展: 基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。 Stab...
-
学好线性代数,玩转推荐系统
作者 | 汪昊 审校 | 重楼 说到21 世纪互联网的技术,除了 Python / Rust / Go 等一系列新型编程语言的诞生,信息检索技术的蓬勃发展也是一大亮点。互联网上第一个纯技术商业模式就是以谷歌和百度为代表的搜索引擎技术。然而让大家臆想不到的...
-
全球首个AI程序员当老板!IOI金牌得主全部工作AI掌盘,技术细节报告公开
AI程序员Devin竟可以做老板的工作了?! 最近,Cognition AI的首席执行官Steven Hao给了Devin访问自己帐户的权限,然后Devin便开始为他工作了... 比如,「他」向初创公司Modal支持团队写了一封邮件,是询问关于其产品S...
-
基于Discuz X2.5采集器的数据抓取与应用分析
随着互联网的迅猛发展,网络上的信息量呈现爆炸式增长。对于企业和个人而言,如何高效地从海量信息中筛选出有价值的内容,成为了一项亟待解决的任务。在这一背景下,内容采集器应运而生,它们能够帮助用户自动化地抓取指定网站上的数据,从而极大地提高了信息获取的效率。本文...
-
谷歌AI推出新型评分器Cappy 助力多任务语言模型性能提升
在最新的研究论文中,谷歌研究人员引入了一种名为Cappy的预训练评分器模型,旨在增强和超越大型多任务语言模型的性能。这项研究旨在解决大型语言模型(LLM)所面临的挑战,其中包括高昂的计算资源成本和效率低下的训练和推理过程。 目前,多任务法学硕士如T0、F...