-
AI让郭德纲用英文说相声惊到网友:连口型都对上了
AI合成的声音不仅可以用来复刻歌手,甚至还能讲外国相声。 近日,一段AI技术合成的郭德纲讲英语相声的视频在各大社交平台上广泛传播。 视频中,这位知名相声演员用一口流利的英语,在麻省理工大学说相声,不仅...
-
苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
在生成式 AI 时代,扩散模型已经成为图像、视频、3D、音频和文本生成等生成式 AI 应用的流行工具。然而将扩散模型拓展到高分辨率领域仍然面临巨大挑战,这是因为模型必须在每个步骤重新编码所有的高分辨...
-
DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修
把自己生成图片的视角变化了一下,内容却高度契合。 我们突然想到,通过这个技巧,再配上Gen-2等图生视频的AI工具,也许能够开发出稳定的电影编辑效果。 参考资料: https://twitter.co...
-
AI公司「卓视智通」获数千万Pre-B+轮融资 推进视觉大模型研发
re-B + 轮融资,由中交资本和腾飞资本共同投资。 卓视智通成立于2012年,是一家基于 AI 的视频融合感知及车路协同解决方案提供商。公司主要从路端切入,致力于交通场景的识别和应用落地。 卓视智...
-
为何GPT-4P容易受到多模态提示注入图像攻击?
理Paul Ekwere表示:“提示注入攻击对LLM的安全性和可靠性构成了严重威胁,尤其是处理图像或视频的基于视觉的模型。这些模型被广泛应用于人脸识别、自动驾驶、医疗诊断和监控等各个领域。” Open...
-
人工智能教程(一):基础知识
1018 字节的数据。但是,这些数据中的大多数与我们完全无关,包括大量没有价值的 YouTube 视频,不经思考就发送的电子邮件,琐碎的新闻报道等等。然而,这片浩瀚的数据海洋中同样蕴含着无价的宝贵知...
-
如何应对人工智能幻觉?
,包括矛盾的句子或事实,甚至完全捏造来源。在其他情况下,如在术语的原始用法中,它们也可以是视觉的,以视频或图像形式,或听觉的。 人工智能幻觉有很多种类型,但所有这些都归结为同一个问题:混合和匹配它们接...
-
世界模型和DriveGPT这类大模型到底能给自动驾驶带来什么?
sformer),它为自动驾驶车辆的控制和动作提供了用户友好的自然语言叙述和推理。ADAPT通过共享视频表示联合训练驾驶字幕任务和车辆控制预测任务。 整体架构: ADAPT框架概述,(a) 输入是车...
-
大模型浪潮澎湃,带给普通人哪些价值?
G的前夕,大多数人对4G并没有太多的想象,认为只不过是快一点的网速,然而在不远之后,靠着4G网络,短视频如野火燎原般在全世界蔓延,成为了人们最主要的获取信息、消遣放松方式之一。 然而,和消遣放松相对应...
-
龙与地下城:大模型文字游戏之路
的互动和游戏进程。此外,作者还考虑了游戏设计中的两个关键问题:记忆机制和发言规范。 开篇 自从在短视频平台上看到一位国外博主通过AI创建了一个模拟经营游戏,我就被深深吸引了。在他的虚拟小镇上,众多的...