-
“谷歌版Sora”被嘲画质好糊,但在世界模拟器上又前进了一步
谷歌110亿参数Genie,用来打造交互虚拟世界,它来了! 划重点:不受视频监督训练;只用给它单张图像,就能提示生成可玩的2D虚拟世界;这个交互式的虚拟世界还自主可控。 但令人撇嘴的点,就是Genie最后出的效果,画质太糊了。 像这样: 或者这样:...
-
数据治理必须如何发展才能应对GenAI的挑战
最近我想到了数据治理,所以我决定通过输入提示来查询ChatGPT:“什么是数据治理?”,人工智能回应道:“数据治理是一套流程、政策、标准和指导方针,可确保在企业内适当地管理、保护和利用数据”,这是一个很好的开始,此时此刻,关于数据治理及其意义还有很多要...
-
自动驾驶与轨迹预测看这一篇就够了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 轨迹预测在自动驾驶中承担着重要的角色,自动驾驶轨迹预测是指通过分析车辆行驶过程中的各种数据,预测车辆未来的行驶轨迹。作为自动驾驶的核心模块,轨迹预测的质量对于下游的规划控制至关重要。轨迹预测任务技术栈...
-
【llm 微调code-llama 训练自己的数据集 一个小案例】
这也是一个通用的方案,使用peft微调LLM。 准备自己的数据集 根据情况改就行了,jsonl格式,三个字段:context, answer, question import pandas as pd import random import...
-
【论文精读】OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
OS-Copilot: Towards Generalist Computer Agents with Self-Improvement 前言 ABSTRACT 1 INTRODUCTION 2 THE OS-COPILOT FRAMEWORK...
-
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA) 介绍:首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库,训练出一个具有中医知识理解力的预...
-
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了? 根...
-
高质量论文中文翻译:Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S
Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录 摘要 介绍 我们的贡献...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人...
-
Llama中文大模型
关于Llama中文大模型 欢迎来到Llama中文大模型:已经基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。 Llama中文大模型 :https://github.com/LlamaFamily/Llama-Chine...
-
用扩散模型生成网络参数,LeCun点赞尤洋团队新研究
如果你有被 Sora 生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发...
-
Sora神图惊掉下巴,好莱坞导演急撤掉8亿美元摄影棚! Sora「内测」提前开放,影视失业潮将至
就在昨天,Sora又有全新「神作」炸出了! 两位Sora作者,Bill Peebles、Tim Brooks纷纷甩出全新图片。(顺便还秀了一把基友情?) 「一只小熊猫和一只巨嘴鸟是最好的朋友,在蓝色时刻漫步在圣托里尼岛」,Peebles称这个场景简直就和...
-
huggingface学习|用dreambooth和lora对stable diffusion模型进行微调
目录 用dreambooth对stable-diffusion-v1-5模型进行微调 (一)模型下载和环境配置 (二)数据集准备 (三)模型微调 (四)运行微调后的模型 用lora对stable-diffusion-v1-5模型进行微调...
-
选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddin...
-
动手实践丨轻量级目标检测与分割算法开发和部署(RK3568)
本文分享自华为云社区《自动驾驶(AIOT - 轻量级目标检测与分割算法开发和部署(RK3568 【玩转华为云】》,作者:HouYanSong。 本文将在ModelArts平台上开发轻量级目标检测与分割算法,并使用ModelBox框架在RK3568开发板...
-
VideoPrism官网体验入口 AI视频理解编码器使用介绍
VideoPrism是一个通用的视频编码模型,可在各种视频理解任务上取得领先的性能,包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样,包含 3600 万高质量的视频-文本对,以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...
-
【EMNLP 2023】面向Stable Diffusion的自动Prompt工程算法
近日,阿里云人工智能平台PAI与华南理工大学朱金辉教授团队合作在自然语言处理顶级会议EMNLP2023上发表了BeautifulPrompt的深度生成模型,可以从简单的图片描述中生成高质量的提示词,从而使文生图模型能够生成更美观的图像。BeautifulP...
-
YOLO不死!YOLOv9出炉:性能速度SOTA~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 如今的深度学习方法专注于设计最适合的目标函数,以使模型的预测结果与实际情况最接近。同时,必须设计一个合适的架构,以便为预测获取足够的信息。现有方法忽略了一个事实,即当输入数据经过逐层特征提取和空间变换...
-
出门问问开放大模型“序列猴子”开源数据集
出门问问宣布,将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集,命名为“序列猴子开源数据集1.0”。 序列猴子,作为出门问问的核心技术之一,具备强大的通用表示与推理能力,已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能,...
-
打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞
扩散模型,迎来了一项重大新应用—— 像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层! 这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。 具体来说,研究团队提出了一种用于生成神经网络参数的扩散模...
-
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
AI视频模型Sora爆火之后,Meta、谷歌等大厂纷纷下场做研究,追赶OpenAI的步伐。 最近,来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。 它能够通过单一冻结模型,处理各种视频理解任务。 图片 论文地址:https://a...
-
一种推荐系统中的排序学习的原创算法:斯奇拉姆排序
作者 | 汪昊 审校 | 重楼 排序学习在推荐系统中的应用在最近数年来非常罕见。经典的算法比如 BPR 和 CLiMF 早在 10 多年前就已经被发明。因此当 2023 年国际会议 AIBT 2023 上有学者提出斯奇拉姆排序时,众多听众眼前一亮。该算...
-
补齐Transformer规划短板,田渊栋团队的Searchformer火了
最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。 尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难...
-
国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。 为什么 Sora...
-
GPT-4正接管人类数据专家!先验知识让LLM大胆预测,准确率堪比传统方式
在数据科学中,AI研究员经常面临处理不完整数据集的挑战。 然而,许多已有的算法根本无法处理「不完整」的数据序列。 传统上,数据科学家会求助于专家,利用他们的专业知识来填补空白,然而这一过程既耗时,却又不实用。 如果AI可以接管专家的角色,又会如何呢? 近...
-
谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道
去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。 对此,在 2 月 8 日,谷歌还把自家对标 ChatGPT...
-
一手借东风,Reddit把用户「卖」了个好价钱;AI增强搜索工具清单(私藏版);2024年Star飙升的LLM学习路线图;AIGC教育行业全景报告 | ShowMeAI日报
?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦! ? 国产大模型进入生态构建阶段,纷纷出炉开发者激励计划 https://www.moonshot.cn 2月5日,月之暗面 Moonsho...
-
AI写作助手:会重复吗?一篇文章帮你解答!
大家好,今天来聊聊AI写作助手:会重复吗?一篇文章帮你解答!,希望能给大家提供一点参考。 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: AI写作助手:会重复吗?一篇文章帮你解答! 随着人工智能技术的快...
-
AIGC基础:大型语言模型 (LLM) 为什么使用向量数据库,嵌入(Embeddings)又是什么?
嵌入: 它是指什么?嵌入是将数据(例如文本、图像或代码)转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。 为什么有用?原始数据之间的相似性反映在高维空间中对应向量之间的距离上。...
-
AIGC项目——Meta:根据对话音频生成带动作和手势的3d逼真数字人
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations From Audio to Photoreal Embodiment:Synthesizing Humans...
-
CUDA驱动深度学习发展 - 技术全解与实战
全面介绍CUDA与pytorch cuda实战 关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收...
-
Reddit IPO文件曝光,OpenAI的Sam Altman被列为重要股东
在Reddi最新的IPO文件中,OpenAI首席执行官Sam Altman成为Reddit Inc.的一位重要股东,持有Reddit8.7%的股份,包括789,456股A类股和11.4百万股B类股。 Altman与Reddit有着长期的紧密联系,曾与Red...
-
AIGC从入门到入坑01(初学者适用版)
AIGC从入门到入坑系列文章 AIGC系列第一章--简述 AIGC从入门到入坑系列文章 前言 学习路径 AI时间线 人工智能简史 AI绘画简史 AI名词解释 小白从0-1必看5篇资料 初学者进阶必读8篇资料 总结 前...
-
AI绘画专栏之Comfyui之AnimateDiffLCM更快效果更佳工作流分享
AnimateLCM能够在很少的步骤中生成高质量的视频。相比直接在原始视频数据集上应用一致性学习,该项目提出了一种解耦的一致性学习策略,分别对图像生成的基础知识和运动生成的基础知识进行提炼。这种策略提高了训练效率并提升了生成视频的视觉质量。 那么关于两个...
-
鱼眼相机与超声波传感器融合实现鸟瞰近场障碍物感知
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接:https://browse.arxiv.org/pdf/2402.00637.pdf 视频链接:https://youtu.be/JmSLBBL9Ruo 本文介绍了鱼眼相机与超声传...
-
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
继 2023 年 1 月 YOLOv8 正式发布一年多以后,YOLOv9 终于来了! 我们知道,YOLO 是一种基于图像全局信息进行预测的目标检测系统。自 2015 年 Joseph Redmon、Ali Farhadi 等人提出初代模型以来,领域内的研...
-
清华叉院、理想提出DriveVLM,视觉大语言模型提升自动驾驶能力
与生成式 AI 相比,自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统,人们面临的主要挑战是 AI 的场景理解,这会涉及到复杂、不可预测的场景,例如恶劣天气、复杂的道路布局和不可预见的人类行为。 现有的自动驾驶系统通常包括...
-
EfficientViT-SAM:精度不变原地起飞!
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientV...
-
AIGC内容分享(五十九):拐点时刻?AIGC时代的新闻业
目录 前言 大洗牌:新闻业的三重变革 涌现:AIGC正掀起一场 “供给侧改革”之外: 达克摩斯之剑: AIGC时代 结语: 前言 一阵生成式人工智能(AIGC 的旋风,正在席卷众多领域。 2022年底,OpenAI发布自然语言对话...
-
爆火Sora背后的技术,一文综述扩散模型的最新发展方向
为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因...
-
使用Stable Diffusion完成绘图
2.2 使用Stable Diffusion完成绘图 Stable diffusion 由于其开源特性,发展极为迅猛,可以说很多效果超过了 Midjourney 也完全不过分,知识系统十分庞杂,他是有两个公司运营研发,WebUI和sd的ckpt文件都...
-
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向
在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。 现在,2024 年的第一个月已经过去...
-
【AI绘画】硬核解读Stable Diffusion(完整版) 小白必收藏!!!
手把手教你入门绘图超强的AI绘画,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新保姆级教程资料包 (文末可获取) 2022年可谓是AIGC(AI Generated Content)元年,上半年有文生图大模型DALL-E2和Sta...
-
Karpathy离职OpenAI,首发2小时AI大课!从头开始构建GPT分词器
离职OpenAI的技术大神karpathy,终于上线了2小时的AI大课。 ——「让我们构建GPT Tokenizer(分词器)」。 其实,早在新课推出两天前,karpathy在更新的GitHub项目中,就预告了这件事。 这个项目是minbpe——专为...
-
LLaMA 2 和 QianWen-14B
阿里云通义千问14B模型开源!性能超越Llama2等同等尺寸模型 - 科技新闻 - EDA365电子论坛网 LLaMA 2 的硬件要求: LLaMA 2 系列模型有不同的参数量版本,如7B、13B和70B等。对于不同大小的模型,其硬件需求也有所不同。以...
-
超越AF2?Iambic、英伟达、加州理工学院开发多尺度深度生成模型,进行状态特异性蛋白质-配体复合物结构预测
由蛋白质和小分子配体形成的结合复合物无处不在,对生命至关重要。虽然最近科学家在蛋白质结构预测方面取得了进展,但现有算法无法系统地预测结合配体结构及其对蛋白质折叠的调节作用。 为了解决这种差异,AI 制药公司 Iambic Therapeutics、英伟达...
-
网络安全中的机器学习:挑战与比较
在数字互联时代,机器学习(ML 在网络安全防御中的作用已变得不可或缺。机器学习算法能够识别大量数据集中的模式和异常,为预防和减轻网络威胁提供了一条有前景的途径。然而,在乐观的情绪中,也存在着许多必须解决的挑战,才能在网络安全领域有效地利用机器学习。...
-
[AIGC 大数据基础]hive浅谈
在当今大数据时代,随着数据量的不断增大,如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求,Hive应运而生。 Hive作为一个基于Hadoop的数据仓库基础设施,为用户提供了类SQL的查询语言和丰富的功能,使得处理大规模数据变得更...
-
全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,重燃开源之战
一声炸雷深夜炸响,谷歌居然也开源LLM了?! 这次,重磅开源的Gemma有2B和7B两种规模,并且采用了与Gemini相同的研究和技术构建。 有了Gemini同源技术的加持,Gemma不仅在相同的规模下实现SOTA的性能。 而且更令人印象深刻的是,还...
-
谷歌VideoPoet负责人蒋路跳槽TikTok!对标Sora,AI视频模型大战在即
离职OpenAI的技术大神karpathy,终于上线了2小时的AI大课。 ——「让我们构建GPT Tokenizer(分词器)」。 图片 其实,早在新课推出两天前,karpathy在更新的GitHub项目中,就预告了这件事。 图片 这个项目是minbpe...