-
Python+AI实现AI绘画
? 运行环境:Python ? 撰写作者:左手の明天 ? 精选专栏:《python》 ? 推荐专栏:《算法研究》 ?#### 防伪水印——左手の明天 ####? ? 大家好???,我是左手の明天!好久不见? ?今天分享py...
-
AI视野:必应推出GPT-4Turbo模型;抖音测试“AI搜”功能;小红书内测AI聊天机器人;OpenAI计划新一轮融资
????大模型动态 必应推出GPT-4Turbo模型 微软推出Bing Chat的最新模型,GPT-4Turbo,为用户提供更准确和最新的信息。目前仅限部分用户试用,使用方法需通过检查资格确认。 阿里团队推新AI模型I2VGen-XL 视频合成领域迎来...
-
一篇综述,看穿基础模型+机器人的发展路径
机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和理解这个世界并制定决策和进行规划。 近日,CMU 的 Yonatan Bisk 和 Google DeepMind...
-
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤—— 这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果: 图片 无论是中英文的大段文字: 图片 还是包含了公式的文档图片...
-
Tracking Any Object Amodally :让AI像人一样可以追踪任何对象
Tracking Any Object Amodally是由卡内基梅隆大学和丰田研究所开发的项目使得人工智能能够像人一样追踪物体的整体,即使在部分遮挡或不完全可见的情况下也能理解其完整结构。 在这个项目中,计算机被训练成能够“理解”并追踪到部分遮挡物体的完...
-
机器学习模型性能的十个指标
尽管大模型非常强大, 但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比,解释现实中的物理现象,未必要用到量子力学。有些相对简单的问题,或许一个统计分布就足够了。对机器学习而言, 也不用言必深度学习与神经网络,关键在于明确问题的边界。 那么在...
-
Point Transformer V3:更简单、更快、更强!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 原标题:Point Transformer V3: Simpler, Faster, Stronger 论文链接:https://arxiv.org/pdf/2312.10035.pdf 代码链接:h...
-
阿里团队推新AI模型I2VGen-XL:单张静止图像就能生成高质量视频
视频合成最近取得了显著的进步,这得益于扩散模型的快速发展。然而,它在语义准确性、清晰度和时空连续性方面仍然存在挑战。它们主要源于文本-视频数据的稀缺性和视频的复杂固有结构,使得模型难以同时确保语义和定性的卓越性。 阿里巴巴、浙江大学和华中科技大学的研究人员...
-
大火的AIGC是什么?能用到工作中哪些地方?
一.AIGC是什么? AIGC(即Artificial Intelligence Generated Content),中文译为人工智能生成内容。简单来说,就是以前本来需要人类用思考和创造力才能完成的工作,现在可以利用人工智能技术来替代我们完成。 在...
-
AI绘画中CLIP文本-图像预训练模型
介绍 OpenAI 在 2021 年提出了 CLIP(Contrastive Language–Image Pretraining)算法,这是一个先进的机器学习模型,旨在理解和解释图像和文本之间的关系。CLIP 的核心思想是通过大规模的图像和文本对进行...
-
【AIGC】baichuan-7B大模型
百川智能|开源可商用的大规模预训练语言模型baichuan-7B大模型 概述 baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持...
-
CMU权威对比Gemini,GPT-3和Mistral8×7B!GPT-3.5依旧拿捏Gemini,开源模型差距依然不小
谷歌最近发布的Gemini掀起了不小的波澜。 毕竟,大语言模型领域几乎是OpenAI的GPT一家独大的局面。 不过作为吃瓜群众,当然希望科技公司都卷起来,大模型都打起来! 所以,作为科技巨无霸谷歌的亲儿子,Gemini自然承受了很高的期待。 虽然Gemi...
-
【AIGC】Chatglm2-lora微调
ChatGLM2介绍 ChatGLM2-6B源码地址:https://github.com/THUDM/ChatGLM2-6B ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低...
-
Llama中文社区开源预训练Atom-7B-chat大模型体验与本地化部署实测(基于CPU,适配无GPU的场景)
一、模型简介 原子大模型Atom由Llama中文社区和原子回声联合打造,在中文大模型评测榜单C-Eval中位居前十(8月21日评测提交时间)。 Atom系列模型包含Atom-7B和Atom-...
-
GPT系列训练与部署——GPT2环境配置与模型训练
本文为博主原创文章,未经博主允许不得转载。 本文为专栏《Python从零开始进行AIGC大模型训练与推理》系列文章,地址为“https://blog.csdn.net/suiyingy/article/details/13...
-
14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍
就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。 生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图...
-
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。 论文链接:https://arxiv.org/abs/2312.03...
-
ChatGPT vs Bard 背后的技术
自 2022 年 11 月推出以来,OpenAI 的 Chat GPT 引起了广泛关注。但现在,谷歌已经加强了 Bard AI,这是其最新发布的产品之一。 OpenAI 的Chat GPT是一种 AI 语言模型,能够以对话的方式执行文本摘要、语言翻译和问...
-
测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如: 测试数据流应当是时变分布(而非传统领域适应中...
-
清华特奖焦剑涛大模型创业:突破GPT-4工具使用能力,搞开源种子轮融资七千万
两位清华校友打造,在GPT-4核心优势之一使用工具上实现超越。 连HuggingFace CEO都来帮它造势: 它的名字叫“NexusRaven”,参数只有130亿。 出色的函数调用能力连网友都忍不住称赞,既可以并行也可以嵌套。 背后团队则更令人瞩目...
-
最强英文开源模型LLaMA架构探秘,从原理到源码
导读:LLaMA 65B是由Meta AI(原Facebook AI)发布并宣布开源的真正意义上的千亿级别大语言模型,发布之初(2023年2月24日)曾引起不小的轰动。LLaMA的横空出世,更像是模型大战中一个搅局者。虽然它的效果(performance)...
-
史上最快3D数字人生成器:半小时完成训练,渲染仅需16毫秒,苹果出品
之前要两天才能训练好的数字人,现在只用半小时就能完成了! 到了推理阶段,更是只要16毫秒,就能得到动作流畅、细节到位的场景视频。 而且无需复杂的采样和建模,只要随便拍一段50-100帧的视频就足够了,换算成时间不过几秒钟。 这正是由苹果联合德国马普所推出...
-
【LLM】LLaMA简介:一个650亿参数的基础大型语言模型
LLaMA简介:一个650亿参数的基础大型语言模型 Paper Setup 其他资料 作为 Meta 对开放科学承诺的一部分,今天我们将公开发布 LLaMA (大型语言模型 Meta AI ,这是一个最先进的大型语言基础模型,旨在帮...
-
“最美中国女生”——AI绘画还没上车的有难了!!!
废话少说,先上图!!! 前段时间,ChatGPT生成了一张自诩为“最美的中国女生”。虽然审美是主观的,但不可否认,图片的客观美。不过——你不会还只是看到图片里的美女,肤浅地欣赏高颜值吧?别人都已经透过现象看本质,赶上新浪潮,get新技能了… 好...
-
从新手到高手:AI绘画实战中的Midjourney
? 个人网站:【 海拥】【神级代码资源网站】【办公神器】 ? 基于Web端打造的:?轻量化工具创作平台 ? 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 随着人工智能(AI)技术的飞速发展,AI绘画逐渐成为艺术领域的一项令人瞩目的技术。本文将...
-
基于MindSpore的llama微调在OpenI平台上运行
基于MindSpore的llama微调在OpenI平台上运行 克隆预训练模型 克隆chatglm-6b代码仓,下载分布式的模型文件 git lfs install git clone https://huggingface.co/openlm-...
-
whisper
Robust Speech Recognition via Large-Scale Weak Supervision 介绍 大规模弱监督的训练。先前的方法都是通过大量的无监督学习训练(无监督的数据容易收集,所以通过大量无监督的学习可以训练出一个质量...
-
关于生成式语言大模型的一些工程思考 paddlenlp & chatglm & llama
生成式语言大模型,随着chatgpt的爆火,市场上涌现出一批高质量的生成式语言大模型的项目。近期百度飞桨自然语言处理项目paddlenlp发布了2.6版本。更新了以下特性:全面支持主流开源大模型Bloom, ChatGLM, GLM, Llama, OPT...
-
Anthropic发布新方法 通过提示降低生成式AI偏见
人工智能公司Anthropic最近发布了一项方法,旨在通过提示工程减少公司使用的大型语言模型(LLMs)输出中的歧视。该公司在一份文件中详细介绍了一种评估方法,指导公司如何通过优化提示降低模型输出的歧视性。该文件为开发人员和决策者提供了了解LLMs生成答案...
-
使用 GPT-4 和 Midjourney 建构Tiktok故事
您准备好探索生成AI的奇妙世界,创作出富有吸引力的故事并配以引人入胜的插图了吗?根据我最近使用GPT-4和Midjourney的体验,我成功地使用YiVal构建了一个端到端的叙事,GPT-4用来生成大规模的故事,同时Midjourney创建令人惊叹的插图。...
-
AI Native工程化:百度App AI互动技术实践
作者 | GodStart 导读 随着AI浪潮的兴起,越来越多的应用都在利用大模型重构业务形态,在设计和优化Prompt的过程中,我们发现整个Prompt测评和优化周期非常长,因此,我们提出了一种Prompt生成、评估与迭代的一体化解决方案,...
-
Gemini AI免费测试入口在哪 谷歌Gemini软件怎么样
谷歌Gemini AI是一款由谷歌人工智能部门开发的大型语言模型(LLM)。它是在一个包含文本、代码、音频、图像和视频的庞大数据集上训练的。Gemini AI可以用于各种任务,包括自然语言处理(NLP 、机器翻译、代码生成、创意写作和问题回答。Google...
-
生成式人工智能如何改变数据中心的要求
什么是数据中心,我们如何使用它?更具体地说,数据中心有哪些不同类型,它们为使用它们的企业提供哪些不同的用途? 这些问题看似简单,但要得出令人满意的答案却出人意料地困难。就在过去一年左右的时间里,我们看到越来越强大的大型语言模型(LLM 正在支持新的生成...
-
我的大模型观:我眼中的LLM
文章目录 大模型是有智能的。 也许,大模型是一场骗局? 从头训练or微调 我想象中的大模型架构 大厂的大模型 中小厂和个人开发该何去何从? 今年,大模型火的一塌糊涂。最近几个月paper with code上,前几名的论文几乎都是生成模...
-
【达摩院OpenVI】AIGC技术在图像超分上的创新应用
团队模型、论文、博文、直播合集,点击此处浏览 一、背景 近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用...
-
【大模型AIGC系列课程 3-7】领域&私域对话数据收集与生成
重磅推荐专栏: 《大模型AIGC》;《课程大纲》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深...
-
Video-LLaMA An Instruction-tuned Audio-Visual Language Model for Video Understanding 用于视频理解的指令调谐视听语言
1.摘要 我们提出了一个多模态框架Video-LLaMA1,它使大型语言模型(LLM 能够理解视频中的视觉和听觉内容。视频-来自冻结的预训练视频和音频编码器和冻结的LLM的美洲驼引导跨模式训练。不像以前的工作,补充线性最小二乘法只处理视觉或听觉信号...
-
开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天
来源: 新智源 微信号:AI-era Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。谁都没想 谁能想到,一次意外的LLaMA泄漏,竟点燃了开源LLM领域最大的创新火花。 一系列表现出色的Chat...
-
AIGC(生成式AI)试用 15 -- 小结
断断续续的尝试在实际的工作使用中理解和测试AIGC,运用会越来越多、越来越广范,但也是时候做个小结了。 没有太用热火的ChatGPT,只是拿了日常最容易用到的CSDN创作助手(每周写文章总是看到)和文心一言(没了谷歌只能百度),毕竟天天工作...
-
「Animate Anyone」官网体验入口 AI动画角色软件app免费下载地址
Animate Anyone是一款利用扩散模型从静态图像生成角色视频的工具。该软件通过驱动信号将静态图像转换为动画,为角色动画提供了一个专门的新框架。那么,想要体验Animate Anyone吗?下面就给大家带来Animate Anyone官网体验入口和免...
-
AI图片编辑神器Anydoor:开启图片编辑的任意门 图片主体随意移动
随着数字时代图像编辑的飞速发展,来自香港大学、阿里巴巴和蚂蚁集团的新成果AnyDoor为图片编辑开辟了一扇全新的时代之门。 这是一项基于扩散技术的创新,具有将目标物体以和谐的方式传送到用户指定位置的神奇能力。与传统模型需要为每个物体调整参数不同,AnyDo...
-
使用 PyTorch FSDP 微调 Llama 2 70B
引言 通过本文,你将了解如何使用 PyTorch FSDP 及相关最佳实践微调 Llama 2 70B。在此过程中,我们主要会用到 Hugging Face Transformers、Accelerate 和 TRL 库。我们还将展示如何在 SL...
-
开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
生成式 AI 在3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。 传统3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个3D 模型的创建成本至少需要几千元。生成式 AI 技术在2D 图...
-
together.ai让AI模型训练快9倍,获NVIDIA参投1.025亿美元A轮融资
目前获得融资最多的两家大模型创业公司是OpenAI和Anthropic,而这两家公司最大的投资者分别是微软和亚马逊,他们投资的很大一部分不是资金,而是等值的云计算资源。这其实也就把这两家顶尖的闭源大模型公司“绑上了”科技巨头的“战车”。 在闭源大模型之外,...
-
LLM-项目详解-Chinese-LLaMA-AIpaca(一):LLM+LoRa微调加速技术原理及基于PEFT的动手实践:一些思考和mt0-large+lora完整案例
如何花费较少的算力成本来进行微调训练,十分重要,当前关于LLaMA、Alpaca、Instruct微调、LoRa微调等多个概念大家讲的很多,最近也在学习,也看到几个有趣的话题(主要参考于(https://github.com/ymcui/Chinese-L...
-
【AI绘图 丨 Stable_diffusion 系列教程四】— Window 环境 | Stable Diffusion入门教程 及安装(全篇)
?腾小云导读 最近,AI图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。Stable Diffusion作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是AI图像生成领域的里...
-
全面合作:传媒业巨头与OpenAI寻求共赢
12月13日,OpenAI与欧洲最大的数字出版公司施普林格Axel Springer宣布战略合作。这是继媒体联盟一再发起抵制AI厂商的抗议以来,首例传媒巨头与AI厂商从版权、技术及商业模式上的全方位战略合作。 本文梳理了此次合作带给新闻业的重要意义,与合作...
-
ChatGPT抢走了数据!编程语言排行榜,没法做了!
撰稿 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 提及编程语言排行榜,很多人都能想到Tiobe、RedMonk、Stack Overflow等,基本上它们更新的频率也相对固定。但最近,这家号称编程语言榜单天花板的RedMonk似...
-
Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复
谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。 为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。 不会像谷歌官方发布会那样,用CoT@32对比5-shot了。 一句话结果:Gemini Pr...
-
研究发现,GPT 和其他 AI 模型无法分析 SEC 备案文件
一家名为 Patronus AI 的初创公司的研究人员发现,大型语言模型在分析美国证券交易委员会(SEC)备案文件时经常无法正确回答问题。即使是表现最佳的人工智能模型配置 OpenAI 的 GPT-4-Turbo,当给予几乎整个备案文件的阅读能力和相关问题...