多模态第6页 - AIGC资讯

8人半年肝出开源版GPT-4o，0延迟演示全网沸腾！背后技术揭秘，人人免费用

【新智元导读】GPT-4o或许还得等到今年秋季才对外开放。不过，由法国8人团队打造的原生多模态Moshi，已经实现了接近GPT-4o的水平，现场演示几乎0延迟，AI大佬纷纷转发。没想到，「开源版」GPT-4o这么快就来了! 昨夜，来自法国AI实验室kyu...

生成式AI 2024-07-04 人工智能

965阅读

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

【新智元导读】最近，公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问，让所有i人和e人在职场极限场景中反复拉扯。国产黑马和上影打造的原汁原味《大闹天宫》画风，简直让人一秒穿越回童年。就在最近，全公司都为这个大闹天宫MBTI测...

生成式AI 2024-07-04 人工智能

797阅读

AI 技术创新可以有多硬核？ GOTC 2024 论坛议程抢先看

8 月 15 日至 16 日，GOTC 2024 将在上海张江科学会堂盛大开启。GOTC 2024 与上海浦东软件园联合举办，并结合 “GOTC（全球开源技术峰会）” 与 “GOGC（全球开源极客嘉年华）”，旨在打造一场全新的开源盛会。2024 全球开源极...

人工智能 2024-07-04 人工智能

886阅读

开源之光 Stable Diffusion 3 技术论文全解：公式占一半，实验很充分！

文章链接：https://arxiv.org/pdf/2403.03206 扩散模型通过反转数据到噪声的正向路径来从噪声中创建数据，并已成为处理高维感知数据（如图像和视频）的强大生成建模技术。Rectified flow是一种最近提出的生成模型形式，它将...

大数据 2024-07-04 人工智能

1649阅读

Stable Diffusion 3 文本生成图像在线体验原理分析

前言本文分享使用Stable Diffusion 3实现文本生成图像，可以通过在线网页中免费使用的，也有API等方式访问。同时结合论文和开源代码进行分析，理解其原理。 Stable Diffusion 3是Stability AI开发的最新、最先...

大数据 2024-07-04 人工智能

1336阅读

【AIGC半月报】AIGC大模型启元：2024.06（上）

AIGC大模型启元：2024.06（上） (1 ChatTTS（语音合成项目） (2 Mamba-2（大模型新架构Mamba升级） (3 GLM-4 9B（智谱开源LLM） (4 Seed-TTS（字节语音合成） (5 QWen2（阿...

大数据 2024-07-04 人工智能

1224阅读

AIGC-CVPR2024best paper-Rich Human Feedback for Text-to-Image Generation-论文精读

Rich Human Feedback for Text-to-Image Generation斩获CVPR2024最佳论文！受大模型中的RLHF技术启发，团队用人类反馈来改进Stable Diffusion等文生图模型。这项研究来自UCSD、谷歌等。在...

生成式AI 2024-07-04 人工智能

1019阅读

【AIGC】GPT-4o技术分析-浅谈

GPT-4o：人工智能技术的全新里程碑一、引言二、GPT系列版本间的对比分析三、GPT-4o的技术能力分析多模态处理能力速度与性能优化情感理解与表达能力四、个人整体感受五、结语一、引言在人工智能技术的...

生成式AI 2024-07-04 人工智能

1006阅读

#08 未来趋势：Stable Diffusion在行业中的应用前景

文章目录前言 1. 技术发展趋势 1.1 模型优化与效率提升 1.2 多模态融合 1.3 用户交互体验改进 2. 行业应用前景 2.1 创意产业 2.2 教育与培训 2.3 医疗健康 2.4 制造业 2.5 建筑与城市规划 3. 社...

大数据 2024-07-03 人工智能

1566阅读

海淀家长疯抢的AI神器，有人用它高考前60天提分100+？星火4.0打造最强AI学习机

【新智元导读】如何才是一台能真正帮到孩子的AI学习机?最近，搭载了星火4.0大模型，并全面升级AI1v1答疑辅导实现了超拟人对话的讯飞AI学习机，堪称最省爸妈的AI神器。就在上周，2023年度国家科学技术大奖公布，科大讯飞作为第一单位荣获国家科学技术进步...

AIGC 2024-07-03 人工智能

1135阅读

探索多模态智能边界：Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南

探索多模态智能边界：Visual-Chinese-LLaMA-Alpaca 开源项目解析与应用指南在人工智能领域，多模态学习正逐渐成为研究热点，它旨在融合视觉和语言信息，构建能够理解和生成跨模态内容的智能体。Visual-Chinese-LLaMA...

生成式AI 2024-07-02 人工智能

981阅读

AIGC入门（一）从零开始搭建Transformer！（上）

前言我记得曾经看过一篇综述，综述里曾这样讲过：多模态使用Transformer作为基石模型的一个原因之一，就是因为它能够很好地统一视觉（ViT、DiT）和文本，并且无限制地扩大其参数。这是一个在工程上很有作用也很有实际意义的事情。笔者...

AIGC 2024-07-02 人工智能

1134阅读

对比体验 ChatGPT，聊聊文心一言的优缺点

在昨天文心一言发布后，我第一时间拿到了体验的资格，但第一次使用后却不禁有些失望。他的逻辑能力极度缺乏、创造力也差点意思。不过，今天再次高强度使用后，却又让我对这款产品的想法有了些许改变。前言将 2023 年称为 AI 纪元在我看来也没什么不合适的：...

生成式AI 2024-07-02 人工智能

1772阅读

AIGC发展方向和前景

引言背景介绍 AIGC的定义及其发展历程 AIGC，即人工智能生成内容，是近年来在人工智能领域兴起的一项重要技术。它通过使用机器学习和深度学习等技术，使得计算机能够自动生成各种形式的数字内容，如文本、图像、音频和视频等。 AIGC的发展可以...

人工智能 2024-07-01 人工智能

1204阅读

使用LMDeploy部署和量化Llama 3模型

## 引言在人工智能领域，大型语言模型（LLMs）正变得越来越重要，它们在各种自然语言处理任务中发挥着关键作用。Llama 3是近期发布的一款具有8B和70B参数量的模型，它在性能和效率方面都取得了显著的进步。为了简化Llama 3的部署和量化过程，lm...

大数据 2024-07-01 人工智能

1173阅读

对标GPT-4 Turbo！科大讯飞刘庆峰：理性认识中美差距绝不能盲目自信

快科技6月30日消息，科大讯飞最新发布的讯飞星火大模型V4.0，在多个关键能力上实现了对GPT-4 Turbo的超越。在近日的发布会上，科大讯飞董事长刘庆峰宣布，星火V4.0在文本生成、语言理解、知识问答、逻辑推理和数学能力等方面均达到国际领先水平，在8...

生成式AI 2024-06-30 人工智能

941阅读

【AIGC调研系列】全新的多模态小模型Phi-3-vision

全新的多模态小模型Phi-3-vision是微软在2024年推出的最新AI模型。Phi-3-vision是一个具有42亿参数的多模态模型，能够处理图像和文本数据，并对这些数据进行高效的推理和响应[12][13][14]。 Phi-3-vision特别适用...

人工智能 2024-06-28 人工智能

969阅读

2024年AIGC行业研究：多模态大模型与商业应用_

2024年2月，OpenAI发布其首款视频生成模型Sora，用户仅需输入一段文字即可生成长达一分钟场景切换流畅、细节呈现清晰、情感表达准确的高清视频，与一年前的AI生成视频相比，在各维度均实现了质的提升。这一突破再次将AIGC推向大众视野。AIGC即通过大...

AIGC 2024-06-28 人工智能

947阅读

国产大模型新高度！讯飞星火4.0发布：整体超越GPT-4 Turbo，8个国际权威测试集测评第一

国内大模型的能力，又来到了一个新高度! 6月27日，科大讯飞正式对外发布讯飞星火大模型V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。随着新版本的发布，讯飞星火V4.0七大核心能力全面升级，在8个国际主流测试集中排名第一，整体超越GPT-4Tu...

人工智能 2024-06-28 人工智能

1072阅读

【大模型应用】使用 Windows 窗体作为 Copilot 应用程序的 Ollama AI 前端（测试llava视觉问答）...

项目 “WinForm_Ollama_Copilot” 是一个使用Windows Forms作为前端的Ollama AI Copilot应用程序。这个项目的目的是提供一个用户界面(UI ，通过它，用户可以与Ollama AI进行交互。以下是该项目的一...

大数据 2024-06-28 人工智能

1025阅读

Stable Diffusion 3: Research Paper

Stable Diffusion 3: Research Paper 1. 核心理念扩展模型 (Stable Diffusion 在與 DALL·E 3、Midjourney v6 和 Ideogram v1这些图像生成系统相比，在书写效果以及...

AIGC 2024-06-28 人工智能

970阅读

每日一看大模型新闻（2024.1.20-1.21）英伟达新对话QA模型准确度超GPT-4，却遭吐槽：无权重代码意义不大；Llama 2打败GPT-4！Meta让大模型自我奖励自迭代，再证合成数据是LL

1.产品发布 1.1韩国Kakao：推出多模态大模型Honeybee 发布日期：2024.1.20 Kakao unveils multimodal large language model Honeybee - The Korea Ti...

大数据 2024-06-27 人工智能

949阅读

AIGC技术的发展现状与未来趋势探讨

AIGC技术的发展现状与未来趋势探讨随着人工智能（AI）技术的迅猛发展，AI生成内容（AI-Generated Content，AIGC）成为了一项颠覆性的技术，它能够自动生成文本、图像、音频和视频等多种内容。本文将探讨AIGC技术的发展现状及未来趋...

人工智能 2024-06-27 人工智能

3256阅读

一句话可触达200 车控动作！讯飞星火大模型已赋能红旗、奇瑞、广汽等车企

快科技6月27日消息，在讯飞星火大模型V4.0发布会上，据科大讯飞董事长刘庆峰介绍：讯飞语音交互已广泛应用于国内外汽车市场，产品前装累计搭载超5700万套，市占率位于行业首位。并且，科大讯飞星火大模型已赋能红旗、奇瑞、广汽等多家车企，搭载该大模型的相关...

大数据 2024-06-27 人工智能

780阅读

科大讯飞发布星火大模型4.0：整体超越GPT-4 Turbo！

快科技6月27日消息，科大讯飞今日在北京举办了一场主题为懂你的AI助手”的发布会，正式推出了全新的讯飞星火大模型V4.0，并展示了其在医疗、教育、商业等多个领域的人工智能应用。据刘庆峰介绍，星火大模型V4.0的训练依托于国内首个国产万卡算力集群飞星一号”...

大数据 2024-06-27 人工智能

889阅读

[Stable Diffusion/LDM] High-Resolution Image Synthesis with Latent Diffusion Models

这篇讲解很详细，可以参考：https://zhuanlan.zhihu.com/p/634573765 附上苏神的讲解：生成扩散模型漫谈（二十二）：信噪比与大图生成（上） - 科学空间|Scientific Spaces...

人工智能 2024-06-27 人工智能

1152阅读

百度文心一言插件商城正式上线！一键安装搞定PPT生成、音视频提取

快科技12月14日消息，日前，百度官方宣布，百度文心一言插件商城正式上线，插件覆盖办公提效、多模态内容理解生成、专业信息查询等实用场景。用户一键安装插件后，只需通过简单指令，即可实现PPT生成、音视频提取、思维导图制作等多场景多模态下的需求。...

人工智能 2024-06-26 人工智能

883阅读

重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代

重磅发布！Stable Diffusion 3 Medium 终于开源，革新图像生成技术新时代关键词：Stable Diffusion 3 Medium, MMDiT, 文本到图像模型, 图像质量, 排版, 复杂提示理解, 资源效率原...

AIGC 2024-06-26 人工智能

916阅读

中国杀出全球首个烹饪大模型

什么?烹饪也有大模型?! 没有听错，这就是国产厨电龙头老板电器最新发布——“食神”大模型。数十亿级行业数据，数千万级知识图谱加持，据称还是全球首个。它能为每个人提供个性化量身定制的解决方案，不仅告诉用户怎么做菜，还能调动所有设备，协助你把菜做出来。...

大数据 2024-06-25 人工智能

948阅读

Llama 3-V：以100倍小的模型和500美元匹敌GPT4-V视觉模型

概述 Llama3 的横空出世震惊了世界，它在几乎所有基准测试中都超越了 GPT-3.5，并在一些方面超越了 GPT-4。随后，GPT-4o 的出现凭借其多模态能力再次夺回了王座。今天，我们发布了一个改变现状的产品：Llama3-V，这是首个基于 Ll...

AIGC 2024-06-25 人工智能

1278阅读

【AI学习】LLaMA 系列模型的进化（一）

一直对LLaMA 名下的各个模型关系搞不清楚，什么羊驼、考拉的，不知所以。幸好看到两篇综述，有个大致了解，以及SEBASTIAN RASCHKA对LLaMa 3的介绍。做一个记录。一、文章《Large Language Models: A Surve...

大数据 2024-06-25 人工智能

1105阅读

Llama 3-V: 比GPT4-V小100倍的SOTA

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在某个环节出现卡点，可以回到大模型必备腔调重新阅读。而最新科技（Mamba，xLSTM,KAN）则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的A...

人工智能 2024-06-25 人工智能

1163阅读

字节跳动回应AI处理器传闻：消息不实

快科技6月24日消息，有传闻称，字节跳动正在与美国芯片制造商博通合作开发先进的AI处理器。据说，这款AI处理器将采用5nm工艺制造，由台积电负责生产，尽管设计工作进展顺利，但目前尚未开始流片”阶段，即设计阶段结束和制造开始的标志。对此，字节跳动回应称，...

生成式AI 2024-06-24 人工智能

790阅读

AI日报｜微软Copilot全家桶造福十亿打工人，李开复称大模型狂降价是双输...

文章推荐阿里通义降价，百度文心免费，一图对比谁是最具性价比大模型？ AI晚报｜微软推出Copilot+PC，通义主模型大幅降价，文心两大模型全面免费... AI Agent深度解析：潜力与挑战并存的智能新世界微软Build 2024：Copil...

人工智能 2024-06-24 人工智能

990阅读

每日AIGC最新进展(24)：用于图像质量和审美评估的统一视觉-语言预训练模型UniQA、可控生成图像压缩框架Control-GIC、3D感知扩散模型Ouroboros3D

Diffusion Models专栏文章汇总：入门与实战 UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment 本文提出了一...

人工智能 2024-06-23 人工智能

1063阅读

文心一言和GPT-4横向对比

文心一言和GPT-4在多个方面都存在明显的差异，下面进行详细的横向对比：首先，从产品定位和发布时间来看，文心一言是百度推出的大语言模型产品，旨在提供文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等多种能力。而GPT-4则是OpenAI在GP...

人工智能 2024-06-23 人工智能

1152阅读

原生鸿蒙AI浓度要爆表了：鸿蒙原生智能加持，华为小艺进化成系统级智能体

“鸿蒙原生智能”Harmony Intelligence来了! 一年一度华为开发者大会上，余承东首次揭秘。而在Harmony Intelligence革新下，华为小艺也迎来了重大升级—— 现在，它不仅仅是AI助手，而是系统级智能体。基于盘古大模型5.0...

生成式AI 2024-06-23 人工智能

1371阅读

SiliconCloud上新：GLM-4-9B，通用能力超越Llama 3

今天，智谱发布了第四代 GLM 系列开源模型：GLM-4-9B。 GLM-4-9B 系列模型包括：基础版本 GLM-4-9B（8K）、对话版本 GLM-4-9B-Chat（128K）、超长上下文版本 GLM-4-9B-Chat-1M（1M）和多...

AIGC 2024-06-23 人工智能

1150阅读

华为云发布盘古具身智能大模型：“夸父”人形机器人亮相

快科技6月21日消息，在今天的华为开发者大会上，华为云还发布了盘古大模型5.0，以及盘古具身智能大模型。盘古具身智能大模型是人形机器人的灵魂，会上还展示了乐聚公司搭载该模型的夸父”人形机器人。据介绍，盘古大模型能够让机器人完成10步以上的复杂任务规划...

生成式AI 2024-06-22 人工智能

917阅读

华为云盘古大模型5.0发布：可控时空生成技术重塑自动驾驶开发

快科技6月21日消息，在今日召开的华为开发者大会(HDC 2024 上，华为云发布了盘古大模型5.0，其创新的多模态生成能力，可以为自动驾驶领域提供更高质量的数据支持。华为常务董事、华为云CEO张平安表示，盘古5.0通过创新的可控时空生成，大规模的生成和...

生成式AI 2024-06-22 人工智能

770阅读

LLaMA-Factory微调多模态大语言模型教程

本文旨在结合笔者自身的实践经历，详细介绍如何使用 LLaMA-Factory 来微调多模态大语言模型。目前仓库已支持若干流行的MLLM比如LLaVA-1.5，Yi-VL，Paligemma等。 2024.5.29 注：本文后续不再更新，如果想了解更新的特...

AIGC 2024-06-21 人工智能

1232阅读

【AIGC调研系列】MiniMax 稀宇科技的abab 6.5 系列模型与国外先进模型相比的优缺点

MiniMax稀宇科技的abab 6.5系列模型与国外先进模型相比，具有以下优缺点：优点： abab 6.5系列模型采用了MoE（Mixture of Experts）架构，这是国内首个采用此架构的大模型，标志着MiniMax在自然语言处理领域的技...

大数据 2024-06-21 人工智能

1858阅读

跟AI做搭子，还是这届年轻人会玩儿

这届年轻人越来越喜欢跟AI做搭子。比如跟AI做生活搭子，让它帮自己挑水果，X平台网友“Cydiar”前不久发文，说自己用GPT-4o选出了水果店里薄皮沙瓤的一个甜西瓜。对此，有超70万网友在线围观，还有不少人在评论区用AI选起了各种水果。除了让...

大数据 2024-06-20 人工智能

882阅读

AI日报：前百度高管推AI搜索产品Genspark；Kimi内测上下文缓存功能；TikTok推AI全家桶Symphony；橙篇已支持10万字长文生成

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、前百度高管景鲲创业AI搜索估值...

AIGC 2024-06-20 人工智能

1008阅读

双排组到一个刀硬嘴甜的小姐姐，打完发现她竟是AI大模型。

永劫无间手游，终于在今天开启二测。这意味着，在本次测试结束后，正式公测就真离我们不远了。不知道差友里面多少人运气好，今天能顺利进入服务器。反正官方的各种评论区下面，那些没抽到资格的玩家，已经有点走火入魔了。而官方（24工作室和网易伏羲实验室）...

AIGC 2024-06-20 人工智能

865阅读

探索AIGC时代：全球大模型产品的评估与未来展望

随着人工智能技术的快速发展，AIGC（人工智能生成内容）产品的应用已经成为科技领域的一大趋势。本文通过详细分析我个人使用过的全球知名的AI大模型产品，如OpenAI的GPT系列、Google的Gemini、阿里巴巴的通义和Kimi，深入探讨它们的功能、优势...

生成式AI 2024-06-19 人工智能

1024阅读

【学习笔记】文生图模型——Stable diffusion3.0

2.0原理才看到VAE，sd3.0就发布了，虽然还没看到源码和详解，但原来的那个小方向估计得弃。人已经麻了。 1.LDMs模型（stable diffusion≈LDMs+CLIP） 2.stable diffusion3.0模型架构图...

生成式AI 2024-06-19 人工智能

1410阅读

AI日报：Hedra图转说话视频免费开放；Deepmind发布超牛自动视频配音技术V2A；美图WHEE V2正式上线；开源版Sora可一键生成720p高清视频

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、Hedra的 Characte...

生成式AI 2024-06-19 人工智能

1035阅读

笔记本电脑安装属于自己的Llama 3 8B大模型和对话客户端

选择 Llama 3 模型版本（8B，80 亿参数）特别注意： Meta 虽然开源了 Llama 3 大模型，但是每个版本都有 Meta 的许可协议，建议大家在接受使用这些模型所需的条款之前仔细阅读。 Llama 3 模型版本有几个，我们主要关注...

生成式AI 2024-06-19 人工智能

1438阅读

ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

AI发展科研机构Epochai在官网发布了一项，关于大模型消耗训练数据的研究报告。目前，人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练，对训练数据的需求呈指数级增长，预计将在202...

AIGC 2024-06-19 人工智能

1185阅读