模型训练第8页 - AIGC资讯

有望替代谷歌成全球新范式！阿里云重磅论文提出新一代AI网络架构

快科技5月14日消息，在网络通信领域的国际顶会SIGCOMM2024上，阿里云6篇论文被收录。其中最引人注目的是介绍其最新一代智算集群网络架构HPN 7.0的论文，该论文也是SIGCOMM历史上首篇关于AI智算集群网络架构的论文。据介绍，HPN 7.0...

AIGC 2024-05-14 人工智能

740阅读

DLRover 如何拯救算力浪费？10 分钟自动定位故障机，1 秒内保存 Checkpoint！

欢迎大家在 GitHub 上 Star 我们：分布式全链路因果学习系统 OpenASCE:https://github.com/Open-All-Scale-Causal-Engine/OpenASCE 大模型驱动的知识图谱 OpenSPG:http...

人工智能 2024-05-13 人工智能

1002阅读

大神Karpathy强推，分词领域必读：自动钓鱼让大模型“发疯”的token，来自Transformer作者创业公司

关于大模型分词（tokenization），大神Karpathy刚刚推荐了一篇必读新论文。主题是：自动检测大模型中那些会导致“故障”的token。图片简单来说，由于大模型tokenizer的创建和模型训练是分开的，可能导致某些token在训练中很少...

人工智能 2024-05-13 人工智能

804阅读

Flash Attention稳定吗？Meta、哈佛发现其模型权重偏差呈现数量级波动

Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差，提供了新的研究框架。众所周知，大语言模型的训练常常需要数月的时间，使用数百乃至上千个 GPU。以 LLaMA2 70B 模型为例，其训练总共需要 1,720,320 GPU hours。由...

AIGC 2024-05-13 人工智能

902阅读

英伟达开源大模型对齐框架—NeMo-Aligner

随着ChatGPT、Midjourney等大模型产品的影响力、应用场景越来越多，为了确保输出的内容安全、可靠，对齐成为开发人员的关注重点和难点。但现在的模型参数少则几百亿多则上千亿，想通过传统的监督式微调方法来完成对齐效果往往不理想。因此，英伟达的研究...

生成式AI 2024-05-13 人工智能

923阅读

Paper Digest | 基于原型学习的实体图谱预训练跨域推荐框架

可以看到，通过映射得到对应item相关的entity后，基于图谱推理流程，我们可以得到许多和映射得到的entity相关的高阶信息，如苹果这个公司有手机产品，而手机这类产品相关的公司有三星等，从而可以潜在的拉近和其他相关实体（如三星生产的手机等）间的关系。...

生成式AI 2024-05-11 人工智能

980阅读

什么值得买发布全面AI战略：值得买消费大模型参数规模达130亿

站长之家（ChinaZ.com）5月11日消息:在5月10日于北京举行的以“效率驱动未来”为主题的2024值得买科技集团战略发布会上，值得买科技创始人、董事长隋国栋分享了公司的创业理念、AIGC实践以及对未来技术发展趋势的深入洞察。隋国栋表示，值得买科...

大数据 2024-05-11 人工智能

800阅读

万字长文超全总结Pytorch核心操作！

在深度学习与人工智能领域，PyTorch已成为研究者与开发者手中的利剑，以其灵活高效的特性，不断推动着新技术的边界。对于每一位致力于掌握PyTorch精髓的学习者来说，深入了解其核心操作不仅是提升技能的关键，也是迈向高级应用与创新研究的必经之路。本文精心...

生成式AI 2024-05-10 人工智能

1059阅读

一文读懂多家厂商的大模型训练、推理、部署策略

大合影 get ✅ 披萨和礼物不能少！接下来进入主题演讲回顾环节。可扫描下方二维码、关注“OSC 开源社区”视频号，进入“直播回放”页面查看完整视频回顾：刘昊：大模型分析与趋势展望武汉人...

人工智能 2024-05-09 人工智能

1095阅读

Deepseek-V2技术报告解读！全网最细！

深度求索Deepseek近日发布了v2版本的模型，沿袭了1月发布的 Deepseek-MoE（混合专家模型）的技术路线，采用大量的小参数专家进行建模，同时在训练和推理上加入了更多的优化。沿袭了一贯的作风，Deepseek对模型（基座和对话对齐版本）进行了...

生成式AI 2024-05-09 人工智能

4071阅读

理论+实践，带你了解分布式训练

本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训练（Distributed Training）系统来解决...

AIGC 2024-05-09 人工智能

1037阅读

港大开源图基础大模型OpenGraph 增强图学习泛化能力

香港大学数据智能实验室主任黄超团队开发了一款名为 OpenGraph 的图基础大模型，专注于在多种图数据集上进行零样本预测。该模型通过学习通用的图结构模式，仅通过前向传播即可对全新数据进行预测，有效缓解了图学习领域的数据饥荒问题。关键特点: 强泛化能...

大数据 2024-05-09 人工智能

821阅读

OpenAI 打造媒体管理工具，让内容创作者可以选择退出 AI 训练

人工智能公司 OpenAI 近日表示，他们正在研发一款名为媒体管理（Media Manager）的工具，旨在让内容创作者更好地控制其作品在生成式人工智能训练中的使用。这一工具将允许创作者和内容所有者向 OpenAI 确认其作品，并指定希望这些作品是否包含在...

AIGC 2024-05-08 人工智能

783阅读

OpenAI CEO曾称 GPT-2“非常糟糕”，现在对该版本“情有独钟”

OpenAI 首席执行官 Sam Altman 近日表达了对 GPT-2语言模型的喜爱之情，尽管他此前批评了早期模型，但他对即将推出的 GPT-5充满期待。Altman 在社交平台上承认，他 “确实对 GPT-2有一种软肋”。今年早些时候，Altman...

人工智能 2024-04-30 人工智能

997阅读

大模型时代，九章云极DataCanvas点亮五座“灯塔”

“计算”是贯穿人类文明史的一大主题。早在茹毛饮血的原始社会，先民们就开始结绳记事；进入20世纪，世界上首台数字式电子计算机ENIAC诞生，标志着人类算力正式跨越阈限；随后半导体技术出现，芯片成为了算力的主要载体；科技巨轮驶入21世纪，云计算的发展再度为...

大数据 2024-04-30 人工智能

893阅读

甲骨文加强生成式 AI 能力，云计算竞争白热化

美国多国计算机技术公司甲骨文（Oracle）正加强其生成式 AI 能力，与云计算竞争日益激烈，越来越多的公司加入 AI 领域。AI 繁荣 ——ChatGPT 聊天机器人在2022年11月推出，推动了对云计算服务和数据中心的需求增加，因为 AI 模型训练需要...

人工智能 2024-04-29 人工智能

741阅读

图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

中关村论坛举办以来的首个主题日活动：「人工智能主题日」今日开启！到场嘉宾，也是星光熠熠，大佬云集，还有着浓浓的国际范儿，与世界顶尖水平接轨。一共161位嘉宾，近一半是外籍AI大佬和从业者。而嘉宾阵容也是非常豪华，汇集了国内外30多名院士，还有诺奖、...

生成式AI 2024-04-28 人工智能

819阅读

一次性讲明白，如何搞定一个可以支持多芯混合训练的 AI 集群

由于外部环境的变化，适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群，仍然是当前加速大模型训练的主要 AI 算力来源。同时，各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内，数据中心的 AI 算力将保持多...

大数据 2024-04-26 人工智能

770阅读

量化、剪枝、蒸馏，这些大模型黑话到底说了些啥？

量化、剪枝、蒸馏，如果你经常关注大语言模型，一定会看到这几个词，单看这几个字，我们很难理解它们都干了些什么，但是这几个词对于现阶段的大语言模型发展特别重要。这篇文章就带大家来认识认识它们，理解其中的原理。模型压缩量化、剪枝、蒸馏，其实是通用的神经网络...

大数据 2024-04-26 人工智能

877阅读

挑战拯救痴心“舔狗”，我和大模型都尽力了

天降猛男，大模型化身为 “痴情男大”，等待人类玩家的拯救。一款名为 “拯救舔狗” 的大模型原生小游戏出现了。游戏规则很简单:如果玩家在几轮对话内说服 “他” 放弃追求对他并无青睐的女神，就算挑战成功。听起来并不难，然而游戏源于生活，模型人设是痴情属...

生成式AI 2024-04-24 人工智能

770阅读

OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%

国内AI不行，是因为芯片不行？我们跟国外的差距，是因为和英伟达芯片的差距过大？最近，圈内有许多这样的论调。其实深挖下去，就会发现事实完全不是这样。即使是英伟达最先进的芯片，依然无法满足当下人工智能在算力上的需求。随着模型参数量和数据量的增加，智慧...

大数据 2024-04-24 人工智能

862阅读

商汤发布日日新5.0大模型综合能力全面对标GPT-4

4月23日下午，商汤科技发布了一项重磅更新——全新升级的日日新SenseNova5.0大模型。这款大模型采用了先进的MOE混合专家架构，经过超过10TB tokens的训练，其推理上下文窗口达到了惊人的200K，展现出了与GPT-4Turbo全面对标的能力...

人工智能 2024-04-23 人工智能

805阅读

首设大模型挑战赛，琶洲算法大赛为大模型应用赋能加速！

时隔一年，琶洲算法大赛再次强势如约回归。4月23日，2024年第三届琶洲算法大赛正式启动。本届大赛由广州市人民政府、中国人工智能学会联合主办，中国信息通信研究院、海珠区人民政府、广州市科学技术局、广州市工业和信息化局、广州市政务服务和数据管理局、人工智能...

AIGC 2024-04-23 人工智能

916阅读

阿里云宣布全方位支持Llama 3训练推理帮助开发者构建自己的大模型

阿里云百炼大模型服务平台近期宣布了一项重要的支持计划，即为Meta公司最新开源的Llama3系列大语言模型提供全方位的支持。这项服务包括限时免费的模型训练、部署和推理服务，旨在帮助企业和开发者在阿里云平台上构建和优化自己的专属大模型。主要如下: 免费...

人工智能 2024-04-22 人工智能

871阅读

4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源

蛋白质结构相比于序列往往被认为更加具有信息量，因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破，大量的预测结构被发布出来供人研究使用。如何利用这些蛋白质结构来训练强大且通用的表征模型是一个值得研究的方向。西湖大学的研究人员利用Fo...

人工智能 2024-04-22 人工智能

867阅读

EMNLP 2023｜利用LLM合成数据训练模型有哪些坑？

大家好，我是HxShine 今天我们将介绍EMNLP2023的一篇大模型（LLMs）生成文本分类任务合成数据的文章，标题是《Synthetic Data Generation with Large Language Models for Text Cla...

AIGC 2024-04-21 人工智能

1008阅读

重构、定义、引领，九章云极DataCanvas智算操作系统重磅发布

4月18日，2024九章云极DataCanvas智算操作系统新品发布会于北京隆重召开，全新产品DATACANVAS AIDC OS智算操作系统（以下简称AIDC OS）正式官宣。AIDC OS以卓越的AI技术实力和AI基础软件为根基，以重新定义和突破...

大数据 2024-04-21 人工智能

790阅读

Meta 发布Llama 3，能力直逼GPT-4,一己之力拉高开源大模型水位

编辑|伊风、诺亚出品 | 51CTO技术栈（微信号：blog51cto） Meta麾下“羊驼”一路狂奔在开源的大道上。在过去的一年里，Llama系列可以说开辟了开源LLM的半壁江山。嫌弃开源模型能力只有GPT-3.5,不够用? 如今Llam...

大数据 2024-04-20 人工智能

878阅读

如何通过机器学习算法设计软传感器？

通过理解机器学习算法的功能，工程师可以为他们的应用生成有效的软传感器。软传感器（soft sensor），也称为虚拟传感器，是一种可以综合处理数百个测量数据的软件。想要添加软传感器的工厂管理者可能会对使软传感器工作的机器学习的范围感到不知所措。然而，...

生成式AI 2024-04-12 人工智能

771阅读

十个大型语言模型(LLM)常见面试问题和答案解析

今天我们来总结以下大型语言模型面试中常问的问题一、哪种技术有助于减轻基于提示的学习中的偏见? A.微调 Fine-tuning B.数据增强 Data augmentation C.提示校准 Prompt calibration D.梯度裁剪 Gra...

生成式AI 2024-04-11 人工智能

1106阅读

7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

当下，大语言模型集成至编程领域、完成代码生成与补全任务成为重要趋势。业界已经出现了一批引人瞩目的代码大模型，比如 OpenAI 的 CodeX、谷歌 DeepMind 的 AlphaCode、HuggingFace 的 StarCoder，帮助程序员更迅捷...

AIGC 2024-04-10 人工智能

1042阅读

神仙掐架！24届视觉算法岗(AIGC方向)秋招经验分享！

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。今天我来介绍我们星球社群一位很...

人工智能 2024-04-10 人工智能

1218阅读

基于Stable Diffusion的智能绘画大模型

随着人工智能技术的不断发展，AI艺术也在逐渐崭露头角。其中，基于Stable Diffusion的智能绘画大模型更是成为了AI艺术领域的一大亮点。那么，什么是Stable Diffusion？它又是如何应用于智能绘画大模型中的呢？本文将为您一一解答。首...

生成式AI 2024-04-10 人工智能

808阅读

提高 AI 训练算力效率：蚂蚁 DLRover 故障自愈技术的创新实践

本文来自蚂蚁 DLRover 开源负责人王勤龙（花名长凡）在 2024 全球开发者先锋大会(GDC 的分享——《DLRover 训练故障自愈：大幅提升大规模 AI 训练的算力效率》。王勤龙，长期在蚂蚁从事 AI 基础设施的研发，主导了蚂蚁分布式训练的弹...

大数据 2024-04-09 人工智能

947阅读

深入探索AI写作：从困惑度到爆发度的挑战与机遇

大家好，小发猫降重今天来聊聊深入探索AI写作：从困惑度到爆发度的挑战与机遇，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：深入探索AI写作：从困惑度到爆发度的挑战与机遇在AI技术飞速发展的...

AIGC 2024-04-09 人工智能

915阅读

近屿智能独家发布：AIGC大模型工程师和产品经理学习路径图，AI技术不再难懂！

随着人工智能技术的飞速发展，AI取代人工的现象在各个行业和领域变得日益普遍，不少人因此忧心忡忡，担心自己的前途受到AI的冲击。实际上，AI不会取代你的工作，会取代你的是懂AI的人，如何提升自己与他人的知识壁垒，如何学习AIGC？相信在刚刚过去2023这个A...

人工智能 2024-04-08 人工智能

1292阅读

OpenAI计划建立「数据市场」，训出GPT-5短缺20万亿 token

全网高质量数据集告急!据报道，AI 公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出，对训练下一代强大模型至关重要。面对这一挑战，AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问...

AIGC 2024-04-08 人工智能

849阅读

北大&火山引擎夺冠！CLIC视频压缩挑战赛结果公布，中国团队表现亮眼

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 随着以深度学习为代表的新一代人工智能技术不断取得突破，学术界与工业界逐渐意识到人工智能技术在图像、视频压缩领域的巨大应用潜力。基于深度...

人工智能 2024-04-08 人工智能

784阅读

AI大模型对神秘学易经有什么用？

Mistral Trismegistus-7B 是一款由AI驱动的神秘学专用模型，专为那些对神秘学、玄学和灵性感兴趣的人设计，可提供从古代智慧到现代塔罗牌占卜等各种神秘主题的见解。 Mistral Trismegistus-7B 名字来源于Hermes...

人工智能 2024-04-08 人工智能

1276阅读

OpenAI发布新的AI微调工具：“绝大多数组织将开发定制模型”

OpenAI宣布了对其微调API的重大增强，以及其定制模型程序的扩展。这些更新将赋予开发者前所未有的控制权，以微调AI模型，并为构建特定业务需求的定制模型提供新途径。自2023年8月推出以来，GPT-3.5的微调API已经成为组织精细化AI模型以执行特定...

AIGC 2024-04-07 人工智能

881阅读

AI公司出门问问通过港交所聆讯有望成为AIGC第一股

据IPO早知道报道，“出门问问”日前成功通过港交所聆讯，并于4月2日公布了相关资料，旨在主板挂牌上市。本次上市由中金公司和招银国际共同担任联席保荐人，此举标志着出门问问或将引领AIGC行业，成为该领域的“第一股”。据悉，出门问问是一家人工智能公司，专注于...

人工智能 2024-04-07 人工智能

862阅读

斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

近日，斯坦福大学研究人员发布的 Octopus v2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了 GPT-4，同时将上下文长度减少了95%。...

生成式AI 2024-04-07 人工智能

1282阅读

超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 在大模型落地应用的过程中，端侧 AI 是非常重要的一个方向。近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社...

AIGC 2024-04-07 人工智能

873阅读

斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力而受到广泛关注。 Octopusv2是一款拥有20亿参数的开源语言模型，专为在Android设备上运行而设计，同时也适用于汽车、个人电脑等其他...

人工智能 2024-04-07 人工智能

1276阅读

OpenAI为开发者添加新功能允许构建自定义模型

OpenAI为开发者添加新功能，以增强对微调的控制，并宣布新方法来构建与OpenAI的自定义模型。这意味着开发者可以开发和训练一个特定于某个组织、业务领域、任务需求的模型。如法律、医疗等特定模型! 详细内容:https://openai.com/blog...

人工智能 2024-04-07 人工智能

947阅读

OpenAI 转录了超过一百万小时的 YouTube 视频来训练 GPT-4

近日，《华尔街日报》报道称，人工智能公司在收集高质量训练数据方面遇到了困难。随后，《纽约时报》详细介绍了一些公司处理这一问题的方法，其中涉及到了人工智能版权法的模糊灰色区域。故事从OpenAI开始。该公司迫切需要训练数据，据报道开发了Whisper音频转...

AIGC 2024-04-07 人工智能

808阅读

中科大等意外发现：大模型不看图也能正确回答视觉问题！

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 大模型不看图，竟也能正确回答视觉问题？！中科大、香港中文大学、上海AI Lab的研究团队团队意外发现了这一离奇现象。他们首先看到像...

人工智能 2024-04-07 人工智能

778阅读

谷歌更新Transformer架构，更节省计算资源！50%性能提升

想了解更多AIGC的内容，请访问： 51CTO AI.x社区 https://www.51cto.com/aigc/ 谷歌终于更新了Transformer架构。最新发布的Mixture-of-Depths（MoD），改变了以往Transformer计...

大数据 2024-04-07 人工智能

883阅读

【小白】一文读懂AIGC模型之Stable Diffusion模型

目录模型简介模型结构 VAE变分编码器 VAE结构 VAE模型训练与损失函数 U-Net结构 CLIP Text Encoder 模型工作流程参考模型简介 Stable Diffusion（SD）模型是一种基于...

AIGC 2024-04-05 人工智能

1360阅读

llama-factory简介

llamafactory是什么，能干什么 LLaMA-Factory 是一个易于使用的大规模语言模型（Large Language Model, LLM）微调框架，它支持多种模型，包括 LLaMA、BLOOM、Mistral、Baichuan、Qwen ...

人工智能 2024-04-05 人工智能

1479阅读