-
基于机器学习的金融欺诈检测模型
作者 | 陈峻 审校 | 重楼 引言 如今,基于互联网服务的欺诈案例时常登顶媒体头条,而使用在线服务和数字交易的金融行业尤其成为了重灾区。网络洗钱、保险欺诈、网银盗用、虚假银行交易等复杂金融欺诈行为层出不穷,我们亟待通过行之有效的欺诈识别与检测的...
-
科学家利用GenAI发现物理学新见解
在生成式人工智能(GenAI)帮助下,麻省理工和瑞士巴塞尔大学的研究人员开发了一种新的机器学习(ML)框架,可以帮助发现关于材料科学的新见解。这项研究的结果发表在《物理评论快报》上。 当水从液体转变为固体时,它经历了重要的转变性质,如体积和密度。水的相...
-
快速学会一个算法,xLSTM
今天给大家分享一个超强的算法模型,xLSTM。 xLSTM(Extended Long Short-Term Memory)是对传统 LSTM(Long Short-Term Memory)模型的扩展和改进,旨在提升其在处理时间序列数据和序列预测任务中的...
-
MonoDETRNext:下一代准确高效的单目3D检测方法!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 基于单目视觉的3D目标检测在各个领域都至关重要,但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上,本文提出了MonoDETRNe...
-
Stable Diffusion教程|Controlnet插件详解和实战
不知道你是否发现,无论你再怎么精确使用文本提示词来指导SD模型,也无法描述清楚人物的四肢角度、背景中物体位置等等,因为文字的表达能力很有限。那么有没有一种通过图像特征来为扩散模型生成过程提供更加精细控制的方式,答案是肯定,那就是ControlNet! 目...
-
LightGBM算法背景、原理、特点+Python实战案例
大家好,我是Peter~ 今天给大家分享一下树模型的经典算法:LightGBM,介绍算法产生的背景、原理和特点,最后提供一个基于LightGBM和随机搜索调优的案例。 LightGBM算法 在机器学习领域,梯度提升机(Gradient Boosting...
-
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面,一种有效的方法是根据人类反馈的强化学习(RLHF)。尽管经典 RLHF 方法的结果很出色,但其多阶段的过程依然带来了一些...
-
[从0开始AIGC][Transformer相关]:Transformer中的激活函数:Relu、GELU、GLU、Swish
[从0开始AIGC][Transformer相关]:Transformer中的激活函数 文章目录 [从0开始AIGC][Transformer相关]:Transformer中的激活函数 1. FFN 块 计算公式? 2. GeLU 计...
-
14个Flink SQL性能优化实践分享
本文分享自华为云社区《Flink SQL性能优化实践》 ,作者:超梦。 在大数据处理领域,Apache Flink以其流处理和批处理一体化的能力,成为许多企业的首选。然而,随着数据量的增长,性能优化变得至关重要。本文将深入浅出地探讨Flink SQL的常...
-
谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍
今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和基础设施优化、MoE 架构等策略大幅提升了性能和速度。拥有更长的上下文,更强推理能力,可以更好地处理跨模态内容。 本周五,Google DeepMind 正式发布了 Gemini 1.5...
-
只需百行代码,让H100提速30%,斯坦福开源全新AI加速框架
AI 的快速发展,伴随而来的是大计算量。这就自然而然的引出了一个问题:如何减少 AI 对计算的需求,并提高现有 AI 计算效率。 为了回答这一问题,来自斯坦福的研究者在博客《GPUs Go Brrr》中给出了答案。 图片 博客地址:https://haz...
-
力压Transformer?首篇Mamba综述来了!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transfo...
-
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
Sora刚发布后没多久,火眼金睛的网友们就发现了不少bug,比如模型对物理世界知之甚少,小狗在走路的时候,两条前腿就出现了交错问题,让人非常出戏。 对于生成视频的真实感来说,物体的交互非常重要,但目前来说,合成真实3D物体在交互中的动态行为仍然非常困难。...
-
微软发布AI天气预测模型 能精准预报未来30天天气
微软Start团队近日宣布,他们开发出了一种全新的数据驱动AI天气预测模型,该模型能够准确预测未来30天的天气情况。这一研究成果不仅在预报准确率上取得了显著提升,同时在计算效率上也实现了巨大突破。 论文地址:https://arxiv.org/pdf/2...
-
一次性讲明白,如何搞定一个可以支持多芯混合训练的 AI 集群
由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。同时,各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内,数据中心的 AI 算力将保持多...
-
十个大型语言模型(LLM)常见面试问题和答案解析
今天我们来总结以下大型语言模型面试中常问的问题 一、哪种技术有助于减轻基于提示的学习中的偏见? A.微调 Fine-tuning B.数据增强 Data augmentation C.提示校准 Prompt calibration D.梯度裁剪 Gra...
-
低成本算法,大幅提升视觉分类鲁棒性!悉尼大学华人团队发布全新EdgeNet方法
在深度神经网络时代,深度神经网络(DNNs)在视觉分类任务中展现出了卓越的准确性。然而,它们对额外噪声,即对抗性攻击,表现出了脆弱性。先前的研究假设这种脆弱性可能源于高准确度的深度网络过度依赖于与纹理和背景等无关紧要且不鲁棒的特征。 最近的AAAI 20...
-
为什么大型语言模型都在使用 SwiGLU 作为激活函数?
如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合了SWISH和...
-
阿里刚开源32B大模型,我们立马测试了“弱智吧”
阿里的通义千问(Qwen),终于拼齐了1.5系列的最后一块拼图—— 正式开源Qwen 1.5-32B。 话不多说,直接来看“成绩单”。 这次官方pick同台竞技的“选手”是Mixtral 8x7B模型和同为Qwen 1.5系列的72B模型。 从结果上...
-
无需AI PC也能跑AI应用?背后的原因你知道吗
最近关注PC市场的朋友想必会注意到,“AI PC”已经成为了诸多厂商最新的宣传口号。 在更进一步的产品介绍里,这些厂商往往会宣称他们的新品使用了全新内置NPU(神经网络单元)的处理器,因此它可以运行老旧设备所不能支持的各种AI应用,提供从语音助手到用户感知...
-
RV融合性能拉爆!RCBEVDet:Radar也有春天,最新SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 这篇论文关注的主要问题是3D目标检测技术在自动驾驶进程中的应用。尽管环视相机技术的发展为3D目标检测提供了高分辨率的语义信息,这种方法因无法精确捕获深度信息和在恶劣天...
-
LLaMA 模型中的Transformer架构变化
目录 1. 前置层归一化(Pre-normalization) 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入(RoPE) 5. 注意力机制优化 6. Group Query Attention 7. 模型...
-
大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
自 2017 年发表“ Attention Is All You Need ”论文以来,Transformer 架构一直是自然语言处理 (NLP 领域的基石。它的设计多年来基本没有变化,随着旋转位置编码 (RoPE 的引入,2022年标志着该领域的...
-
python与机器学习日记——文心一言对话记录节选保存
——个人学习用,不适用于大佬——— 虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。 看了两章西瓜书,先都别管,读取文件试试:一言哥说得先...
-
AI21发布世界首个Mamba的生产级模型Jamba 支持256K上下文长度
AI21发布了世界首个Mamba的生产级模型:Jamba。这个模型采用了开创性的SSM-Transformer架构,具有52B参数,其中12B在生成时处于活动状态。Jamba结合了Joint Attention和Mamba技术,支持256K上下文长度。单个...
-
DBRX抢占开源大模型王座 编程、数学等领域超越GPT-3.5
最新开源大语言模型DBRX以其惊人的1320亿参数量成为业界新宠。该模型不仅在语言理解、编程和数学等方面超越了业内领先的开源模型,还在效率上有所突破。DBRX的基础和微调版本均已发布,为研究和商业应用提供了丰富的资源。 GitHub 链接:https:/...
-
OpenAI把微软电网搞崩!GPT-6被曝25年发布,训练刷爆10万张H100
GPT-6也被电力卡脖子了——部署十万个H100时,整个电网发生了崩溃! 就在刚刚,微软工程师爆料,10万个H100基建正在紧锣密鼓地建设中,目的就是训练GPT-6。 微软工程师吐槽说,团队在部署跨区域GPU间的infiniband级别链接时遇到了困难。...
-
「量子大军」出动,中国实验室破解世界级算法难题!MRD码微秒级加密防窃听,6G无人机爆炸性飞跃
近期,「新质生产力」成为备受市场关注的热词,不仅被写入2024政府工作报告,更被列为十大任务之首。 从古至今,人类社会的发展离不开生产力的变革,每一次生产力的变革都让人类社会发生天翻地覆的变化。从工业革命、电气革命到信息革命,生产力与生产关系的变化深刻影...
-
CUDA之通用矩阵乘法:从入门到熟练!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 通用矩阵乘法 (General Matrix Multiplication,GEMM 是各种模型和计算中的核心部分,同时也是评估计算硬件性能 (FLOPS 的标准技术。本文将通过对 GEMM 的实...
-
解读AI通用计算芯片:GPU训练CPU推理,用最优的成本降低AI算力支出
当前,人工智能已经成为推动企业业务创新和可持续发展的核心引擎。我们知道,算力、算法和数据是人工智能的三大核心要素,缺一不可。今天,笔者就从通用计算芯片这个维度出发,跟大家详细聊聊关于算力的相关技术与市场竞争态势。 所谓AI计算芯片(也称逻辑芯片),就是指...
-
硬刚“CloseAI”,马斯克如期开源Grok,最大开源大语言模型一夜易主!
编辑 | 伊风 出品 | 51CTO技术栈(微信号:blog51cto) 开源了! 3月11日,马斯克曾发表了一篇“字少事大”的推文,并且设为了置顶。就一句话:xAI要在本周开源自家聊天机器人 Grok了。 消息一出,关注着Musk VS. Ope...
-
CPU、GPU、NPU,究竟谁才是“AI PC”的主角?
众所周知,如今“AI PC”可以说是消费电子行业最为热门的话题之一。对于一些不太了解技术细节,但却对这个概念心向往之的消费者而言,他们相信“AI PC”可以更智能地帮助自己完成一些不熟练的操作,或是减轻日常工作的负担。 但对于像我们这样,对“AI PC”既...
-
奥特曼老黄齐预测:AGI五年内降临,代替95%工作!但马斯克断言AGI将被电力卡脖子
Claude 3、Sora、Gemini 1.5 Pro的纷纷出现,以及或许今年内就会被放出的GPT-5,让所有人都不约而同地隐隐感觉:我们似乎离AGI似乎越来越近了。 OpenAI CEO Sam Altman坚定地认为,AGI将在5年内实现。 不过,...
-
从AI推理性能优化角度看LLaMA的模型结构和源码
本篇文章讲讲LLaMA的结构,已经有很多文章已经对LLaMA在一些结构上任务表现上做了一些解析,本文主要从优化的角度、实现kernel的角度解析一下LLaMA,读者事先对transformer的结构有基本认识最好。本文首发于我的公众号“AI不止算法”,文章...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
【文生视频】Diffusion Transformer:OpenAI Sora 原理、Stable Diffusion 3 同源技术
文生视频 Diffusion Transformer:Sora 核心架构、Stable Diffusion 3 同源技术 Sora 网络结构 提出背景 输入输出 生成流程 变换器的引入 Diffusion Transformer (DiT...
-
揭秘扩散模型背后的“硬核骨架”:一文读懂Backbone在生成艺术与智能决策中的关键作用
引子:揭开扩散模型及其“脊梁骨”的神秘面纱 如今,AI创作的精美画作、音视频内容层出不穷,其中有一项技术犹如魔法般从无到有地创造出惊艳作品,那就是扩散模型。而在其运作机制的核心深处,有一个至关重要的结构——我们称之为“backbone”,正是这个强大的支...
-
基于神经网络的偏微分方程求解器新突破:北大&字节研究成果入选Nature子刊
近年来,基于神经网络的偏微分方程求解器在各领域均得到了广泛关注。其中,量子变分蒙特卡洛方法(NNVMC)在量子化学领域异军突起,对于一系列问题的解决展现出超越传统方法的精确度 [1, 2, 3, 4]。北京大学与字节跳动研究部门 ByteDance Re...
-
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 根据 OpenAI 披露的技术报告,Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表征形式,并通过 Tr...
-
国内公司有望做出Sora吗?这支清华系大模型团队给出了希望
2023 年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI 就扔出了一个重磅炸弹 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心:国内外 AI 技术的差距是不是又拉大了? 根...
-
Latent Diffusion Models / Stable Diffusion(LDM)
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022)https://arxiv.org/abs/2112.10752latent-diffusionstable-di...
-
机器学习中的十种非线性降维技术对比总结
降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量,降维算法属于无监督学习的范畴,用未标记的数据训练算法。 尽管降维方法种类繁多,但它们都可以归为两大类:线性和非线性。 线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影 。例子包括...
-
机器学习中七种常用的线性降维技术总结
上篇文章中我们主要总结了非线性的降维技术,本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA Principal Component Analysis (PCA 是一种常用的降维技术,用于...
-
AI绘画Stable Diffusion原理之扩散模型DDPM
前言 传送门: stable diffusion:Git|论文 stable-diffusion-webui:Git Google Colab Notebook部署stable-diffusion-webui:Git kaggle...
-
吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速
在文本生成音频(或音乐)这个 AIGC 赛道,Meta 最近又有了新研究成果,而且开源了。 前几日,在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,...
-
国内首个!最火的MoE大模型APP来了,免费下载,人人可玩
MoE(混合专家)模型最近有多火,不用过多介绍了吧? 作为当下最顶尖、最前沿的大模型技术方向,MoE能在不增加推理成本的前提下,为大模型带来性能激增。比如,在MoE的加持之下,GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。 但普通用户想要体...
-
挖掘BEV潜力的边界!DA-BEV:无监督BEV SOTA新方案!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&笔者的个人理解 今天和大家探讨3D视觉感知领域中的一个特定问题:针对纯视觉的鸟瞰图(BEV)的无监督领Domain Adaptation(Unsupervised Domain Ad...
-
「天工2.0」MoE大模型发布
2月6日,昆仑万维正式发布新版MoE大语言模型「天工2.0」与新版「天工AI智能助手」APP,这是国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。用户即日起可在各手机应用市场下载「天工AI智能助手」APP,体验昆仑万维「天...
-
昆仑万维发布「天工2.0」MoE大模型 新增多款 AI Agent
昆仑万维发布了新版 MoE 大语言模型「天工2.0」和新版「天工 AI 智能助手」APP。这是国内首个搭载 MoE 架构并免费向 C 端用户开放的大语言模型应用。用户可以在各手机应用市场下载「天工 AI 智能助手」APP,体验「天工2.0」的卓越性能。 「...
-
一文读懂「AIGC,AI Generated Content」AI生成内容
首先,让我们理解一下这两个概念。 AIGC,或者称之为人工智能生成内容,是指使用AI算法和模型来自动生成全新的、原创的内容。这种内容可以包括文本、图像、音频、视频等各种形式,甚至可以包括一些独特的形式,比如新颖的创意和设计。AIGC的应用领域非常广...