-
强化学习与多任务推荐
一、短视频推荐两阶段约束强化学习算法 首先介绍的一项快手自研的 WWW 2023 Research Track 工作,主要解决短视频推荐场景下的带约束多目标优化问题。 在短视频推荐单列场景中,用户通过上下滑形式和系统进行交互,观看多个视频。用户对每个...
-
让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)
最近微软一项研究让Llama 2选择性失忆了,把哈利波特忘得一干二净。 现在问模型“哈利波特是谁?”,它的回答是这样婶儿的: 木有赫敏、罗恩,木有霍格沃茨…… 要知道此前Llama 2的记忆深度还是很给力的,比如给它一个看似非常普通的提示“那年秋天,哈...
-
交叉验证太重要了!
首先需要搞明白,为什么需要交叉验证? 交叉验证是机器学习和统计学中常用的一种技术,用于评估预测模型的性能和泛化能力,特别是在数据有限或评估模型对新的未见数据的泛化能力时,交叉验证非常有价值。 那么具体在什么情况下会使用交叉验证呢? 模型性能评估:交叉...
-
AI视野:xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理
????大模型动态 李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字 零一万物发布全球最强的开源大模型Yi-34B,具备超强的语言理解和处理能力,支持处理40万汉字,在中文指标上表现卓越,标志着中国在大模型领域的重大突破。 项目地址:htt...
-
大型语言模型(LLM)技术精要,不看亏了
哈喽,大家好。 今天分享一篇知乎高赞文章,作者是张俊林老师。 图片 读完收获很多,能帮大家更好地理解、学习大模型。原文有2.8w字,我提炼了核心要点,阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型(LLM)...
-
Silobreaker推AI威胁情报助手:协助组织迅速应对风险
领先的安全和威胁情报技术公司Silobreaker正式宣布推出其全新生成式人工智能工具,名为Silobreaker AI。这一工具的主要目标是为威胁情报团队提供支持,帮助他们更快地生成高质量的情报报告,以助力组织做出以情报为主导的决策。 Silobreak...
-
PubDef:使用公共模型防御迁移攻击
译者 | 布加迪 审校 | 重楼 对抗性攻击对机器学习系统的可靠性和安全性构成了严重威胁。通过对输入进行微小的变动,攻击者就可以导致模型生成完全错误的输出。防御这种攻击是一个很活跃的研究领域,但大多数提议的防御措施都存在重大的缺点。 这篇来自加州大学伯克...
-
AI治理的内容、方式及其产生的原因
自诞生以来,AI一直是一个强大的工具,通过自动化任务和简化操作,构建更好的技术,并使最终用户体验更轻松和更个性化,帮助改善内部运营。虽然AI对社会的影响并不新鲜,但更先进的AI解决方案的崛起引发了人们对这些技术将如何利用的担忧。 AI的繁荣创造了对强大...
-
人工智能如何改变城市景观
人工智能(AI 和深度学习无处不在,如今它们具有重塑城市景观的潜力。分析景观图像的深度学习模型可以帮助城市规划者可视化重建计划,以提高美观度并防止代价高昂的错误。然而,为了使这些模型有效,它们需要准确地识别和分类图像中的元素,这是一个称为实例分割的挑战...
-
马斯克xAI公布大模型详细进展,Grok只训练了2个月
近几日,马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ,直接把网友的好奇心拉满。 和总是一本正经回答问题的 ChatGPT 不同,Grok 自带幽默和嘲讽技能。 就像下图所展示的,Grok 在被...
-
Together AI发布RedPajama v2 用于大模型训练
Together AI发布了RedPajama v2,这是一个包含30万亿标记的数据集,旨在支持大型语言模型的研究和开发。高质量的数据对于这些模型的成功至关重要,但获取适当的数据集是一项繁琐的任务,需要大量时间、资源和金钱。 研究人员从CommonCraw...
-
谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化
Transformer模型是否能够超越预训练数据范围,泛化出新的认知和能力,一直是学界争议已久的问题。 最近谷歌DeepMind的3位研究研究人员认为,要求模型在超出预训练数据范围之外泛化出解决新问题的能力,几乎是不可能的。 LLM的终局就是人类智慧总和...
-
元象XVERSE开源650亿参数通用大模型XVERSE-65B
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。 XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。 模型通过训练了2....
-
北大具身智能新成果:无需训练,听指令就能灵活走位
北京大学董豪团队具身导航最新成果来了: 无需额外建图和训练,只需说出导航指令,如: Walk forward across the room and walk through the panty followed by the kitchen. Stan...
-
使用LIME解释各种机器学习模型代码示例
机器学习模型变得越来越复杂和准确,但它们的不透明性仍然是一个重大挑战。理解为什么一个模型会做出特定的预测,对于建立信任和确保它按照预期行事至关重要。在本文中,我们将介绍LIME,并使用它来解释各种常见的模型。 LIME LIME (Local Inter...
-
Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。 对于像Llama、Mistral、Falcon、MPT和RedPajama等...
-
全球首发!总结七十余种开源数据集,一览自动驾驶开源数据体系
本文经自动驾驶之心公众号授权转载,转载请联系出处。 基于数据驱动的各类深度学习模型任务,近年来随着数据集规模的不断扩大,性能逐渐被提升,国内外各大自动驾驶公司都在不断建立自己的数据库,以及数据闭环系统,期待数据的丰富能够解决下半场自动驾驶问题,那么如何...
-
什么是机器学习中的正则化?
1. 引言 在机器学习领域中,相关模型可能会在训练过程中变得过拟合和欠拟合。为了防止这种情况的发生,我们在机器学习中使用正则化操作来适当地让模型拟合在我们的测试集上。一般来说,正则化操作通过降低过拟合和欠拟合的可能性来帮助大家获得最佳模型。 在本文...
-
中科院物理研究所等发布材料合成AI大语言模型MatChat
近期,中国科学院计算机网络信息中心人工智能部和物理研究所SF10组合作,通过使用来自400多万篇论文中提取的35675个无机材料固相反应合成过程,将数据处理为13878条高可信度的合成路径描述数据,并对开源大语言模型LLaMA2-7B进行微调训练,研发了专...
-
一篇学会大模型浪潮下的时间序列预测
今天跟大家聊一聊大模型在时间序列预测中的应用。随着大模型在NLP领域的发展,越来越多的工作尝试将大模型应用到时间序列预测领域中。这篇文章介绍了大模型应用到时间序列预测的主要方法,并汇总了近期相关的一些工作,帮助大家理解大模型时代时间序列预测的研究方法。...
-
GitHub黑市曝光,高档刷星6元一颗,最奇葩开源项目97%都是刷的
在黑市买GitHub星星多少钱? 最贵的高达6元一颗。 有创业者Yassin Eldeeeb自掏腰包测试了一把。他足足花20欧元(约156人民币),只买到25颗“高级星星”。 没错,在黑市上刷GitHub星星也是分高低贵贱的。 高级的都是注册一年以上的...
-
20步内越狱任意大模型!更多“奶奶漏洞”全自动发现
1分钟不到、20步以内“越狱”任意大模型,绕过安全限制! 而且不必知道模型内部细节—— 只需要两个黑盒模型互动,就能让AI全自动攻陷AI,说出危险内容。 听说曾经红极一时的“奶奶漏洞”已经被修复了: 那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏...
-
给大模型评分的基准靠谱吗?Anthropic来了次大评估
现阶段,大多数围绕人工智能 (AI)对社会影响的讨论可归结为 AI 系统的某些属性,例如真实性、公平性、滥用的可能性等。但现在面临的问题是,许多研究人员并没有完全意识到建立稳健可靠的模型评估是多么困难。当今许多现有的评估套件在各个方面的表现都很有限。 A...
-
AI「脑补」画面太强了!李飞飞团队新作ZeroNVS,单个视图360度全场景生成
近来,利用3D感知扩散模型训练模型,然后对单个物体进行SDS蒸馏的研究数不胜数。 但是,能够真正做到「场景级」的画面生成,从未实现。 现如今,斯坦福李飞飞和谷歌团队打破了这个记录! 比如,输入一张从某个角度拍摄的客厅图片,整个客厅的样貌就出来了。 再来...
-
大模型落地最后一公里:111页全面综述大模型评测
当前,大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命,众多科技巨头纷纷围绕大模型进行布局,进一步推动大模型不断向前发展。然而,尽管大模型能够协助我们完成各种任务,改变我们的生产和生活的方式,提高生产力,为我们带来便利,但大模型的发展也伴随着诸多...
-
AI能理解自己生成的东西吗? 在GPT-4、Midjourney上实验后,有人破案了
从 ChatGPT 到 GPT4,从 DALL・E 2/3 到 Midjourney,生成式 AI 引发了前所未有的全球关注。强大的潜力让人们对 AI 产生了许多期待,但是强大的智能也会引发人们的恐惧和担忧。近期大牛们针对该问题还上演了一场激烈的论战。先...
-
CMU清华MIT引爆全球首个Agent无限流,机器人「007」加班自学停不下来!具身智能被革命
全球首个生成式机器人Agent发布了! 长久以来,相比于语言或者视觉模型可以在大规模的互联网数据上训练,训练机器人的策略模型需要带有动态物理交互信息的数据,而这些数据的匮乏一直是具身智能发展的最大瓶颈。 最近,来自CMU、清华、MIT,UMass等机构的...
-
字节“开盒”OpenAI所有大模型,揭秘GPT-3到GPT-4进化路径!把李沐都炸出来了
GPT-3究竟是如何进化到GPT-4的? 字节给OpenAI所有大模型来了个“开盒”操作。 结果还真摸清了GPT-4进化路上一些关键技术的具体作用和影响。 比如: SFT是早期GPT进化的推动者 帮助GPT提升编码能力的最大功臣是SFT和RLHF 在...
-
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
AI黑盒如何才能解? 神经网络模型在训练的时,会有些ReLU节点「死亡」,也就是永远输出0,不再有用。 它们往往会被被删除或者忽略。 恰好赶上了模糊了生与死的界限的节日——万圣节,所以这是探索那些「死节点」的好时机。 对于大多数图像生成模型来说,会输出正...
-
科普神文,一次性讲透AI大模型的核心概念
图片 令牌,向量,嵌入,注意力,这些AI大模型名词是否一直让你感觉熟悉又陌生,如果答案肯定的话,那么朋友,今天这篇科普神文不容错过。我将结合大量示例及可视化的图形手段,为你由浅入深一次性讲透AI大模型的核心概念。 引言 随着科技公司及国际竞争的不断推进,...
-
蚂蚁集团发布DevOps领域大模型评测基准DevOps-Eval
蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。 该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等8个类别的选择题,共计4850道题目。 此外,还针对 AIOps 任务做了细分,并添加了日...
-
使用Ray创建高效的深度学习数据管道
用于训练深度学习模型的GPU功能强大但价格昂贵。为了有效利用GPU,开发者需要一个高效的数据管道,以便在GPU准备好计算下一个训练步骤时尽快将数据传输到GPU。使用Ray可以大大提高数据管道的效率。 1、训练数据管道的结构 首先考虑下面的模型训练伪代码。...
-
机器学习 | PyTorch简明教程上篇
前面几篇文章介绍了特征归一化和张量,接下来开始写两篇PyTorch简明教程,主要介绍PyTorch简单实践。 1、四则运算 import torch a = torch.tensor([2, 3, 4] b = torch.tensor([3, 4,...
-
Jina AI 推出“jina-embeddings-v2”:全球首个8k 开源文本嵌入模型
Jina AI 公布了其第二代文本嵌入模型的最新进展:jina-embeddings-v2。这个最先进的模型是唯一支持8K(8192个token)上下文长度的开源解决方案。这一成就使其在功能和在大规模文本嵌入基准 (MTEB 排行榜上的性能方面与 Ope...
-
Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 论文信息 2. 引言 这篇论文介绍了一种新的3D object detection方法,这对于自动驾驶、机器人技术和监控等应用至关重要。传统的3D object detection方法使用鸟瞰视角(BEV)方法,将3D场景简化为2D表示。然而,常...
-
阿里云发布通义星尘、通义灵码等产品 推出大模型应用开发平台阿里云百炼
在昨日的2023云栖大会上,阿里云发布了多个重要的产品和技术。 首先是通义大模型家族的更新。阿里云发布了千亿级参数规模的大模型通义千问2.0,综合性能超过了 GPT-3.5,正在追赶 GPT-4。此外,通义千问 APP 也在各大手机应用市场上线,用户可以直...
-
你应该知道的十种机器学习算法
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 毫无疑问,机器学习/人工智能领域在将来是越来越...
-
姚班斯隆奖马腾宇正式宣布大模型创业
清华姚班校友兼斯坦福大学助理教授马腾宇宣布了一个引人注目的创业项目,名为Voyage,旨在提供卓越的嵌入模型。这个嵌入模型在MTEB数据集上表现超越OpenAI,成为SOTA。该项目的成功也得益于三位知名教授,包括斯坦福人工智能实验室主任Christoph...
-
AI如何影响医疗保健行业的信息安全格局
在访谈中,Moss Adams的董事总经理Troy Hawes讨论了由AI支持的网络攻击如何影响医疗保健组织,AI支持的预测分析在抵御网络威胁方面可以发挥的关键作用,以及医疗保健组织如何保护其员工和患者免受网络攻击。 AI如何了改变医疗保健领域的网络...
-
全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线
国内大模型创业公司,正在技术前沿创造新的记录。 10 月 30 日,百川智能正式发布 Baichuan2-192K 长窗口大模型,将大语言模型(LLM)上下文窗口的长度一举提升到了 192K token。 这相当于让大模型一次处理约 35 万个汉字,长度...
-
DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了
就在今天,DeepMind公布了AlphaFold最新进展——「AlphaFold-latest」。 根据DeepMind最新发布的技术报告,新一代的AlphaFold不仅仅能够以更高的准确性处理和预测蛋白质的结构。 ,时长01:32 它还能将相似的能力...
-
数据中心的未来:利用人工智能的优势促进经济增长和创新
当流行科幻小说描述“机器智能的崛起”时,它通常伴随着激光、爆炸,或者在一些温和的例子中,伴随着轻微的哲学恐惧。 但毫无疑问,人们对人工智能 (AI 和机器学习 (ML 在现实生活中应用的可能性的兴趣正在与日俱增,而且新的应用程序每天都在涌现。 全...
-
英伟达发布430亿参数大模型ChipNeMo
英伟达最新发布的430亿参数大语言模型ChipNeMo专注于辅助芯片设计,旨在提高工程师的工作效率。这一大语言模型的应用范围广泛,包括问答、EDA脚本生成和Bug总结等任务,使芯片设计变得更加便捷。 英伟达首席科学家Bill Dally强调,即使提高生产率...
-
独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。 但细心...
-
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。 但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。 然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。还有更离谱的,GPT-4V直接犯了致命的...
-
GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了...
-
图模型也要大?清华朱文武团队有这样一些观点
在大模型时代,图机器学习面临什么样的机遇和挑战?是否存在,并该如何发展图的大模型?针对这一问题,清华大学朱文武教授团队首次提出图大模型(Large Graph Model)概念,系统总结并梳理了图大模型相关的概念、挑战和应用;进一步围绕动态性和可解释性,...
-
情境化如何释放生成式人工智能潜力
随着生成式人工智能(GenAI 以闪电般的速度发展,情境化对于想要利用其真正价值的企业至关重要。 眨眼间,生成式人工智能已经从科幻小说转变为现实,让企业竞相跟上其快速发展并辨别其实际应用。据最近的一项调查显示,70%的组织正在探索利用这项技术力量的方法...
-
【深度学习】生成对抗网络(GANs)详解!
一、概述 生成对抗网络(Generative Adversarial Networks 是一种无监督深度学习模型,用来通过计算机生成数据,由Ian J. Goodfellow等人于2014年提出。模型通过框架中(至少 两个模块:生成模型(Generat...
-
Meta AI研究负责人倡导开源许可制度变革
Meta公司最近发布的大型语言模型Llama2备受争议,因其并未完全满足开源倡议的要求。尽管Llama2相对较为开放和免费,但在开源软件领域,一些人仍对该公司的开放性持有异议。 具体来说,Meta公司的许可协议使Llama2对许多人免费,但它仍然是有限的,...