训练数据第29页

研究人员开发过滤器处理不安全的AI生成图像

近年来，AI图像生成器因其便捷性而变得异常受欢迎，但也引发了一系列问题。在CISPA Helmholtz信息安全中心的研究中，研究员Yiting Qu探讨了这些图像生成器中存在的不安全图像问题，并提出了一种用于解决此问题的过滤器。她一篇论文中指出，用户...

AIGC 2023-11-14 人工智能

875阅读

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

可以说，AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日，Meta 终于发布了免费可商用版本 Llama 2，让开源大模型领域的格局发生了巨大变化。 Llama 2 模...

大数据 2023-11-14 人工智能

828阅读

私人定制AI绘画——快速finetune stable diffusion教程

最近AI绘图非常火，只需要输入文本就能得到令人惊艳的图。举个例子，输入 “photo of a gorgeous young woman in the style of stefan kostic and david la chapelle, coy,...

人工智能 2023-11-14 人工智能

1088阅读

自动代码Copilot背后的模型

文章目录 1.引入 2.评估框架 3.评估数据集 4.模型方法 5.实验结果 6.总结 7.参考之前，我已经介绍过Github发布的自动代码Copilot的使用方法，感兴趣的可以看这篇文章：Copilot要收费了？今天主要介绍一...

AIGC 2023-11-13 人工智能

1044阅读

vivo X100系列首发蓝心大模型：在多个榜单中排名第一

快科技11月13日消息，在vivo X100系列发布会上，vivo黄韬宣布X100首发vivo蓝心大模型，这将会是行业首批百亿大模型在终端调通的手机。据悉，vivo自研蓝心大模型经历了六年研究，覆盖了十亿、百亿、千亿三个参数量级，全面覆盖了目前应用的核心...

AIGC 2023-11-13 人工智能

802阅读

ICLR 2024论文审稿结果出炉！7000+高产论文创新纪录，扩散模型占比最高

ICLR 2024审稿结果公布了！ ICLR是机器学习领域重要的学术会议之一，每年举办一次。2024年是第十二届，将在奥地利维也纳5月7日-11日召开。根据OpenReview官方放出的结果显示，今年共有7135篇投稿论文。此外，另有国内开发者魏国...

大数据 2023-11-13 人工智能

1021阅读

UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了

GPT-4V诞生后，惊艳的多模态能力让网友惊呼连连，连OpenAI总裁Greg Brockman都不断在X上安利。不过，最近大家发现，只要打乱布局，GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」，再次难倒…… UCSC教授Xin...

大数据 2023-11-13 人工智能

741阅读

详解超强ResNet变体NFNet：抛弃归一化后，性能却达到了最强！

本文经自动驾驶之心公众号授权转载，转载请联系出处。从上古时期一直到今天，Batch Norm (BN 一直都是视觉骨干架构里面很重要的一个环节。BN 使得研究人员可以训练更深的网络，并在训练集和测试集上实现更高的精度。Batch Norm 还可以平...

生成式AI 2023-11-13 人工智能

1119阅读

【AIGC 讯飞星火 | 百度AI|ChatGPT| 】智能对比

AI智能对比 ? 前言 ? 概念类对比 ? 讯飞 ? 百度AI ? chatGPT ? 功能类对比 ☕ 讯飞 ☕ 百度AI ☕ chatGPT ? 可输入字数对比 ? 百度AI ? 讯飞 ? chatGPT ? 总结...

大数据 2023-11-13 人工智能

939阅读

LLaMA系列 | LLaMA和LLaMA-2精简总结

文章目录 1、LLaMA 1.1、模型结构 1.2、训练方式 1.3、结论 2、LLaMA-2 2.1、相比LLaMA1的升级 2.3、模型结构 2.3.1、MHA, MQA, GQA区别与联系 2.4、训练方式 1、L...

人工智能 2023-11-13 人工智能

1334阅读

AI图像生成模型LCMs: 四个步骤就能快速生成高质量图像的新方法

在最新的AI模型和研究领域，一种名为Latent Consistency Models（LCMs）的新技术正迅速推动文本到图像人工智能的发展。与传统的Latent Diffusion Models(LDMs 相比，LCMs在生成详细且富有创意的图像方面同样...

AIGC 2023-11-13 人工智能

861阅读

语言作“纽带”，拳打脚踢各模态，超越Imagebind

北大联合腾讯打造了一个多模态15边形战士！以语言为中心，“拳打脚踢”视频、音频、深度、红外理解等各模态。具体来说，研究人员提出了一个叫做LanguageBind的多模态预训练框架。用语言作为与其它模态之间的纽带，冻结语言编码器，然后用对比学习方法...

生成式AI 2023-11-13 人工智能

827阅读

能跟「猫主子」聊天了！生成式AI带来的全面革命：最快五年内破译第一种动物语言

所罗门能够与动物交流并不是因为他拥有魔法物品，而是因为他有观察的天赋。 ——康拉德・劳伦兹《所罗门王的指环》在《狮子王》、《疯狂动物城》等以动物为中心的作品中，作者...

生成式AI 2023-11-13 人工智能

986阅读

Stable Diffusion云端部署流程与注意点

前言在今天的大数据时代，AI绘图是企业必备的重要工具之一。而Stable Diffusion作为一款部署的AI绘图，得到了很多企业和团队的认可。在使用Stable Diffusion的过程中，云部署是一个非常重要的话题，本文将详细介绍Stable Di...

人工智能 2023-11-13 人工智能

889阅读

【网安AIGC专题10.11】2 ILF利用人类编写的自然语言反馈来训练代码生成模型：自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model

Improving Code Generation by Training with Natural Language Feedback 写在最前面主要工作启发背景介绍应用现有工作的不足 Motivation动机方法 ILF...

大数据 2023-11-12 人工智能

1046阅读

[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora（部分）

文章目录 LLaMA大模型及其衍生模型 1. LLaMA 2. stanford_alpaca 3. ChatDoctor 4. alpaca-lora 5. Chinese-LLaMA-Alpaca 6. BELLE 大模型综述 A Su...

生成式AI 2023-11-12 人工智能

1335阅读

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

背景随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chim...

生成式AI 2023-11-11 人工智能

1593阅读

AIGC实战——卷积神经网络(Convolutional Neural Network, CNN)

AIGC实战——卷积神经网络 0. 前言 1. 卷积神经网络 1.1 卷积层 1.2 叠加卷积层 1.3 检查模型 2. 批归一化 2.1 协变量漂移 2.2 使用批归一化进行训练 2.3 使用批归一化进行预测 3. Dropout 4...

AIGC 2023-11-11 人工智能

915阅读

文心一言（中国版ChatGPT）

百度十年，汇成一言文心一言文心一言（英文名：ERNIE Bot）是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型，基于飞桨深...

大数据 2023-11-11 人工智能

1265阅读

LLM：LLaMA模型和微调的Alpaca模型

LLaMA模型简单了解[LeCun狂赞：600刀GPT-3.5平替！斯坦福70亿参数「羊驼」爆火，LLaMA杀疯了] 论文原文：https://arxiv.org/abs/2302.13971v1 预训练数据模型架构模型就是用的tra...

生成式AI 2023-11-10 人工智能

886阅读

Llama 2 with langchain项目详解（一）

Llama 2 with langchain项目详解（一） 2023年2月25日，美国Meta公司发布了Llama 1开源大模型。随后，于2023年7月18日，Meta公司发布了Llama 2开源大模型，该系列包括了70亿、130亿和700亿等不同参数规模...

AIGC 2023-11-10 人工智能

889阅读

AI检测器又活了？成功率高达98%，吊打OpenAI

现在AI文本检测器，几乎没有办法有效地区分AI生成的文字和人类的文字。就连OpenAI开发的检测工具，也因为检测准确率太低，在上线半年后悄悄下线了。但是最近，Nature报导了堪萨斯大学的一个团队的研究成果，他们开发的学术AI检测系统，能有效分辨论...

大数据 2023-11-10 人工智能

980阅读

昇腾CANN DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶

本文分享自华为云社区《昇腾CANN 7.0 黑科技：DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶颈》，作者：昇腾CANN 。随着人工智能的快速发展，越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成...

AIGC 2023-11-10 人工智能

846阅读

摸得到的chatgpt--AI场景下的编码

千帆竞逐的时代序幕从去年ChatGPT正式对外发布至今,其热度一直居高不下，无数大模型+类新的场景均引得无数已退休大佬下场参与，可见其中蕴含的巨大机会。2C端的搜索场景、聊天场景、教育场景、游戏场景、辅助生...

大数据 2023-11-10 人工智能

813阅读

让AI模型成为GTA五星玩家，基于视觉的可编程智能体Octopus来了

电子游戏已经成为如今现实世界的模拟舞台，展现出无限可能。以游戏《侠盗猎车手》（GTA）为例，在 GTA 的世界里，玩家可以以第一人称视角，在洛圣都(游戏虚拟城市当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们是否也能有一...

AIGC 2023-11-10 人工智能

833阅读

OpenAI与第三方机构合作，构建新的AI训练数据集

OpenAI最近宣布了Data Partnerships计划，旨在与第三方机构合作，创建用于AI模型训练的公共和私有数据集。这一举措旨在解决现有AI模型训练数据集中存在的问题，其中包含有毒语言和偏见。 OpenAI的目标是培养更安全、更有益于全人类的AI。...

生成式AI 2023-11-10 人工智能

774阅读

AIGC实战——生成模型简介

AIGC实战——生成模型简介 0. 前言 1. 生成模型 2. 生成模型与判别模型的区别 2.1 模型对比 2.2 条件生成模型 2.3 生成模型的发展 2.4 生成模型与人工智能 3. 生成模型示例 3.1 简单示例 3.2 生成模型框...

大数据 2023-11-10 人工智能

1183阅读

如何在科学研究中使用AI，避免走偏？

近十年来，人工智能已经渗透到科学的各个领域。机器学习模型已被用于预测蛋白质结构、估算亚马逊雨林的砍伐比例，甚至分类可能存在系外行星的遥远星系。然而，虽然AI可以加速科学发现，但它也可能误导科学家。与聊天机器人有时会“产生幻觉”或编造信息类似，机器学习模型有...

大数据 2023-11-10 人工智能

822阅读

百度文心一言对标 ChatGPT，你怎么看？

文心一言 VS ChatGPT 接受不完美期待进步里程碑意义文心一言初体验 ✔ 文学创作 ✔ 商业文案创作 ✔ 数理逻辑推算 ✔ 中文理解 ✔ 多模态生成写在最后何为文心？“文”就是我们中华语言文字中的文，“...

生成式AI 2023-11-10 人工智能

888阅读

OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

IT之家 11 月 10 日消息，OpenAI 发文宣布，将与组织合作生成用于训练 AI 模型的公共 / 私有数据集，数据合作伙伴关系旨在“让更多组织能够帮助引导 AI 的未来”并“从更有用的模型中受益”。 IT之家从博客获悉，OpenAI 称：“为了...

大数据 2023-11-10 人工智能

840阅读

Llama大模型运行的消费级硬件要求【CPU|GPU|RAM|SSD】

大型语言模型 (LLM 是强大的工具，可以为各种任务和领域生成自然语言文本。最先进的LLM之一是 LLaMA（大型语言模型 Meta AI），这是由 Facebook 的研究部门 Meta AI 开发的一个包含 650 亿个参数的模型要在家运行 L...

人工智能 2023-11-10 人工智能

3580阅读

LoRa模型训练教程（炼丹，Stable Diffusion）

1. lora介绍（Low Rank Adaption）何为LoRA？LoRA并不是扩散模型专有的技术，而是从隔壁语言模型（LLM）迁移过来的，旨在解决避免将整个模型参数拷贝下来才能对模型进行调校的问题。因为大型语言模型的参数量过于恐怖，比如最近新出...

AIGC 2023-11-10 人工智能

1371阅读

【AIGC】1、爆火的 AIGC 到底是什么 | 全面介绍

文章目录一、AIGC 的简要介绍二、AIGC 的发展历程三、AIGC 的基石 3.1 基本模型 3.2 基于人类反馈的强化学习 3.3 算力支持四、生成式 AI（Generative AI） 4.1 单模态 4.1.1 生成式语...

AIGC 2023-11-09 人工智能

1280阅读

开启想象翅膀：轻松实现文本生成模型的创作应用，支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用

开启想象翅膀：轻松实现文本生成模型的创作应用，支持LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用 TextGen: Implementation of Text Generation...

生成式AI 2023-11-09 人工智能

839阅读

大模型走捷径「刷榜」？数据污染问题值得重视

生成式 AI 元年，大家的工作节奏快了一大截。特别是，今年大家都在努力卷大模型：最近国内外科技巨头、创业公司都在轮番推出大模型，发布会一开，个个都是重大突破，每一家都是刷新了重要 Benchmark 榜单，要么排第一，要么第一梯队。在兴奋于技术进展速...

AIGC 2023-11-09 人工智能

779阅读

SuperCLUE：GPT-4 Turbo中文基准评测领先国内最强模型超过30分

GPT-4Turbo 是 OpenAI 发布的最新 ChatGPT 模型，具有128K 上下文和训练数据知识截止至2023年4月。 SuperCLUE表示，GPT-4Turbo在 SuperCLUE-OPEN 中文通用大模型综合性评测基准上，取得了总分98...

生成式AI 2023-11-09 人工智能

810阅读

大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

随着游戏制作技术的不断发展，电子游戏已然成为现实世界的模拟舞台。以游戏《侠盗猎车手》（GTA）为例，在GTA的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们...

人工智能 2023-11-09 人工智能

985阅读

谨防大模型基准评估陷阱！测试集乱入预训练，模型变傻

最新研究警告，大型模型在基准评估中可能面临潜在危害，原因是测试集中的数据可能意外进入预训练过程。这项研究由中国人民大学信息学院、高瓴人工智能学院和伊利诺伊大学厄巴纳-香槟分校的学者联合进行。研究发现，由于预训练语料包含大量公开文本，而评估基准建立在这些信...

大数据 2023-11-09 人工智能

844阅读

亚马逊用比 GPT-4 多两倍的参数训练 Olympus 人工智能模型

在大型语言模型（LLMs）领域，科技巨头之间的竞争愈发激烈，这些模型是像 OpenAI 的 ChatGPT 这样的工具的 AI 技术基础。根据路透社内部消息人士的消息，亚马逊正计划推出自己的产品，投入巨资训练其自己的名为「Olympus（奥林匹斯）」的...

人工智能 2023-11-09 人工智能

790阅读

【AI绘画】《超入门级教程：训练自己的LORA模型》，MM超爱的萌宠图片实战

目录前言一、SD-Trainer webui使用介绍二、准备工作 2-1、登录在线训练平台 2-2、购买算力并创建工作空间 2-3、启动工作空间三、开始训练 3-1、打开终端 3-2、准备训练数据 3-3、准备模型文件 3-3-...

生成式AI 2023-11-09 人工智能

1983阅读

文心一言 vs GPT-4 —— 全面横向比较

文心一言 vs GPT-4 —— 全面横向比较 3月15日凌晨，OpenAI发布“迄今为止功能最强大的模型”——GPT-4。我第一时间为大家奉上了体验报告《OpenAI 发布GPT-4——全网抢先体验》。时隔一日，3月16日下午百度发布大语言模型—...

人工智能 2023-11-09 人工智能

1241阅读

谷歌新论文称“AI即将超越人类”还不现实，其有自身局限性

11月8日消息，三名谷歌研究人员在最新提交给预印本文献库(ArXiv 的一篇论文中指出，人工智能领域的底层技术深度神经网络transformer并不擅长归纳概括。 Transformer是ChatGPT等人工智能工具背后大语言模型的基础。在11月1日提...

AIGC 2023-11-09 人工智能

846阅读

解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

文章开始，我们先来看一段球赛解说视频：是不是感觉听起来不太对劲？你的感觉没错，因为这段解说是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视...

生成式AI 2023-11-09 人工智能

858阅读

ChatGPT泄露陌生男子自拍照！隐私数据被模型偷了？网友大恐慌

【新智元导读】原来，这竟然也是ChatGPT的幻觉? 最近，ChatGPT响应中蹦出陌生男子照片事件，让许多网友们震惊了! 事情是这样的，一名用户向ChatGPT求助——Python中的代码格式化包back该怎样使用。开始，ChatGPT的回答还很正常。...

大数据 2023-11-09 人工智能

759阅读

Copilot 的训练数据集是如何生成的？是否包含开源项目的代码？

GitHub Copilot 是一款基于人工智能的代码自动生成工具，它是由 GitHub 与 OpenAI 合作开发的。为了让 Copilot 能够学习大量的代码片段，从而能够为开发者生成高质量的代码，它需要依赖海量的训练数据集。本文将深入探讨 Copil...

AIGC 2023-11-09 人工智能

977阅读

研究警告:到2026年，AI训练数据可能告急

随着人工智能（AI）达到巅峰，研究人员警告称，AI行业可能会面临训练数据告急的问题，这是强大AI系统的燃料。这可能会减缓AI模型的增长，特别是大型语言模型，并可能改变AI革命的轨迹。为了训练强大、准确和高质量的AI算法，我们需要大量数据。例如，ChatG...

人工智能 2023-11-08 人工智能

824阅读

AIGC实战——深度学习 (Deep Learning, DL)

AIGC实战——深度学习 0. 前言 1. 深度学习基本概念 1.1 基本定义 1.2 非结构化数据 2. 深度神经网络 2.1 神经网络 2.2 学习高级特征 3. TensorFlow 和 Keras 4. 多层感知器 (MLP ...

大数据 2023-11-08 人工智能

869阅读

使用 GitHub Copilot 自动化测试

代码完成并不是什么新鲜事。像 IntelliSense 这样的工具已经允许开发人员通过尝试自动完成他们正在编写的函数或语句的名称来提高工作效率，但是可用的工具只有一定程度的实际“智能”可用。随着 GitHub 的 Copilot 的有限发布，他们正在利用...

人工智能 2023-11-08 人工智能

794阅读

万字长文解读Stable Diffusion的核心插件—ControlNet

目录一、介绍二、使用方法三、ControlNet结构 1.整体结构 2.ControlLDM 3.Timestep Embedding 4.HintBlock 5.ResBlock 6.SpatialTransformer 7.S...

人工智能 2023-11-08 人工智能

2073阅读

文心一言Plugin实战来了，测试开发旅游攻略助手

刚刚过去的8月，百度WAVE SUMMIT 深度学习开发者大会上，重磅发布文心一言的五个原生插件：百度搜索、览卷文档（基于文档的交互）、E 言易图（数据洞察图表生成）、说图解画（基于图片的交互）、一镜流影（文字转视频）。我们知道大模型的训练过程一般...

人工智能 2023-11-08 人工智能

966阅读