训练数据第2页 - AIGC资讯

1500+ HuggingFace API token暴露，使数百万 Meta-Llama、Bloom 等大模型用户面临风险

HugginingFace 和 GitHub 是AI开发人员的重要平台，因此我们决定对这些平台做更为深入的研究。在这项研究中，我们发现了数以千计的 API 令牌，这些令牌暴露给恶意行为者，使数百万最终用户可能受到攻击。本文的主要内容包括：...

人工智能 2024-10-01 人工智能

1436阅读

LlaMa-Factory源码解析之预训练LLaMA-Factory/src/llamafactory/train/pt/workflow.py -＞ run_pt()

LLaMA-Factory/src/llmtuner/train/pt/workflow.py at main · hiyouga/LLaMA-Factory · GitHub 截止至2024年7月，该框架workflow.py目录从LLaMA-Fact...

生成式AI 2024-09-30 人工智能

1538阅读

百度Ernie大模型是什么？

百度的Ernie模型（Enhanced Representation through kNowledge Integration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成...

人工智能 2024-09-29 人工智能

1422阅读

AIGC提示词（3）：AI的创造力之谜：相同提示词，不同内容

引言在这个数字化的时代，人工智能生成内容（AIGC）已经变得无处不在。想象一下，只需输入几个关键词，AI就能创作出各种内容，无论是文字、图片，还是其他形式。但这里有个有趣的问题：如果我们给AI相同的提示词，它们生成的内容会一样吗？这个问题触及了AI内...

AIGC 2024-09-28 人工智能

1170阅读

AI日报：Meta发布Llama3.2模型及Orion AR眼镜；Sora迎来大升级；全新Notion AI发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、猛了!Meta震撼发布Llam...

人工智能 2024-09-26 人工智能

949阅读

LLaMA-Factory使用指南：快速训练专属大模型，打造定制化AI解决方案！

本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。不管是聊天机器人，还是文章生成器，甚至是问答系统，都能搞定。而且，LLama-Factory 还支持多种框架和...

AIGC 2024-09-26 人工智能

1875阅读

ComfyUI系列教程(4)--ComfyUI基础节点LoRA

ComfyUI基础节点LoRA 2. ComfyUI基础节点 2.1. LoRA 2.1.1.LoRA原理 2.1.2.LCM-LoRA 2.1.3.ComfyUI示例 2. ComfyUI基础节点本文主要介绍LoRA模...

AIGC 2024-09-25 人工智能

3130阅读

Llama 3.1 技术研究报告-2

3.3 基础设施、扩展性和效率我们描述了⽀持Llama 3 405B⼤规模预训练的硬件和基础设施，并讨论了⼏项优化措施，这些措施提⾼了训练效率。 3.3.1 训练基础设施 Llama 1和2模型在Meta的AI研究超级集群（Lee和Sengup...

AIGC 2024-09-25 人工智能

1233阅读

LLaMA 数据集

LLaMA的训练数据集来源多样，涵盖了多个不同的数据集和预处理步骤。以下是详细的描述：公开数据来源和预处理 CommonCrawl [67%]：使用CCNet管道（Wenzek等人，2020年）对2017年至2020年间的五个Comm...

生成式AI 2024-09-25 人工智能

1061阅读

万字长文｜LLM大模型基础入门（非常详细）从入门到精通系列之：（三）Transformer 架构

...

生成式AI 2024-09-24 未命名

1133阅读

Alluxio Enterprise AI on K8s 部署教程

? Alluxio Enterprise AI on K8s 部署教程 ? 链接为Alluxio Enterprise AI on K8s 部署视频教程。下面内容将通过文字方式主要介绍如何通过 Operator（Kubernetes 管理应用程序的扩展）在...

大数据 2024-09-23 人工智能

989阅读

11、LLaMA-Factory自定义数据集微调

1、数据集定义针对实际的微调需求，使用专门针对业务垂直领域的私有数据进行大模型微调才是我们需要做的。因此，我们需要探讨如何在LLaMA-Factory项目及上述创建的微调流程中引入自定义数据集进行微调。**对于LLaMA-Factory项目，目前...

人工智能 2024-09-22 人工智能

3598阅读

【2024 最新版】完全免费！本地运行！AI生图神器SD！stable diffusion秋叶整合包V4.9来了!

由 AI 生成的美女一、Stable Diffusion 究竟是什么从本质上来说，Stable Diffusion 是一种基于深度学习的生成式 AI 模型，能够依据文本提示和图像提示来生成图像。其诞生历程如下： 2015年，斯坦福大学的Ja...

生成式AI 2024-09-22 人工智能

1456阅读

【AIGC】InstructPixPix:基于文本引导的图像编辑技术

github:diffusers/examples/instruct_pix2pix/train_instruct_pix2pix_sdxl.py at main · huggingface/diffusers · GitHub 论文：https://a...

生成式AI 2024-09-22 人工智能

1191阅读

速通LLaMA2：《Llama 2: Open Foundation and Fine-Tuned Chat Models》全文解读

文章目录概览 LLaMA和LLaMA2的区别 Abstract Introduction Pretraining Fine-tuning 1. 概括 2、Supervised Fine-Tuning（SFT） 3、⭐Reinforcemen...

人工智能 2024-09-22 人工智能

1091阅读

24全网最全stable diffusion模型讲解！快来！！新手必收藏！！

前言手把手教你入门绘图超强的AI绘画程序Stable Diffusion，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包（文末可获取） AI模型最新展现出的图像生成能力远远超出...

生成式AI 2024-09-21 人工智能

1101阅读

使用LLaMA-Factory快速训练自己的专用大模型

本文聊聊 LLama-Factory，它是一个开源框架，这里头可以找到一系列预制的组件和模板，让你不用从零开始，就能训练出自己的语言模型（微调）。不管是聊天机器人，还是文章生成器，甚至是问答系统，都能搞定。而且，LLama-Factory 还支持多种框架和...

大数据 2024-09-21 人工智能

1113阅读

【大模型理论篇】生成式模型算法原理深入浅出（涉及Stable Diffusion、生成对抗网络、高斯混合模型、隐马尔可夫模型、朴素贝叶斯等算法原理分析及生成式模型解释）

1. 背景介绍随着大模型的推出，“生成式AI”这个名词一夜之间席卷大江南北。甚至很多人的概念里，“生成式AI”等同于人工智能。但事实上，人工智能(Artificial Intelligence 涵盖的范围要广的多，生成式AI只是其中的...

AIGC 2024-09-21 人工智能

1210阅读

详聊LLaMa技术细节：LLaMA大模型是如何炼成的？

本文介绍来自 Meta AI 的 LLaMa 模型，类似于 OPT，也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等，是在数万亿个 token 上面训练得到。值得一提的是，LLaMa 虽然只使用公共的数据集，依然取得了强悍...

AIGC 2024-09-21 人工智能

1626阅读

AIGC-初体验

线性分类提问，目的试图让AI自动线性分类 A类：(10,21 ,（3,7）,(9,20）(121,242 B类：(3,9 ,(5,11 ,(70,212 ,(11,34 根据线性关系分类请问 (100,300 ，（100，201）属于哪一类下...

大数据 2024-09-21 人工智能

1134阅读

如何微调 Llama 3 进行序列分类？

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学. 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。汇总合集：《大模...

生成式AI 2024-09-20 人工智能

1095阅读

AIGC时代，仅用合成数据训练模型到底行不行？来一探究竟 | CVPR 2024

首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究，展示了如SynCLIP和SynCLR等合成克隆模型，其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标，除了常见的图像损坏和OOD（域外分布）检测。另一方...

生成式AI 2024-09-19 人工智能

1050阅读

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

今天凌晨，阿里巴巴官宣了史上最大规模的开源发布，推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。这三大类模型一共有10多个版本，包括0.5B、1.5B、3B、7B、14B、32B和72B，适用于个人、企...

大数据 2024-09-19 人工智能

1007阅读

互联网已经被 AI 污染的差不多了

最近一张用AI批量做号的微信截图流传在各个群里，有人自爆用AI在小红书做了一个庞大的虚假账号矩阵，通过售卖账号进行变现。这并非个例，你有没有一种感觉，现在刷手机的时候越来越分不清真实和虚拟了？当你浏览社交媒体、搜索信息或阅读文章和观看视频时，你真的能分...

大数据 2024-09-19 人工智能

872阅读

OpenAI o1智商120，还是被陶哲轩称为「平庸的研究生」，但实力究竟如何？

o1消息满天飞。自从 OpenAI 发布了新模型 o1后，它就承包了 AI 领域近几天的热搜: 有人用门萨智商测试题「拷问」它，竟测得 o1智商高达120; 数学大佬陶哲轩要求 o1回答一个措辞含糊的数学问题，最终得出一个结论:o1是个平庸但不无能的研究...

生成式AI 2024-09-18 人工智能

986阅读

Stable Diffusion训练LoRA模型参数详细说明（阿里巴巴堆友AI）

工具：线上模型训练堆友AI 一、训练参数批量大小 (Batch Size 作用：每次训练中使用的样本数量。参考值：可以从 8 到 64，取决于显存大小。训练轮数 (Epochs 作用：完整遍历训练数据的次数。参考值：通...

人工智能 2024-09-18 人工智能

2429阅读

速通LLaMA1：《LLaMA: Open and Efficient Foundation Language Models》全文解读

文章目录论文总览 1. 创新点和突破点 2. 技术实现与算法创新 3. 架构升级 4. 概念补充 SwiGLU激活函数 AdamW 5. 总结 Abstract Introduction Approach Pre-training...

人工智能 2024-09-18 人工智能

1486阅读

Stable Diffusion安装教程（附安装包链接）

1.打开链接，可以看到这里边为大家提供了四个版本，N卡和A卡版本是为使用windows系统的朋友提供的。可以根据你的显卡型号选择下载。 2.N卡高端显卡附带秋叶大佬启动器，(里面附带启动器安装教程这个版本是我们优先为大家推荐的，而且这个文件夹里还分...

人工智能 2024-09-17 人工智能

1847阅读

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

【新智元导读】OpenAI o1，在门萨智商测试中果然取得了第一名。数学大神陶哲轩实测发现，o1竟然能成功识别出克莱姆定理。而OpenAI的研究副总裁也在此时跳出来表明:大型神经网络可能已经有了足够算力，表现出意识了。 OpenAI o1，在IQ测试中拿到...

人工智能 2024-09-15 人工智能

907阅读

AIGC的幻觉问题与数据质量

好的，下面是针对主题“AIGC的幻觉问题与数据质量”的一些典型面试题和算法编程题的满分答案解析。 1. 什么是AIGC？它与传统AI有何不同？题目：请简述AIGC的概念，并比较它与传统AI的区别。答案： AIGC（AI Generated Co...

大数据 2024-09-14 人工智能

1095阅读

AI绘画，5分钟用 stable diffusion 做装修图，室内设计师要失业了

前言 AI绘画功能越来越强大，不光可以用来画人物，为电商模特一键换衣，还可以在5分钟内生成一张室内效果图，看来室内设计师饭碗也岌岌可危了。 1、获得室内线稿图首先，打开3ds max ，简单用box堆一个室内场景出来，你用其他三维软件也可以，然后...

大数据 2024-09-14 人工智能

1323阅读

推荐项目：Honest LLaMA——追求真相的大型语言模型干预技术

推荐项目：Honest LLaMA——追求真相的大型语言模型干预技术 honest_llamaInference-Time Intervention: Eliciting Truthful Answers from a Language Model项目...

大数据 2024-09-12 人工智能

1382阅读

小心！AI能「看懂」你的唇语，悄悄话不再安全！

小心悄悄话被AI听见!（嘘）最近国外一款可以读唇语的AI软件火了! 具体效果如下: 红毯上布莱克·莱弗利小声说:“好紧张”，笑着说话时肉眼很难分辨唇语，但AI可以。乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。看完后网友们开始纷...

大数据 2024-09-12 人工智能

1278阅读

腾讯最新万亿参数异构MoE上线，技术细节首次曝光！权威评测国内第一，直逼GPT-4o

近期，腾讯混元推出新一代旗舰大模型——混元Turbo。作为国内率先采用MoE结构大模型的公司，腾讯继续在这一技术路线上进行技术创新。相较上一代混元Pro的同构MoE大模型结构，混元Turbo采用了全新的分层异构MoE结构，在参数总规模上依然保持万亿级。...

AIGC 2024-09-12 人工智能

1121阅读

Unsloth微调环境搭建与LLaMA 3.1-8B模型微调实践指南

本文将详细介绍如何使用Unsloth框架进行LLaMA 3.1-8B模型的微调，帮助您快速构建微调环境，并了解微调流程的基本步骤。本教程适合初学者，旨在帮助您在短时间内实现自己的专属模型微调。对于更复杂的微调参数和细节设置，将在后续文章中进一步阐述。文...

AIGC 2024-09-12 人工智能

2221阅读

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

GPT vs LlaMA GPT与LlaMA，作为大语言模型的两大巨擘，均基于Transformer架构却各有千秋。GPT系列以强大的生成能力著称，通过不断增大的参数规模引领复杂语言与推理任务的前沿；而Llama则以开源姿态，通过技术创新提升模型性能，预...

人工智能 2024-09-12 人工智能

1248阅读

快速降低AIGC疑似率

标题：掌握AIGC技术，快速降低疑似率一、了解AIGC技术基础在当今数字化时代，人工智能生成内容（AIGC）技术正迅速成为创新和创造力的驱动力。AIGC技术指的是利用人工智能算法自动生成文本、图像、音频和视频等内容的技术。这项技术的应用范围广泛，从...

大数据 2024-09-11 人工智能

948阅读

AIGC的社会责任：AIGC的社会责任

AIGC的社会责任：AIGC的社会责任作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 AIGC的兴起与社会影响近年来，人工智能生成内容（AIGC）技术发展迅速，其应用范围不断扩大，对社会产生了深远的影响。从文本创作、图像生成到音频合成，A...

生成式AI 2024-09-11 人工智能

878阅读

AI日报：Fluxgym傻瓜式训练FLUX Lora；弱智吧成中文AI训练“金矿”；美国法官用AI解读法律

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、12G显存就能玩转AI模型训练...

生成式AI 2024-09-09 人工智能

1140阅读

一文彻底搞懂 Fine-tuning - 超参数（Hyperparameter）

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。《...

大数据 2024-09-09 人工智能

1255阅读

基于云原生向量数据库 PieCloudVector 的 RAG 实践

近年来，人工智能生成内容（AIGC）已然成为最热门的话题之一。工业界出现了各种内容生成工具，能够跨多种模态产生多样化的内容。这些主流的模型能够取得卓越表现，归功于创新的算法、模型规模的大幅扩展，以及海量的高质量数据集。然而 AIGC 依然面临一系列挑战，检...

人工智能 2024-09-09 人工智能

1009阅读

开源大模型再迎“历史性时刻”，Meta发布Llama 3.1

7月23日晚，Meta正式推出了最新的开源大模型系列Llama 3.1，进一步缩小了开源模型与闭源模型之间的差距。Llama 3.1系列包括8B、70B和405B三个参数规模，其中Llama 3.1-405B参数的模型在多个基准测试中超越了OpenAI的G...

大数据 2024-09-08 人工智能

1143阅读

基于LLaMA-Factory微调llama3成为一个角色扮演大模型，保姆级教学零基础，导出GGUF格式前篇

训练私有本地大模型需求量越来越高了，今天就从零基础开始，不讲原理，只看结果的来完整走一遍如何训练llama3成为角色扮演，先培养兴趣，后面有需要再补充原理（1）准备环境推荐：使用云计算机（当然4090高配大佬请忽略）这不是广告！不是广告！你...

大数据 2024-09-07 人工智能

1747阅读

微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

随着ChatGPT、Copliot等生成式AI产品的快速迭代，对训练数据的需求呈指数级增长，同时也是提升大模型性能的关键环节之一。为了解决训练数据短缺和质量差的难题，微软研究院发布了一个专门用于生成高质量合成数据的的AI Agent——Agent Ins...

AIGC 2024-09-07 人工智能

981阅读

Llama 3.1 92页技术报告详细解读

引言半个月前，Meta发布了他们的开源大模型Llama3.1，在社区中引起广泛关注和讨论。现在几周的时间过去了，热度逐渐退潮，舆论逐渐降温，整个Llama3家族的技术报告也公开出来。报告数据更新到了Llama 3.1，正是理性地来审视一下这款大模型...

人工智能 2024-09-07 人工智能

1571阅读

腾讯推出新一代大模型“混元Turbo”，性能大幅提升，定价低 50%

9月5日，腾讯宣布推出新一代大模型“混元Turbo”，相比前代模型，腾讯混元Turbo性能有显著提升，训练效率提升108%，推理效率提升100%，推理成本降低50%，解码速度提升20%，效果在多个基准测试上对标GPT-4o，第三方测评居国内第一。在腾讯...

AIGC 2024-09-05 人工智能

945阅读

使用PyTorch从零构建Llama 3

我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后，有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了，本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。 [图1]：Llama...

人工智能 2024-09-05 人工智能

903阅读

《Llama 3大模型》技术报告中英文版，95页pdf

现代人工智能（AI）系统由基础模型驱动。本文介绍了一套新的基础模型，称为Llama 3。它是一群本地支持多语言、编码、推理和工具使用的语言模型。我们最大的模型是一个具有4050亿参数和高达128K令牌上下文窗口的密集Transformer。本文对Llama...

AIGC 2024-09-04 人工智能

930阅读

探索未来游戏开发新纪元: 使用Godot Copilot加速您的创作之旅

探索未来游戏开发新纪元: 使用Godot Copilot加速您的创作之旅 godot-copilotAI-assisted development for the Godot engine.项目地址:https://gitcode.com/gh_mir...

生成式AI 2024-09-03 人工智能

2163阅读

AI数据告急，大厂盯上廉价年轻人

为了拿到新数据、训练AI大模型，字节等互联网大厂正在亲自下场，以单次300元不等的价格招募“AI录音员”，定制语料库。坐落于北京大钟寺的字节办公楼，集中了字节的抖音业务团队和火山引擎业务团队，从年初便开始招募素人为豆包大模型录音。两人结组、单次3小时，包...

大数据 2024-09-03 人工智能

792阅读