-
Jetson Orin安装riva以及llamaspeak,使用 Riva ASR/TTS 与 Llama 进行实时交谈,大语言模型成功运行笔记
NVIDIA 的综合语音 AI 工具包 RIVA 可以处理这种情况。此外,RIVA 可以构建应用程序,在本地设备(如 NVIDIA Jetson)上处理所有这些内容。 RIVA 是一个综合性库,包括: 自动语音识别 (ASR) 文本转语音合成 (TT...
-
Colossal-AI团队开源了SwiftInfer 大模型无限流式输入推理飙升46%
近日,国产开源项目SwiftInfer实现了无限流式输入推理,成功提升了大模型推理性能46%。这是一个重大突破,可以为多轮对话场景提供高效可靠的落地方案。 它采用了attention sink注意力机制、窗口注意力优化、KV Cache机制优化等方法,Sw...
-
四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍! 而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。 有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。 近日,来自得克萨斯农...
-
Stable Diffusion web UI 安装、启动脚本、常见问题、插件(linux)
Stable Diffusion本身是一个模型,对于大多数想试试的人来说,使用这个web ui版本最合适建议先看完再动手,虽然不难但是有门槛(主要要解决网络问题),如果深入需要会python如果只是想试试的,建议直接下载别人打好的包,自己搭建确实很麻烦20...
-
Stable Diffusion 文生图技术原理
图像生成模型简介 图片生成领域来说,有四大主流生成模型:生成对抗模型(GAN)、变分自动编码器(VAE)、流模型(Flow based Model)、扩散模型(Diffusion Model)。 从2022年开始,主要爆火的图片生成模型是Diffusi...
-
学习实践-Whisper语音识别模型实战(部署+运行)
1、Whisper内容简单介绍 OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)...
-
13个优秀开源语音识别引擎
语音识别(ASR)在人机交互方面发挥着重要的作用,可用于:转录、翻译、听写、语音合成、关键字定位、语音日记、语言增强等场景。语音识别基本过程一般包括:分析音频、音频分解、格式转换、文本匹配,但实际的语音识别系统可能会更复杂,并且可能包括其他步骤和功能组件...
-
在灾难推文分析场景上比较用 LoRA 微调 Roberta、Llama 2 和 Mistral 的过程及表现
引言 自然语言处理 (NLP 领域的进展日新月异,你方唱罢我登场。因此,在实际场景中,针对特定的任务,我们经常需要对不同的语言模型进行比较,以寻找最适合的模型。本文主要比较 3 个模型: RoBERTa、Mistral-7B 及 Llama-2...
-
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源! 这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。 StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共400万个token,22.2倍推理速度提升。 该项...
-
使用LLaMA-Factory微调ChatGLM3
1、创建虚拟环境 略 2、部署LLaMA-Factory (1)下载LLaMA-Factory https://github.com/hiyouga/LLaMA-Factory (2)安装依赖 pip3 install -r requi...
-
大模型无限流式输入推理飙升46%!国产开源加速「全家桶」,打破多轮对话长度限制
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工Guangxuan Xiao等人推出的StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共400万个token的流式输入,22.2倍的推理速度提升...
-
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用Score Distillation Sampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡...
-
AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了
近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态...
-
AI视野:阿里开源AnyText;Pika推出付费计划;阿里推文生3D数字人项目;Magnific AI图片分辨率扩大至10K*10K
????大模型动态 阿里开源AnyText 阿里开源多语言视觉文字生成与编辑模型——AnyText,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。...
-
百度文心一言,是中国版的ChatGPT吗?
百度文心一言,是中国版的ChatGPT吗? 文心一言发布会网友评论: 百度在让人失望这件事上,从来没让人失望过! 技术原理一句没有,商业价值滔滔不绝。 ChatGPT?CheatGPT! 难怪暴跌,还没看两眼就困了,没话可以直播咬打火机,股...
-
强大人工智能编码助手code AI 自动分析代码结构并优化
code AI是一款强大的人工智能编码助手,旨在提供便捷高效的编码体验。它结合了先进的机器学习技术和丰富的编程知识,为开发人员提供了全面的编码支持和智能建议。 通过深度学习算法,codeAI 能够自动分析代码结构,并识别出潜在的错误和优化机会。它能够快速定...
-
LLMs之RAG:LangChain-Chatchat(一款中文友好的全流程本地知识库问答应用)的简介(支持 FastChat 接入的ChatGLM-2/LLaMA-2等多款主流LLMs+多款embe
LLMs之RAG:LangChain-Chatchat(一款中文友好的全流程本地知识库问答应用 的简介(支持 FastChat 接入的ChatGLM-2/LLaMA-2等多款主流LLMs+多款embedding模型m3e等+多种TextSplitter分词...
-
告别逐一标注,一个提示实现批量图片分割,高效又准确
Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一...
-
AI绘画 | stable diffusion简介和原理
Stable Diffusion中文的意思是稳定扩散,本质上是基于AI的图像扩散生成模型。 Stable Diffusion是一个引人注目的深度学习模型,它使用潜在扩散过程来生成图像,允许模型在生成图像时考虑到文本的描述。这个模型的出现引起了广泛的关注和讨...
-
轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了
当大家都在研究大模型(LLM)参数规模达到百亿甚至千亿级别的同时,小巧且兼具高性能的小模型开始受到研究者的关注。 小模型在边缘设备上有着广泛的应用,如智能手机、物联网设备和嵌入式系统,这些边缘设备通常具有有限的计算能力和存储空间,它们无法有效地运行大型语...
-
GitHub Copilot 与 JetBrains AI Assistant 使用初步使用对比
GitHub Copilot 使用 要在 JetBrains IDE 中使用 GitHub Copilot,必须安装 GitHub Copilot 扩展。以下过程将指导您在 IntelliJ IDEA 中安装 GitHub Copilot 插件。...
-
如何在你的电脑上完成whisper的简单部署
如何在你的电脑上完成whisper的简单部署(超详细教程) 前言 一、显卡驱动、CUDA ToolKit、cuDNN的下载 1. 显卡驱动 2. CUDA ToolKit 3. cuDNN的安装 二、windows下安装conda 三、使...
-
专为数据库打造:DB-GPT用私有化LLM技术定义数据库下一代交互方式
2023 年 6 月,蚂蚁集团发起了数据库领域的大模型框架 DB-GPT。DB-GPT 通过融合先进的大模型和数据库技术,能够系统化打造企业级智能知识库、自动生成商业智能(BI)报告分析系统(GBI),以及处理日常数据和报表生成等多元化应用场景。DB-G...
-
英伟达推新AI语音识别模型Parakeet 号称优于Whisper
领先的开源对话 AI 工具包 NVIDIA NeMo宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。Parakeet ASR 模型与 Suno.ai 合作开发,是语音识别领域的一大...
-
Stable-Diffusion和ControlNet插件安装全过程,以及使用心得汇总.
Stable-Diffusion的安装我采用的是YouTuBe视频的 <<How to Install & Use Stable Diffusion on Windows>> 需要魔法上网...
-
正式发布!ERNIE Bot SDK:轻松调用文心一言能力(含token福利)
ERNIE Bot SDK提供便捷易用的接口,可以调用文心一言的能力,包含文本创作、通用对话、语义向量、AI作图等,具体支持接入功能如下: 对话补全(Chat Completion) 函数调用(Function Calling) 语...
-
本地部署Stable Diffusion教程,亲测可以安装成功
系列文章目录 Stable Diffusion界面参数及模型使用 谷歌Colab云端部署Stable Diffusion 进行绘图 文章目录 系列文章目录 前言 一、Stable Diffusion是什么? 二、安装前的准备 1...
-
文心一格: AIGC简介及文心一格简单使用
文章目录 @[toc] 一、AIGC 二、AI作画 三、Prompt 四、文心一格 1.文心一格小程序 2.使用方法 3.使用小程序进行AI绘图 六、未来发展 小结 其他 一、AIGC AIGC(AI Generat...
-
本地部署Stable Diffusion Webui AI 记录
Stable Diffusion Webui AI本地部署基本分为两种方式: 1、使用大佬的打包好的安装包一键部署 b站秋葉aaaki 2、手动部署(个人实践记录)参考文章 本地部署基本要求 1、 需要拥有NVIDIA显卡,GTX1060 (或...
-
AI绘画中UNet用于预测噪声
介绍 在AI绘画领域中,UNet是一种常见的神经网络架构,广泛用于图像相关的任务,尤其是在图像分割领域中表现突出。UNet最初是为了解决医学图像分割问题而设计的,但其应用已经扩展到了多种图像处理任务。 特点 对称结构:UNet的结构呈现为“U...
-
Mac本地部署Stable Diffusion,超详细,含踩坑点(AI 绘画保姆级教程)
一、 引言 相继在两个云平台 Kaggle 和 AutoDL 上部署了 Stable Diffusion 后,这周决定再在 Mac 本地部署一下 Stable Diffusion! 其实看 Stable Diffusion WebUI 的 Githu...
-
解决新版Edge浏览器右上角不显示Copilot图标的问题
概述 本文主要介绍一种在Windows平台上,通过删除或替换配置文件来解决新版Edge浏览器右上角不显示Copilot图标的方法,该方法适用于Edge的正式版和Dev版。 另外,文章最后还补充了一种通过下载旧版Edge浏览器解决这个问题的方法,以备将...
-
争议不断的AI绘画,靠啥成为了顶流?
今年以来,AIGC迅速崛起。 所谓AIGC,即AI-Generated Content,指的是利用人工智能来生成内容,被认为是继专业产出内容(PGC)、用户产出内容(UGC)后的新型内容创作方式。不久前掀起热议的“AI绘画”就是AIGC的一个典例。 在...
-
Meta最新模型LLaMA详解(含部署+论文)
来源:投稿 作者:毛华庆 编辑:学姐 前言 本课程来自深度之眼《大模型——前沿论文带读训练营》公开课,部分截图来自课程视频。 文章标题:LLaMA: Open and Efficient Foundation Language Mode...
-
持续进化,快速转录,Faster-Whisper对视频进行双语字幕转录实践(Python3.10)
Faster-Whisper是Whisper开源后的第三方进化版本,它对原始的 Whisper 模型结构进行了改进和优化。这包括减少模型的层数、减少参数量、简化模型结构等,从而减少了计算量和内存消耗,提高了推理速度,与此同时,Faster-Whisper也...
-
【AI实战】llama.cpp量化cuBLAS编译;nvcc fatal:Value ‘native‘ is not defined for option ‘gpu-architecture‘
【AI实战】llama.cpp量化cuBLAS编译;nvcc fatal:Value 'native' is not defined for option 'gpu-architecture' llama.cpp量化介绍 llama.cpp 编...
-
本地部署语音转文字(whisper,SpeechRecognition)
本地部署语音转文字 1.whisper 1.首先安装Chocolatey 2.安装 3.使用 2.SpeechRecognition 1.环境 2.中文包 3.格式转化 4.运行 3.效果 1.whisper 1.首先安...
-
【stable diffusion LORA训练】改进lora-scripts,命令行方式训练LORA,支持SDXL训练
分享下自己改进的一个lora训练脚本,在ubuntu下如果SD-WEBUI的环境已经搭好的话,只需要下载lora-script就可以支持训练了,直接命令行方式训练。 首先,我们需要克隆下项目: git clone https://github.com/...
-
【AI工具】-Stable Diffusion本地化部署教程
前言 今天我们要介绍的是时下最流行的AI绘图软件Stable Diffusion,虽然Diffusion.ai已经开放api,但是长时间的商业化调用我们需要购买很多的金币。所以我们需要找一个平替的AI绘图平台,现在主流市场中AI绘图软件主要就是Open...
-
github Copilot的基本使用
一.GitHub Copilot的基本介绍 GitHub Copilot 是由 GitHub 和 OpenAI 合作推出的一款代码自动补全工具,它基GPT(Generative Pre-trained Transformer)技术,可以为程序员提供实时...
-
1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品
只需两分钟,玩转图片转3D! 还是高纹理质量、多视角高一致性的那种。 不管是什么物种,输入时的单视图图像还是这样婶儿的: 两分钟后,3D版大功告成: △上,Repaint123(NeRF);下,Repaint123(GS) 新方法名为Repaint...
-
如何使用Midjourney辅助建筑设计,常用的提示和使用效果展示(内附Midjourney提示词网站)
文章目录 一.Midjourney建筑设计的提示技巧 1. prompt模板1 2.prompt模板2 二、著名建筑师为例 1.Zaha Hadid(扎哈·哈迪德) 2.Ludwig Mies van der Rohe(路德维希·密斯·凡...
-
基于Springboot+Openai SDK搭建属于自己的ChatGPT3.5 Ai聊天知识库,已接入Stable Diffusion绘图Api
介绍 花费二个多月查阅资料与前后端开发,终于完成了我的开源项目HugAi聊天知识库。项目是基于Springboot+vue2集成了OpenAi SDK开发的一套智能AI知识库,已接入ChatGpt3.5接口以及openai的绘图接口,前后端代码都开源。...
-
Make-A-Video(造啊视频)——无需文字-视频数据的文字转视频(文生视频)生成方法
© 2022 Uriel Singer et al (Meta AI © 2023 Conmajia 本文基于论文 Make-A-Video: Text-to-Video Generation without Text-Video Data(220...
-
Llama~transformers搭建
本例从零开始基于transformers库逐模块搭建和解读Llama模型源码(中文可以翻译成羊驼 。 并且训练它来实现一个有趣的实例:两数之和。 输入输出类似如下: 输入:"12345+54321=" 输出:"66666" 我们把这个任务当做一个...
-
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion 0. 前言 1. Amazon SageMaker 与机器学习 1.1 机器学习流程 1.2 Amazon SageMaker 简介 1.3 Amaz...
-
Stable Diffusion - 图像反推 (Interrogate) 提示词算法 (BLIP 和 DeepBooru)
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131817599 图像反推 (Interrogate 功能,是指...
-
Stable Diffusion 模特假人换服装、换背景、换真人
给固定人物换背景或者换服装,需要用到一个Stable Diffusion扩展插件,就是sd-webui-segment-anything。 sd-webui-segment-anything 不仅可以做到抠图的效果,也能实...
-
少年侠客【InsCode Stable Diffusion美图活动一期】
少年侠客【InsCode Stable Diffusion美图活动一期】 文章目录 Stable Diffusion 模型在线使用地址 第一张图 第二张图 第三张图 第四张图 第五张图 第六章图 一、InsCode Stable Di...
-
Stable Diffusion WebUI 使用
想要正常运行 Stable Diffusion WebUI 需要机器上有 Nvidia 显卡才行, 简单体验可以 RTX 3070 起步, 正常玩需要 RTX 3080 起步, 要训练模型就要 RTX 3090 起步。 修改配置 通常 Stable...