-
使用 Transformers 为多语种语音识别任务微调 Whisper 模型
本文提供了一个使用 Hugging Face 🤗 Transformers 在任意多语种语音识别 (ASR 数据集上微调 Whisper 的分步指南。同时,我们还深入解释了 Whisper 模型、Common Voice 数据集以及微调等理论知识,并提供...
-
如何使用AIGC进行语音识别和合成
1.背景介绍 语音识别和合成是人工智能领域的重要技术,它们有助于实现自然语言与计算机之间的有效沟通。在这篇文章中,我们将探讨如何使用人工智能生成模型(AIGC 进行语音识别和合成。 1. 背景介绍 语音识别是将声音转换为文本的过程,而语音...
-
人工智能AI大战:BARD、ChatGPT、Bing和文心一言谁更具有优势?
首先在开始对比之前我首先要吐槽,不管是bard还是百度的AI现在都得等待候补,也就是排队,所以目前只能无限期等待下去,但是第一批用户已经在查通过平台上遨游了好几个月了,从商业的角度来看,几个月或许不长,但是足以失去了超过80%的用户,所以chatgpt目前...
-
使用推测解码 (Speculative Decoding) 使 Whisper 实现 2 倍的推理加速
Open AI 推出的 Whisper 是一个通用语音转录模型,在各种基准和音频条件下都取得了非常棒的结果。最新的 large-v3 模型登顶了 OpenASR 排行榜,被评为最佳的开源英语语音转录模型。该模型在 Common Voice 15 数据...
-
AI换脸软件哪个好用 FamousFace免费体验地址
FamousFace 是一款AI换脸软件,可帮助用户识别图像中的名人。该软件使用机器学习来识别名人的面部特征,并提供有关名人的详细信息,例如姓名、职业和出生日期。FamousFace的体验下载入口在哪呢,这里我们来看FamousFace的官方体验入口。...
-
Altman地位又危了?!OpenAI董事会邀请竞争对手加入,还挖角谷歌Gemini高管
Altman的地位又危险了? 据知情人士透露,上个月,OpenAI董事会的Adam D'Angelo致电Databricks的首席执行官Ali Ghodsi,询问Ghodsi是否考虑加入OpenAI董事会。 Adam D'Angelo 本来找知名公司高...
-
Mamba论文为什么没被ICLR接收?AI社区沸腾了
基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。 2023年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」,它是一种选择性状态空间模型( selective state s...
-
【Bard】Google Bard 申请
____tz_zs 1、Google Bard 申请链接 https://bard.google.com/ 2、注意使用美国地区的代理 地区正常,没问题的情况下join waitlist 会跳转如下显示: 3、成功加入,等待邮件...
-
AI打造“魔法博物馆”,五分钟完成一件“3D展品”
注意看,这是一家“魔法博物馆”,陈列的展品琳琅满目,甚至还有机甲套装…… 魔法镜子、水晶法杖……也是一应俱全,仿佛真的进入了魔法世界。 没错,这个“博物馆”里的“展品”全都是由AI打造的,而且一件只需要五分钟。 来自南洋理工大学、上海AI实验室等机构...
-
stable diffusion在server上的部署测试
SD infinite canvas Automatic1111 vs InvokeAI Automatic1111 vs InvokeAI - pros and cons stablediffusion-infinity 该repo的问题是已...
-
AIGC:大语言模型开放平台OpenLLM简介(提供简易的模型部署体验)
文章目录 @[toc] 简介 一、安装 二、启动LLM服务器 项目链接 简介 该项目旨在为各种大语言模型(LLM)在生产环境中的部署和可观测性提供一个标准的解决方案,用最简单直接的方式把大语言模型(LLM)部署到云端或本...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型,首提时空架构,时长史诗级延长
爆肝7个月,谷歌祭出了AI视频大模型Lumiere,直接改变了游戏规则!全新架构让视频时长和一致性全面飞升,时长直接碾压Gen-2和Pika。 AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模...
-
30岁以下的人都去哪儿了?OpenAI费尽心机吸引年轻人
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) 比尔盖茨的博客栏目「与比尔·盖兹一起解惑」近日大火,OpenAI首席执行官奥特曼表示,OpenAI“不是由一群24岁的程序员运营的”,并表示这很令人担忧。 目前,许多热门的AI...
-
AIGC-文生视频-学习之路
CFG AIGC神功_SD采样方法与CFG_大猫404-站酷ZCOOLAIGC神功_SD采样方法与CFG,成都设计爱好者,站酷网,中国设计师互动平台.爱卿们好!本喵又出现了~熟悉的封面有没有把你吸引进来呢?这次让我们继续来讲AIGC的内容哟,这是篇硬核科...
-
杰夫·贝佐斯表示AI更有可能拯救我们而非摧毁我们
在最近的一次访谈中,亚马逊创始人与俄罗斯计算机科学家Lex Fridman进行了深入的交流,分享了对人工智能的个人见解。Bezos强调,像ChatGPT这样的生成式AI工具被他视为“发现”而非“发明”,并且对它们的能力感到不断惊讶。 他认为这些强大的工具更...
-
拳打Gen-2脚踢Pika,谷歌爆肝7个月祭出AI视频大模型!首提时空架构,时长史诗级延长
AI视频赛道上,谷歌又再次放出王炸级更新! 这个名为Google Lumiere的模型,是个大规模视频扩散模型,彻底改变了AI视频的游戏规则。 跟其他模型不同,Lumiere凭借最先进的时空U-Net架构,在一次一致的通道中生成整个视频。 具体来说,现有...
-
技术趋势:2024年的热点是什么?
人们总喜欢在每年年底展望未来,即使所做的事并不全是正确的。去年,我们没有看到生成式人工智能的到来,尽管已经预测到今年将是自动化、机器人和RPA(机器人过程自动化 的重要一年。 我们还预测,平衡数字和人类将是关键。而正确的混合/办公室工作模式将是一个重要...
-
英伟达Jim Fan提出基础智能体概念 将是AI下一个前沿!
英伟达高级科学家Jim Fan在最新的TED AI2023演讲中提出了「基础智能体」的概念,指出AI的下一个前沿将是能在虚拟和现实世界中泛化的通用智能体模型。 他认为,这将在现实、技能数量、身体形态等三个维度上进行扩展,并将从根本上改变人们的生活。在演讲中...
-
Chrome M121发布:谷歌引入新AI功能,提升浏览器使用体验
今天,随着Chrome M121的发布,谷歌正式宣布将引入一系列新的生成式人工智能功能,旨在使浏览器更加易用和智能化。这些新增功能包括一个创新的选项卡管理器、一款协助写作的文本助手,以及在整个浏览器中自定义图稿和主题的选项。为启用这些新功能,用户需在“设置...
-
MIT和谷歌提出新AI框架Health-LLM:利用可穿戴传感器数据为健康预测任务调整LLM
近日,MIT和Google的研究人员共同提出了一种名为Health-LLM的新型人工智能框架,旨在将大语言模型(LLMs)应用于健康预测任务,利用可穿戴传感器的数据。该框架的提出标志着健康领域在可穿戴技术和人工智能的交叉点上取得了重大突破。 可穿戴传感器技...
-
多用户数据检索:LangChain技术指南与案例分析
作者 | 崔皓 审校 | 重楼 摘要 文章探讨了如何确保不同用户数据的隔离,并提供灵活的配置选项以适应各种检索需求。 文章首先介绍了多用户数据检索的背景和挑战,包括数据权限管理、检索系统灵活性和用户体验问题。接着进行了技术分析,特别强调了使用Pinec...
-
Artisse AI融资670万美元,打造更逼真的AI摄影应用
近日,AI摄影应用Artisse宣布成功融资670万美元,该公司专注于提升其AI生成照片的逼真度。与其他市场上的竞争对手一样,用户通过上传自己的照片,训练Artisse的AI模型,然后使用文本或图像提示生成各种不同场景、姿势和风格的新照片。 不同于竞争对手...
-
三星S24手机搭载AI模型:AI大模型应用越来越广泛
手机厂商纷纷投入AI大模型的研发,标志着2018年进入快速发展阶段。预计到2027年,AI手机市场占比将达到45%,这一趋势源自智能手机行业对新技术的积极响应,尤其是生成式人工智能(GenAI)的迅猛发展。 目前,国内厂商已经推出了一系列与AI相关的硬件...
-
Stable Diffusion 黑白老照片上色修复
在这个时代,我们习惯于拥有高清、色彩丰富的照片,然而,那些古老的黑白色老照片由于年代的久远,往往会出现模糊、破损等现象。 那么今天要给大家介绍的是,用 Stable Diffusion 来修复老照片。 ...
-
2024年1月11日最热AI论文Top5:开源界Stable Diffusion杀手、Prompt-tuning、零和游戏博弈
本文整理了今日发表在ArXiv上的AI论文中最热门的 TOP5。 以下内容由 赛博马良-「AI论文解读达人」 智能体生成,人工整理排版。 「AI论文解读达人」智能体可提供每日最热论文推荐、AI论文解读等功能。 如需查看其他热门论文,欢迎移步saibo...
-
狂卷大模型!Canalys预测:2027年AI手机市场份额将达45%
快科技1月23日消息,据市场调研机构Canalys预测,到2027年,AI手机市场份额将达到45%。这一预测基于智能手机行业对新技术趋势的响应,特别是生成式人工智能(GenAI)的快速发展。 目前,不少手机厂商已经发布了AI相关的大模型和操作系统,并在新产...
-
画个圈就能搜索,谷歌Gemini Pro植入旗舰,开启手机AI大战
近日,三星在加利福尼亚州圣何塞隆重发布了最新的Galaxy S24系列手机,AI要素拉满!网友一片热情,纷纷实测 AI要素满满三星新旗舰,竟被抱怨一半功能都不太好用! 近日,在加利福尼亚州圣何塞举行的Galaxy Unpacked活动中,三星推出了最新的G...
-
ChatGPT,文心一言,Bard 到底哪家强?最新测评来了!
你好 ,我是郭震! 这篇文章测评三个AI大模型能力: 常见生成对话式大模型APP,除最早OpenAI发布的ChatGPT外,还有百度文心一言、谷歌Bard等。 今天从代码生成角度,测评三大模型的能力。 为什么选择这个角度?...
-
扩散模型 - Stable Diffusion
4 Stable Diffusion Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 可以完成多模态任务,包括:文字生成图像(text2img)、图像生成图像(img2img)...
-
AIGC重塑基础设施,高密数据中心为何众望所归?
凯文·凯利在《必然》中认为,科技在本质上有所偏好,使得它朝往某种特定方向。 毫无疑问,进入到数字经济时代,人工智能技术飞速发展与加速应用之际,这个特定方向逐渐明朗:即算力科技,算力已经成为新一轮科技和产业革命的核心生产力,发展先进的数据中心基础设施是数字...
-
AI语音公司ElevenLabs B轮融资8000万美元,估值超10亿美元
AI语音合成初创公司ElevenLabs宣布已完成8000万美元的B轮融资,由Andreessen Horowitz、Nat Friedman等领投。本轮融资还有Sequoia Capital、Smash Capital、SV Angel、BroadLig...
-
谷歌 DeepMind 推出 AlphaGeometry:奥林匹克级几何AI系统
谷歌旗下的DeepMind研究团队最近推出了名为AlphaGeometry的人工智能系统,该系统在解决几何奥林匹克问题方面表现出色,几乎可与人类金牌得主相媲美。这一成就代表着在大学预科数学困难领域中复杂自动推理能力的显著进步。 几何奥林匹克问题一直以来都被...
-
能源的未来:虚拟发电厂能否加速能源转型?
根据Copernicus Climate Change Service的数据,2023年不仅是有记录以来最热的一年,而且全球平均地表温度也比工业化前水平(《巴黎气候协定》承诺控制变暖的温度 高出近1.5°C。这份报告加剧了关于气候变化加速和全球变暖走...
-
Stable Diffusion VAE
简介 Stable Diffusion在逐步去噪的过程中,按照图片的原尺寸进行运算,由于图片尺寸的太大,需要很大的计算量。sd通常是在latent space(潜在空间)运算的,相当于在压缩的图片上运算的,然后再恢复到原尺寸。VAE的encode和dec...
-
在 Linux 本地部署 stable diffusion
由于工作站安装的是 ubuntu,卡也在上面,就只能在 ubuntu 上部署安装 stable diffusion 了。另外,Linux 上使用 stable diffusion 也会方便很多。 1 准备工作 NVIDIA 官网下载驱动,主要是为了...
-
谷歌2024年目标:成为全球最先进、安全、负责任的AI提供商
Google最近内部宣布了其2024年的企业目标,人工智能位居榜首。根据泄露给The Verge的Alex Heath的一份内部文件,Google2024年的主要目标是“提供全球最先进、安全、负责任的人工智能”。 其他目标包括: - 提升知识、学习、...
-
AI助力全球最大科技公司总市值突破10万亿美元 Nvidia超越Facebook、微软超越苹果领先
全球最大的科技巨头估值已超过1万亿美元,部分归功于生成式人工智能的投资和进步,估值总计超过10万亿美元,其中Nvidia超越Facebook成为新秀,而Microsoft则取代苹果领先。 目前,包括Microsoft、Apple、Google、Amazon...
-
GPT-4 vs Bard vs New Bing,联网能力哪家强!
ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 GPT,Bard,Bing 联网对比 OpenAI在5月12号宣布要向cha...
-
英文视频添加中英双语字幕(基于Whisper语音识别和Google翻译)
第一步:安装配置环境,这一步重要介绍安装的环境依赖,可以看完第二章再来看一遍 (1)Whisper环境配置 可以参考以下博客的内容讲显卡驱动,CUDA和cudnn的安装比较详细,我建议能用GPU加速就尽量使用,Whisper速度有点慢如何在你的电脑...
-
AI搜索Perplexity来了,谷歌搜索真正有了对手
要说在互联网世界中什么才是“王冠顶上的明珠”,或许就非搜索引擎莫属了,毕竟在太平洋两岸也分别造就了百度和谷歌这两大巨头的基业长青。如此美妙的生意自然从来都不缺乏挑战者,国内市场有360、搜狗,海外也有Bing、雅虎,以及DuckDuckGo。而随着AI大模...
-
被OpenAI、Mistral AI带火的MoE是怎么回事?一文贯通专家混合架构部署
选自 HuggingFace 博客 编译:赵阳 专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。 早些时候,有人爆料...
-
Bard!谷歌对 ChatGPT 的最强反击,悄咪咪的支持中文了!
“ ChatGPT、Bard,哪个是更好的AI人工智能大语言模型。” 01 — ChatGPT 这么火,而且这款产品是 OpenAI 以谷歌的大模型架构 transformer 为基础迭代的。谷歌自然不甘落后,早在3月份推出自家的人...
-
奥特曼,10亿美元砸向AI芯片
Sam Altman(奥特曼),造芯依旧! 据彭博社消息,奥特曼再次为一家人工智能芯片企业筹集数十亿美元。 目的是利用这笔资金开发一个“工厂网络”(network of factories),用于制造,该网络将延伸到全球,并涉及与未透露名字的“顶级芯片制...
-
三星重点推广 Galaxy AI,在 AI 智能手机竞赛中将苹果远远甩在身后
三星公司日前在其 Unpacked 活动上一开场便直接介绍 Galaxy AI 功能,这表明该公司认为人工智能对于推动高端设备增长至关重要。在活动开始的近半小时内,三星没有提及新的 Galaxy S24 系列及其升级功能,而是将最大的关注点放在了 Gala...
-
AIGC周报|30秒定制一个文生图模型;60美元让AI玩转《我的世界》;手机版“文生图”模型:2秒不到出一张图
AIGC(AI Generated Content)即人工智能生成内容。近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2、Stable Diffusion 等文生图模型,都属于 AIGC 的典型案例,它们通过借鉴现有的、人类创造的内容来...
-
win11下部署stable diffusion docker版遇到的问题和解决方案
背景 为了在本地愉快流畅地体验stable diffsion,且不希望直接在windows中安装过多复杂的环境,顺便体验容器的部署和发布的便利,决定选择stable diffusion的docker版(AbdBarho版)。 网上已经有很多stabl...
-
diffusers加速文生图速度;stable-diffusion、PixArt-α
参考: https://pytorch.org/blog/accelerating-generative-ai-3/ https://colab.research.google.com/drive/1jZ5UZXk7tcpTfVwnX33dDuefNMcn...
-
手把手教你Midjourney|入门·订阅管理套餐
大家好,这里是Dennis的AI说,上一期是教大家如何注册一个账号,那么今天的教程教是教会大家如何在Midjourney上购买套餐以及后续的退订步骤。 Midjourney里购买套餐主要是针对于后续的做图时间速度,不同套餐生成图片的速度是不一样的。 如...
-
谷歌推“Circle to Search”AI搜索功能,用手势在Android设备就能随意搜索
谷歌在与三星的联合发布活动中宣布了一项新的Android手机搜索功能,名为“Circle to Search”(画圈搜索)。这一功能的目的是通过手势操作更自然地与Google搜索进行互动。 与其名字不同,“Circle to Search”并非仅仅是画圈...
-
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
这一次,人工智能算法在数学奥林匹克竞赛(IMO)上取得了重大成绩突破。 在今天发表的国际权威期刊《自然》杂志最新一期上,论文《Solving olympiad geometry without human demonstrations》向世人介绍了 A...