大规模数据第4页

Hadsky采集技术：云端数据采集的新篇章

"Hadsky采集"：探索数据收集的新天地在数字化时代，数据被誉为新的石油，其价值日益凸显。而在这个数据驱动的世界中，“Hadsky采集”作为一种先进的数据采集技术，正逐渐引起人们的关注。本文将对“Hadsky采集”进行深入探讨，分析其原理、应用场景以及对...

大数据 2024-03-05 大数据

829阅读

hybbs采集插件助力高效数据采集与整合

hybbs采集插件：网络数据收集的新选择在当今这个信息爆炸的时代，无论是企业还是个人，都面临着如何从海量数据中快速、准确地获取所需信息的问题。而“hybbs采集插件”作为一款高效、便捷的网络数据采集工具，正逐渐受到越来越多用户的青睐。一、hybbs采集插件...

大数据 2024-03-04 大数据

1097阅读

对抗「概念飘逸」难题！谷歌发布全新时间感知框架：图像识别准确率提升15%

在机器学习领域，概念漂移（concept drift）问题长期困扰着研究者，即数据分布随时间发生变化，使得模型难以持续有效。一个显著的例子是CLEAR非稳态学习基准的图像展示，它揭示了物体视觉特征在十年间发生的显著变化。这种现象被称为「缓慢的概念漂移...

大数据 2024-03-01 人工智能

866阅读

机器学习如何提高欺诈预防能力

在线欺诈是许多国家的严重问题，存在网络钓鱼攻击、身份盗窃和假冒电子商务网站等各种诈骗行为。一份报告显示，很大一部分欺诈交易发生在晚上10点至凌晨4点之间，其中60岁以上的信用卡持有者是主要受害者。机器学习有助于预防欺诈，使组织能够实时检测和防止可疑活...

大数据 2024-02-26 人工智能

753阅读

VideoPrism官网体验入口 AI视频理解编码器使用介绍

VideoPrism是一个通用的视频编码模型，可在各种视频理解任务上取得领先的性能，包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样，包含 3600 万高质量的视频-文本对，以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...

AIGC 2024-02-26 人工智能

845阅读

AI崛起加剧数据中心能源消耗，谷歌新技术或帮助减排

2月26日消息，科技巨头正竞相加紧努力拆除被称为“碳定时炸弹”的隐患，随着人工智能（AI）技术的兴起，它们在全球建立的数据中心的能源消耗也急剧上升，进而导致的碳排放问题日渐严重。因此，谷歌引领的一项创新技术逐步受到重视：该技术通过软件在全球太阳能和风...

AIGC 2024-02-26 人工智能

742阅读

CUDA驱动深度学习发展 - 技术全解与实战

全面介绍CUDA与pytorch cuda实战关注TechLead，分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收...

AIGC 2024-02-24 人工智能

910阅读

[AIGC 大数据基础]hive浅谈

在当今大数据时代，随着数据量的不断增大，如何高效地处理和分析海量数据已经成为一个重要的挑战。为了满足这一需求，Hive应运而生。 Hive作为一个基于Hadoop的数据仓库基础设施，为用户提供了类SQL的查询语言和丰富的功能，使得处理大规模数据变得更...

AIGC 2024-02-22 人工智能

845阅读

机器学习中的十种非线性降维技术对比总结

降维意味着我们在不丢失太多信息的情况下减少数据集中的特征数量，降维算法属于无监督学习的范畴，用未标记的数据训练算法。尽管降维方法种类繁多，但它们都可以归为两大类:线性和非线性。线性方法将数据从高维空间线性投影到低维空间(因此称为线性投影。例子包括...

大数据 2024-02-19 人工智能

959阅读

机器学习中七种常用的线性降维技术总结

上篇文章中我们主要总结了非线性的降维技术，本文我们来总结一下常见的线性降维技术。 1、Principal Component Analysis (PCA Principal Component Analysis (PCA 是一种常用的降维技术，用于...

人工智能 2024-02-19 人工智能

878阅读

使用deepspeed继续训练LLAMA

目录 1. 数据训练配置 2. 模型载入 3. 优化器设置 4. DeepSpeed 设置 5. DeepSpeed 初始化 6. 模型训练 LLAMA 模型子结构： 1. 数据训练配置利用 PyTorch 和 Transfo...

生成式AI 2024-02-15 人工智能

1121阅读

LLaMA 入门指南

LLaMA 入门指南 LLaMA 入门指南 LLaMA的简介 LLaMA模型的主要结构 Transformer架构多层自注意力层前馈神经网络 Layer Normalization和残差连接 LLaMA模型的变体 Base版本 La...

人工智能 2024-02-15 人工智能

1542阅读

英伟达获5亿美元天价大单！印数据中心一口气买下16000块H100/GH200

英伟达要来一笔大单了？一出手就是16000块GPU，值5个亿，单位还是美元。这家下了大单的公司是来自印度的Yotta，这是一家数据中心和服务器公司。据说到2025年，Yotta将会拥有总计32000块的英伟达H100和GH200 GPU。 Yot...

AIGC 2024-02-05 人工智能

821阅读

[AIGC 大数据基础] 浅谈hdfs

HDFS介绍什么是HDFS？ HDFS（Hadoop Distributed File System）是Apache Hadoop生态系统的一部分，是一个分布式文件系统。它被设计用于存储和处理大规模数据集，并且能够容错、高可靠和高性能地处理文...

AIGC 2024-02-05 人工智能

829阅读

Segment Anything论文翻译，SAM模型，SAM论文，SAM论文翻译；一个用于图像分割的新任务、模型和数据集；SA-1B数据集

【论文翻译】- Segment Anything / Model / SAM论文论文链接： https://arxiv.org/pdf/2304.02643.pdf https://ai.facebook.com/research/publica...

大数据 2024-02-05 人工智能

1460阅读

AI视野：OpenAI推新模型GPT-4-0125-preview；阿里Qwen-VL升级更新；苹果播客新增转录功能；AI写真项目InstantID在GitHub爆火

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ ???AI应用 OpenAI不服...

人工智能 2024-01-31 人工智能

868阅读

免费采集工具推荐，好文章值得收藏

采集工具的作用在互联网的海洋中，有许多强大的免费采集工具，它们为用户提供了便捷、高效的方式，帮助用户从各种网站中收集、整理所需的信息。这些工具不仅广泛应用于市场研究、竞争情报等商业领域，同时也服务于学术研究、个人兴趣爱好等方面。我们...

人工智能 2024-01-31 大数据

887阅读

[AIGC大数据基础] Spark 入门

大数据处理已成为当代数据领域的重要课题之一。为了高效地处理和分析大规模数据集，许多大数据处理引擎应运而生。其中，Spark作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍Spark。首先，我们会详细探讨...

人工智能 2024-01-30 人工智能

821阅读

CMU华人18万打造高能机器人，完爆斯坦福炒虾机器人！全自主操作，1小时学会开12种门

比斯坦福炒虾机器人还厉害的机器人来了！最近，CMU的研究者只花费2.5万美元，就打造出一个在开放世界中可以自适应移动操作铰接对象的机器人。论文地址：https://arxiv.org/abs/2401.14403 厉害之处就在于，它是完全自主完成操作...

大数据 2024-01-29 人工智能

897阅读

谷歌AI研究提出 SpatialVLM：一种数据合成和预训练机制，以增强视觉语言模型 VLM 空间推理能力

谷歌AI研究团队最近提出了SpatialVLM，这是一种旨在增强视觉语言模型（VLMs）空间推理能力的创新系统。尽管先进的模型如GPT-4V在人工智能驱动任务中取得了显著进展，但它们在空间推理方面仍存在显著局限。空间推理涉及理解物体在三维空间中的位置以及...

生成式AI 2024-01-29 人工智能

1008阅读

2024年数据中心发展趋势：更热、更密、更智能

如今的数据中心行业与十年之前颇有不同，这主要是受过去几年间诸多现实因素的影响：AI技术的大规模扩散、摩尔定律有所放缓，以及令人头痛的可持续性问题等。 Uptime Institute预计，随着运营商对于供电、冷却、管理、高密度与监管压力等问题的关注和规划...

AIGC 2024-01-23 人工智能

856阅读

AIGC重塑基础设施，高密数据中心为何众望所归？

凯文·凯利在《必然》中认为，科技在本质上有所偏好，使得它朝往某种特定方向。毫无疑问，进入到数字经济时代，人工智能技术飞速发展与加速应用之际，这个特定方向逐渐明朗：即算力科技，算力已经成为新一轮科技和产业革命的核心生产力，发展先进的数据中心基础设施是数字...

大数据 2024-01-22 人工智能

849阅读

Stability AI发布Stable Code 3B模型，没有GPU也能本地运行

在文生图领域大火的 Stability AI，今天宣布了其 2024 年的第一个新 AI 模型：Stable Code 3B。顾名思义，Stable Code 3B 是一个拥有 30 亿参数的模型，专注于辅助代码任务。无需专用 GPU 即可在笔记本电...

大数据 2024-01-17 人工智能

812阅读

元象开源大模型XVERSE-Long-256K 支持输入25万汉字

元象发布了全球首个上下文窗口长度为256K 的开源大模型 XVERSE-Long-256K，支持输入25万汉字，无条件免费商用。该模型填补了开源生态空白，与元象之前的大模型组成了高性能全家桶。XVERSE-Long-256K 在评测中表现出色，超越了其他...

大数据 2024-01-16 人工智能

1027阅读

超越BEVFusion！又快又好的极简BEV融合部署方案

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解在算法开发中，激光雷达-相机3D目标检测遇到了过度拟合问题，这是由于违反了一些基本规则。在数据集构建的数据标注方面，本文参考了理论补充，并认为回归任务预测不应涉及来自...

大数据 2024-01-16 人工智能

1048阅读

数据计算任务工具Fluid在AIGC模型推理场景中的优化方案

Fluid的介绍 Fluid是一个在Kubernetes环境中编排数据和使用数据的计算任务的工具。它的编排不仅涉及空间上的优化，还包括时间上的调度。从空间角度看，计算任务会优先被分配到存有缓存数据或靠近缓存的节点上，从而提升数据密集型应用的性能。从时间角...

大数据 2024-01-16 人工智能

974阅读

OpenAI Whisper论文笔记

OpenAI Whisper论文笔记 OpenAI 收集了 68 万小时的有标签的语音数据，通过多任务、多语言的方式训练了一个 seq2seq （语音到文本）的 Transformer 模型，自动语音识别（ASR）能力达到商用水准。本文为李沐老师论文精...

人工智能 2024-01-15 人工智能

930阅读

AIGC 能如何应用到游戏制作领域？

AIGC 能如何应用到游戏制作领域？（AI画作《太空歌剧院》） 2022年，Midjourney生成的一幅AI画作《太空歌剧院》横空出世，让AIGC火了一把。游戏中为何需要AIGC？传统游戏制作存在“质量、速度、成本”中只能有两个的不...

AIGC 2024-01-15 人工智能

1078阅读

[AIGC] Apache Spark 简介

Apache Spark是一个开源的大数据处理框架，它提供了高效的分布式数据处理和分析能力。Spark通过将数据加载到内存中进行计算，可以大幅提高数据处理速度。以下是Apache Spark的几个基本概念：弹性分布式数据集（RDD）：RDD是Spa...

生成式AI 2024-01-15 人工智能

760阅读

实战AI大模型：AIGC及经典模型

今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的...

大数据 2024-01-14 人工智能

1184阅读

OpenAI API Cost Calculator官网体验入口 OpenAI API成本计算器在线使用地址

OpenAI API Cost Calculator是一个免费工具，用于评估不同OpenAI API模型的使用成本，包括GPT-4、GPT-3.5 Turbo、不同fine-tuning模型以及图像和音频处理模型。点击前往OpenAI API Cost...

生成式AI 2024-01-08 人工智能

969阅读

告别逐一标注，一个提示实现批量图片分割，高效又准确

Segment Anything Model (SAM 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一...

生成式AI 2024-01-08 人工智能

859阅读

AI测出你几岁死亡？Transformer「算命」登Nature子刊，成功预测意外死亡

【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型，成功预测了意外死亡和性格特点。 AI真的可以用来科学地算命了!? 丹麦技术大学（DTU）的研究人员声称他们已经设计出一种人工...

大数据 2024-01-07 人工智能

790阅读

只需1080ti，即可在遥感图像中对目标进行像素级定位！代码数据集已开源！

太长不看版这篇论文介绍了一项新的任务 —— 指向性遥感图像分割（RRSIS），以及一种新的方法 —— 旋转多尺度交互网络（RMSIN）。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制，本文构建了一个新...

大数据 2024-01-06 人工智能

847阅读

谷歌Gemini大逆转？斯坦福Meta华人证明其推理性能强于GPT-3.5

【新智元导读】谷歌放出的Gemini，在对标GPT的道路上似乎一直处于劣势，Gemini真的比GPT-4弱吗?最近，斯坦福和Meta的学者发文为Gemini正名。 Gemini的推理能力，真的比GPT-4弱吗? 此前，谷歌憋出的重磅复仇神器Gemini P...

生成式AI 2024-01-02 人工智能

889阅读

还不知道？近20+自动驾驶数据集、榜单和Benchmark汇总

本文经自动驾驶之心公众号授权转载，转载请联系出处。 1.Nuscenes 数据集链接：nuScenes nuscenes数据集下有多个任务，涉及Detection（2D/3D）、Tracking、prediction、激光雷达分割、全景任务、规划控制等...

大数据 2024-01-02 人工智能

1047阅读

大模型+机器人，详尽的综述报告来了，多位华人学者参与

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。预训练的大型语言模型（LLM）、大型视觉 -...

AIGC 2023-12-27 人工智能

874阅读

AIGC专题报告：生成式人工智能人人可用的新时代

今天分享的AIGC系列深度研究报告：《AIGC专题报告：生成式人工智能人人可用的新时代》。（报告出品方：埃森哲）报告共计：21页人工智能发展迎来新拐点 ChatGPT 正在唤醒全球对人工智能（AI）变革潜力的认知，激发起前所未有...

人工智能 2023-12-22 人工智能

873阅读

生成式人工智能如何改变数据中心的要求

什么是数据中心，我们如何使用它?更具体地说，数据中心有哪些不同类型，它们为使用它们的企业提供哪些不同的用途? 这些问题看似简单，但要得出令人满意的答案却出人意料地困难。就在过去一年左右的时间里，我们看到越来越强大的大型语言模型(LLM 正在支持新的生成...

大数据 2023-12-22 人工智能

749阅读

实时湖仓技术选型，企业如何借实时湖仓赢在“数据驱动”时代

在之前三期的实时湖仓系列文章中，我们从业务侧、产品侧、应用侧等几个方向，为大家介绍了实时湖仓方方面面的内容，包括实时湖仓对于企业数字化布局的重要性以及如何进行实时湖仓的落地实践等。本文将从纯技术的角度，为大家解析实时湖仓的存储原理以及生态选型，为企业建...

人工智能 2023-12-20 人工智能

962阅读

PillarNeSt：如何进一步提升基于Pillar的3D目标检测性能？

写在前面 && 笔者的个人理解目前在自动驾驶领域中，一辆自驾汽车会配备多种传感器，如：激光雷达传感器采集点云数据、相机传感器采集图像数据等。由于激光雷达传感器可以更加准确的获取待检测物体的几何和位置信息，所以基于点云的感知算法模型在快速...

AIGC 2023-12-20 人工智能

861阅读

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

作为一位Java大师，我始终追求着技术的边界，最近我将目光聚焦在大数据领域。在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度，系统地介绍这些技术。...

AIGC 2023-12-19 人工智能

833阅读

Pandas的魅力：从数据处理到机器学习

Part 01、 Series和DataFrame：Pandas的核心 Pandas的两个主要数据结构是Series和DataFrame。Series是一维标记数组，类似于Python中的列表。而DataFrame是二维标记数据结构，类似于关系型数据库...

AIGC 2023-12-18 人工智能

757阅读

AIGC 场景下存储与数据管理的挑战与应对

10月28日，"寻宝 AI 时代——OSC 源创会苏州站暨 Techo TVP 技术沙龙"在苏州圆满落幕。腾讯云存储专家解决方案架构师屠伟新带来《AIGC 场景下存储与数据管理的挑战与应对》主题分享。下面我们一起来学习回顾一下AIGC场景下的存储解决方案。...

大数据 2023-12-16 人工智能

897阅读

聊天机器人将使数据中心更加精简和高效

自然语言处理(NLP 的进步为在数据中心使用聊天机器人开辟了许多可能性，包括降低数据中心运营成本和提高人才保留率。风险投资家并不是唯一指望生成式人工智能(AI 成为科技领域下一件大事的人。数据中心的领导者们也认为，聊天机器人不仅仅是生成式人工智能的一...

AIGC 2023-12-13 人工智能

775阅读

超大规模数据中心云容量将增加三倍

预测表明，超大规模数据中心正在为大规模扩张做好准备，将其云计算量增加近两倍，并且未来六年的存储容量。该调查结果基于对19家全球云和互联网服务公司的分析，揭示了超大规模企业数据中心扩建和升级的显着上升趋势。生成式AI工作负载推动加速扩张虽然云容量稳步...

人工智能 2023-12-12 人工智能

713阅读

LLaMA(大规模机器学习和分析)

LLaMA(大规模机器学习和分析是一个先进的软件平台，是Meta 推出 AI 语言模型 LLaMA，一个有着上百亿数量级参数的大语言模型用于大规模部署和管理机器学习模型。借助LLaMA，组织可以高效地在大型数据集上训练和部署模型，缩短投放市场的...

人工智能 2023-12-12 人工智能

926阅读

中国版chatGPT【文心一言】

文心一言是一款基于人工智能技术的中文自然语言处理工具，它可以用于文本生成、情感分析、关键词提取等多种应用场景。相比于GPT等其他自然语言处理模型，文心一言有着更多的优势。首先，文心一言具有更高的准确率和可靠性。它采用了最新的深度学习算法和大规模数据集...

人工智能 2023-12-11 人工智能

838阅读

谷歌发布Cloud TPU v5p和AI超级计算机:人工智能处理能力飞跃

谷歌在推出其张量处理单元Cloud TPU v5p和具有突破性的超级计算机架构AI Hypercomputer时掀起了轩然大波。这些创新的发布，再加上资源管理工具Dynamic Workload Scheduler，标志着在处理组织的人工智能任务方面迈出了...

大数据 2023-12-11 人工智能

812阅读

文心一言与通义千问有什么区别

文心一言和通义千问是当前人工智能领域中广泛应用的两个自然语言处理技术。它们能够理解、生成和转换语言，使得我们更加轻松地与计算机进行交互。在这篇文章中，我们将会对比分析百度AI语言模型文心一言和阿里AI语言模型通义千问语言模型的特点。首先，从名称...

AIGC 2023-12-10 人工智能

1024阅读