ocr - AIGC资讯

如何处理数据采集中的反爬机制？

在大数据与人工智能日益普及的今天，数据采集成为许多企业和研究机构获取有价值信息的关键手段。然而，随着网络技术的不断进步，许多网站为了保护自身数据资源不被恶意抓取，设置了复杂的反爬机制。这些机制通过识别并阻止异常访问行为，有效维护了网站的安全与稳定。面对这样...

生成式AI 2025-06-28 大数据

2044阅读

ai与历史学：大数据如何重构历史叙事？

标题：AI与历史学：大数据如何重构历史叙事在21世纪的科技浪潮中，人工智能（AI）与大数据技术的飞速发展正以前所未有的方式影响着各行各业，历史学也不例外。传统上，历史研究依赖于珍贵的文献、考古发现以及历史学家的深厚学识与洞察力。然而，随着大数据时代的到来，...

AIGC 2025-06-27 人工智能

895阅读

爬虫技术面试题解析

标题：爬虫技术面试题深度解析在信息技术日新月异的今天，爬虫技术作为数据获取的重要手段，在数据分析、情报收集、竞品分析等领域扮演着不可或缺的角色。因此，在技术面试中，爬虫技术相关问题成为了衡量候选人编程能力、问题解决能力和对互联网工作原理理解深度的重要指标。...

生成式AI 2025-06-12 大数据

1056阅读

爬虫中的反反爬虫策略

在互联网信息爆炸的时代，数据成为了企业决策、市场分析、学术研究等领域不可或缺的资源。爬虫技术作为一种自动化数据抓取手段，被广泛应用于各行各业。然而，随着数据价值的日益凸显，网站运营者为了保护自身数据资源不被恶意采集，纷纷采取了一系列反爬虫措施。面对这些挑战...

生成式AI 2025-06-11 大数据

932阅读

爬虫中的数据爬取策略定制

在数据科学和大数据分析日益重要的今天，网络爬虫作为一种强大的数据收集工具，扮演着不可或缺的角色。然而，高效且合法地定制爬虫的数据爬取策略，不仅需要技术上的精湛，更需遵循法律和道德规范。本文将探讨如何定制有效的数据爬取策略，涵盖目标网站分析、请求频率控制、数...

生成式AI 2025-06-10 大数据

868阅读

爬虫技术优化实践分享

标题：爬虫技术优化实践分享：提升效率与合规性的策略在当今信息爆炸的时代，数据已成为企业决策的重要基石。爬虫技术作为获取互联网公开数据的关键手段，其高效性与合规性直接关系到数据收集的质量与合法性。本文将分享一系列爬虫技术优化的实践策略，旨在帮助开发者提升爬虫...

大数据 2025-06-10 大数据

589阅读

爬虫技术实战经验总结

标题：爬虫技术实战经验总结：从入门到进阶在数据驱动的时代，爬虫技术作为获取互联网公开数据的重要手段，被广泛应用于市场分析、舆情监控、学术研究等多个领域。作为一名长期活跃在爬虫开发一线的工程师，我积累了一些实战经验，现将这些心得与技巧总结分享，希望能为初学者...

AIGC 2025-06-09 大数据

753阅读

爬虫在娱乐网站数据采集中的应用

标题：爬虫技术在娱乐网站数据采集中的应用探索在数字化时代，互联网已成为信息传播的主要渠道，其中娱乐网站作为大众获取娱乐资讯、明星动态、影视资源等信息的重要平台，蕴含着海量的数据资源。这些数据不仅对于娱乐行业内部的市场分析、趋势预测具有极高的价值，也是广大网...

生成式AI 2025-06-09 大数据

726阅读

爬虫中的数据爬取策略优化实践

标题：爬虫中的数据爬取策略优化实践在大数据时代，数据成为了企业决策和个人研究的重要依据。网络爬虫作为获取互联网数据的重要工具，其效率与准确性直接影响到数据的价值。然而，面对复杂多变的网络环境，如何优化爬虫的数据爬取策略，提高数据抓取效率与质量，成为了爬虫开...

AIGC 2025-06-08 大数据

675阅读

爬虫中的数据爬取策略调整建议

在数据爬取的领域中，爬虫技术的应用日益广泛，无论是市场分析、舆情监测，还是学术研究，爬虫都扮演着重要角色。然而，随着网站结构的复杂化、反爬虫机制的增强以及法律法规的约束，数据爬取策略的调整变得尤为重要。以下是对爬虫数据爬取策略的一些调整建议，旨在提高爬取效...

人工智能 2025-06-08 大数据

881阅读

微软推送Windows 11 2024更新：新增多项AI体验 NPU终于有了用武之地

快科技10月3日消息，近日，微软开始向广大用户全面推送Windows 11 2024更新。其实按照惯例应被成为Windows 11 24H2更新，但由于微软放弃了以往1年2次重大版本更新周期，整个2024年只更新了这一个大版本，因此被设定为Windows...

人工智能 2024-10-03 人工智能

1225阅读

【AIGC】Kolors:快手开源的文生图大模型

GitHub：GitHub - Kwai-Kolors/Kolors: Kolors Team 论文：Kolors/imgs/Kolors_paper.pdf at master · Kwai-Kolors/Kolors · GitHub comfyu...

生成式AI 2024-10-02 人工智能

1755阅读

AIGC产品对比分析，讯飞智作、曦灵百度、蝉镜、有道小采样数字人

AIGC产品对比分析 AIGC 产品是基于人工智能技术生成的内容，包括文字、图片、音频、视频等。本文分析产品包括：讯飞智作、曦灵-百度、蝉镜、有道小采样数字人。产品价格对比 AIGC 产品以生成视频的时间长度作为计费标准，这一方式在当前...

AIGC 2024-09-25 人工智能

2482阅读

爬虫与数据分析——爬虫基础知识

目录一、开发环境二、爬虫的概念三、爬虫与Python （一）爬虫常用语言（二）python的特点四、爬虫环境依赖（一）python第三方库（二）第三方库的安装五、爬虫与HTTP （一）URL （二）HTTP消息（报文）...

生成式AI 2024-09-19 大数据

1195阅读

AI日报：ChatGPT竟主动“勾引”用户；iOS 18正式推送；Mistral AI推出免费套餐

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、ChatGPT突然给用户发消息...

大数据 2024-09-18 人工智能

1070阅读

AIGC技术下的动画新纪元：效率与创意的双重飞跃

文章目录一、技术革新：从辅助到引领二、创作效率与质量的双重飞跃三、创新与艺术的深度融合四、挑战与展望《Procreate Dreams动画设计与制作完全解析》亮点内容简介作者简介目录《猎头高情商沟通实务》亮点内容简...

人工智能 2024-09-13 人工智能

1221阅读

llama-node 项目教程

llama-node 项目教程 llama-nodeBelieve in AI democratization. llama for nodejs backed by llama-rs, llama.cpp and rwkv.cpp, work loc...

生成式AI 2024-09-12 人工智能

917阅读

【AIGC半月报】AIGC大模型启元：2024.09（上）

【AIGC半月报】AIGC大模型启元：2024.09（上） (1 OCR-2.0（旷视科技） (2 MiniCPM 3.0（面壁智能） (3 RAGLAB（RAG框架） (4 Reflection 70B（HyperWrite）...

AIGC 2024-09-12 人工智能

1077阅读

【ShuQiHere】从极客湾的自动写作业机器人说起：OCR技术背后的秘密

【ShuQiHere】前不久，极客湾推出了一款“自动写作业机器人”，这款机器人的发布在网络上掀起了一阵讨论的热潮。它不仅能识别作业中的题目，还能快速地给出答案。对许多观众来说，这无疑是“黑科技”的完美体现，但对于喜欢刨根问底的技术宅们来说，这背后的技...

大数据 2024-09-10 人工智能

1143阅读

鹅厂也下场，文档解析的痛点是什么？

最近，文档解析赛道颇为火热，产品更新迭代频繁，与各类大模型上下游一样发展势头很劲。6月下旬，鹅厂也在多个产品上线了文档解析功能。文档智能交互是企业、学术、个人工作中必不可少的一环，作为大模型应用的典型场景之一，它对准确、高效的文档解析工具有着长期需求。...

大数据 2024-08-29 人工智能

1169阅读

snipaste最强平替！轻松搞定截图贴图还有OCR文字识别！工作效率提高300%

Snipaste 一直被吐槽没有 OCR 功能，而且功能也一直没有优化，不少小伙伴都在问有没有类似的平替？当然有啦！小编为您挖到一款超强的国产软件——千鹿设计助手，它堪称是 Snipaste 的完美平替！目前千鹿设计助手还在不断优化功能，小编这边也要到...

人工智能 2024-08-25 人工智能

1406阅读

AI日报：Captions推出AI视频API套件；国产人形机器人成养老新希望；百度已有18%搜索结果由AI生成

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、Captions公司发布AI视...

AIGC 2024-08-23 人工智能

1006阅读

AI日报：《黑神话：悟空》应该感谢AI；通义千问启用新域名“tongyi.ai”；Luma v1.5版本发布；claude被作家集体起诉

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/ 1、《黑神话:悟空》震撼上线，英伟...

AIGC 2024-08-20 人工智能

951阅读

大模型文档神器：合合信息大模型加速器

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机...

生成式AI 2024-08-16 人工智能

1048阅读

超9000颗星，优于GPT-4V！国内开源多模态大模型

国内著名开源社区OpenBMB发布了最新开源多模态大模型——MiniCPM-V2.6。据悉，MiniCPM-V2.6一共有80亿参数，在单图像、多图像和视频理解方面超越了GPT-4V;在单图像理解方面优于GPT-4o mini、Gemini1.5Pro...

人工智能 2024-08-11 人工智能

1131阅读

文心一言的实用指南

目录前言收获日常错误避免憧憬前言亲爱的读者，你是否曾在忙碌的工作中感到语言沟通的障碍？是否在文学创作、商业文案撰写或是日常办公中，遇到过需要快速高效处理大量文字信息的困扰？那么，让我为你介绍一款强大的助手——百度智能...

大数据 2024-08-06 人工智能

1215阅读

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

一、项目简介 MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。 1.1 主要模型及特性（1）MiniCPM-Llama3-V 2.5：参数规模: 8B 性能: 超越...

人工智能 2024-08-01 人工智能

1361阅读

AIGC | Ubuntu24.04桌面版安装后必要配置

[ 知识是人生的灯塔，只有不断学习，才能照亮前行的道路 ] 0x02 Ubuntu 24.04 桌面版必要配置 1.网络配置描述：Ubuntu 24.04 与CentOS/Redhat系列主机网络配置是不一样，从Ubuntu 20...

生成式AI 2024-07-26 人工智能

2224阅读

长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

【新智元导读】当今的LLM已经号称能够支持百万级别的上下文长度，这对于模型的能力来说，意义重大。但近日的两项独立研究表明，它们可能只是在吹牛，LLM实际上并不能理解这么长的内容。大数字一向吸引眼球。千亿参数、万卡集群，——还有各大厂商一直在卷的超长上下...

大数据 2024-07-23 人工智能

968阅读

阿里开源语音大模型：SenseVoice 识别，语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！

阿里开源语音大模型：语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！原创 kakuqo AI真好玩 2024年07月06日 10:21 福建语音识别技术在人工智能（AI）领域扮演着至关重要的角色，它不仅是人机交互的基石，也是推动...

人工智能 2024-07-22 人工智能

2371阅读

关于【AI绘画】的学习

AI绘画中有个牛器DeepArt，也有很多AI软件和平台可以去借鉴和学习。这里是一张AI绘画图片，主题是一个梦幻般的森林，里面充满了发光的蘑菇和飞舞的萤火虫： AI绘画资源对于AI绘画，你可以参考一些在线平台和软件，它们提供了AI绘画的...

生成式AI 2024-07-14 人工智能

1056阅读

AI日报：Claude 3 Haiku支持微调；Heygen推对口型工具；百度称萝卜快跑安全水平接近C919飞机

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/ 1、Anthropic宣布Clau...

大数据 2024-07-12 人工智能

920阅读

【大模型应用】使用 Windows 窗体作为 Copilot 应用程序的 Ollama AI 前端（测试llava视觉问答）...

项目 “WinForm_Ollama_Copilot” 是一个使用Windows Forms作为前端的Ollama AI Copilot应用程序。这个项目的目的是提供一个用户界面(UI ，通过它，用户可以与Ollama AI进行交互。以下是该项目的一...

大数据 2024-06-28 人工智能

1025阅读

AIGC专栏11——EasyAnimateV2结构详解与Lora训练最大支持768x768 144帧视频生成

AIGC专栏11——EasyAnimateV2结构详解与Lora训练最大支持768x768 144帧视频生成学习前言源码下载地址 EasyAnimate V2简介技术储备 Diffusion Transformer (DiT Mo...

AIGC 2024-06-27 人工智能

1300阅读

Copilot本地部署：（1）Github学生认证

（1）Github学生认证 a.在github中补全必要信息 ①登录github账号后（没有账号可用邮箱自行注册），在https://github.com/settings/billing/payment_information中，填写好必填字段（...

人工智能 2024-06-20 人工智能

1346阅读

Win11画图AI最低要求40 TOPS：还必须登录微软帐户

快科技6月13日消息，微软在Build 2024上推出了名为Cocreator的画图AI功能，这是一款集成在画图应用中的人工智能工具，可以根据用户的文本提示和草图生成图像。在近日的支持文档更新中，微软确认该功能需要登录帐户，并且仅适用于拥有40TOPs...

生成式AI 2024-06-13 人工智能

834阅读

彻底改变笔记本电脑：微软推出内置 AI 硬件的 Copilot Plus PC

彻底改变笔记本电脑：微软推出内置 AI 硬件的 Copilot Plus PC 彻底改变笔记本电脑：微软推出内置 AI 硬件的 Copilot Plus PC 概述随着 Copilot Plus PC 的推出，微软在笔记本电脑创新方面取得了重大...

AIGC 2024-06-05 人工智能

1050阅读

套壳丑闻让斯坦福AI Lab主任怒了！抄袭团队2人甩锅1人失踪、前科经历被扒，网友：重新认识中国开源模型

斯坦福团队抄袭清华系大模型事件后续来了—— Llama3-V团队承认抄袭，其中两位来自斯坦福的本科生还跟另一位作者切割了。最新致歉推文，由Siddharth Sharma（悉达多）和Aksh Garg（阿克什）发出。不在其中、来自南加利福尼亚大学的M...

大数据 2024-06-04 人工智能

835阅读

【AIGC调研系列】MiniCPM-Llama3-V2.5模型与GPT-4V对比

MiniCPM-Llama3-V2.5模型与GPT-4V的对比可以从多个方面进行分析，包括性能、应用场景和技术特点。从性能角度来看，MiniCPM-Llama3-V2.5在OCR识别、模型幻觉能力和空间理解能力方面表现出色，实现了开源模型的性能SOTA...

大数据 2024-06-04 人工智能

1384阅读

AI绘画SD【写实模型】：LEOSAM HelloWorld 真实感大模型极速版

大家好，我是程序员晓晓。在中国风格的大模型方面，个人比较喜欢LEOSAM系列。自从字节跳动推出了SDXL-Lightning模型之后，LEOSAM也在第一时间推出了基于HelloWorld SDXL原版结合SDXL-Lightning模型的运行加速版本...

大数据 2024-06-01 人工智能

1299阅读

告别手动复制！Jina AI Reader可一键从网页抓取PDF

Jina AI 宣布其 Reader 工具现在能够从任意 URL 读取 PDF 文件，并快速解析成文本，供下游的语言模型（LLM）使用。以下是关于 Jina AI Reader 工具的详细介绍: Jina AI Reader 功能亮点: 任意 URL 读...

大数据 2024-05-31 人工智能

1351阅读

使用文心一言进行图像内容理解

接上篇文章，这期使用文心一言图像识别API，对本地图片以及在线视频图片进行内容理解。该请求用于图像内容理解，支持输入图片和提问信息，可对输入图片进行理解，输出对图片的一句话描述，同时可针对图片内的主体/文字等进行检测与识别，支持返回图片内多主体/文字的...

生成式AI 2024-05-29 人工智能

2150阅读

国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品

北大-兔展联合发起的Sora开源复现计划Open-Sora-Plan，今起可以生成最长约21秒的视频了! 生成的视频水平，如下展示。先看这个长一点的，9.2s: 当然了，老规矩，这一次的所有数据、代码和模型，继续开源。目前，Open-Sora-Plan在...

人工智能 2024-05-28 人工智能

851阅读

微软一夜干翻苹果Mac！GPT-4o装进全家桶，微软把全世界PC都AI了

GPT-4o诞生刚过去一周，微软线下发布会再次给全世界亿点点震撼！一大早，纳德拉向全世界公布了首款Copilot+ PC，采用了全新NPU，并重新设计了Windows 11系统。最最重要的是，GPT-4o已经装进了新时代的AI PC，以及40+款模...

AIGC 2024-05-21 人工智能

855阅读

蚂蚁多模态团队在视频多模态方向的技术探索

一、概述视频多模态检索在蚂蚁内部有着广泛的应用。视频多模态检索具体包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。视频-文本的语义检索方向旨在通过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描述中直接出现，但检...

大数据 2024-05-21 人工智能

905阅读

数据更多更好还是质量更高更好？这项研究能帮你做出选择

对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练，简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法，所谓量变引起质变，这种观点也...

大数据 2024-05-20 人工智能

786阅读

探秘防爬虫破解之道：技术高手的攻略指南

在当今的数字化时代，互联网信息的获取变得异常重要。然而，随着反爬虫技术的日益成熟，直接获取网络数据也变得越来越困难。那么，如何破解这些防爬虫措施，成为数据获取中的关键环节。本文将为您深入剖析破解防爬虫的策略和方法，帮助您更好地应对挑战、提升数据获取效率。一...

人工智能 2024-05-19 大数据

949阅读

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o，后有谷歌的系列王炸，先进的多模态大模型接连炸场。其他从业者在震撼之余，也再次开始思考怎么追赶这些超级模型了。刚好在这时，HuggingFace和法国索邦大学的一篇论文，总结出了构建视觉大模型的关键经验，给开发者指明了一...

生成式AI 2024-05-17 人工智能

925阅读

美国媒体公司 Gannett 开始在文章中添加 AI 生成的摘要

美国媒体公司 Gannett 拥有数百家报纸，在其内部备忘录中透露，他们正在推出一个新的项目，将 AI 生成的要点添加到记者的文章开头。根据 The Verge 所见的内部备忘录，这一 AI 功能被标注为 “要点”，用自动化技术生成了在标题下方的摘要。文...

生成式AI 2024-05-17 人工智能

827阅读

GPT-4o被全球网友玩坏了谷歌：终究是错付了！

在社交软件上，OpenAI的GPT-4o成为了热议的焦点。这款最新旗舰产品以其全能的特性——接受文字、音频、图像的任意组合输入，并生成相应的文字、音频、图像输出——迅速吸引了全球网友的关注。GPT-4o的免费特性更是让其成为了互联网上的新宠。在5月14日...

AIGC 2024-05-16 人工智能

789阅读