DeepSeek最新的开源模型在硅谷好评如潮。因为DeepSeek太多了。 Google Gemini 的 3B 扩展、性能的指数级变化、简单性,甚至严密保护的商业秘密都是开源的。唯一的问题可能是由于名称“OCR”而导致的延迟。是的,DeepSeek刚刚推出的流行模型叫做DeepSeek-OCR。这个模型针对的是大型模型在处理长文本时计算能力爆炸的问题……模型参数很小,但这是一个大问题。从简单到简单“视觉上压缩一切”背后的想法不仅是人类智能的现实,而且不断出现在《三体》等科幻作品中。简单地说,一张照片可以包含大量的文本(在少量的片段中),但是就像一个好的读书人无需阅读每个单词就可以理解内容一样,我们思考并测试了一种方法od 为“使用视觉作为文本压缩的手段”。另外,DeepSeek 的研究涉及 10 种以下的压缩关系(根据 10 种文本标记的候选视觉特征),OCR 模型解码精度为 97%。即使压缩比提高20倍,准确率仍保持在60%左右,效果显着。更重要的是,DeepSeek再次展现了其高性能风格。您的方法生成训练数据。单个A100-40G GPU每天可以生成超过20万页的高质量LLM/VLM训练数据。因此,当这项研究发表后,它立即在 GitHub 上获得了 3,3000 颗星。 HuggingFace已经在热门榜上排名第二……在X中引起热议并获得好评。卡帕西刚刚对人工智能的现状发表了一些“尖锐”的评论,他说:“我真的很喜欢它……尤其是法学硕士文本上的图像。事实它适合输入,这真是太棒了。”其他人则认为这是“人工智能的 JPEG 时刻”,人工智能内存架构将开辟新天地。还有猜测称,Google Gemini 的主要商业机密正在被开源。当然,这样备受瞩目的研究给我们带来了更多思考。读完这篇文章后,很多人认为这种视觉和语言融合的方式可能是通向AGI的大门之一。 DeepSeek 在其论文中还讨论了人工智能记忆和“遗忘”机制。所以 这篇文章对 DeepSeek 的新模型说了些什么?新的 DeepSeek 研究:两个核心组件使小和大成为可能。综上所述,这次DeepSeek提出了一个想法,叫做“Optical Context Compression”。这是受到这种明智投资的启发。图像可以“包含”数千个单词,那么我们是否可以将文本信息压缩到图像中并强制模型“看到”并理解正在发生的事情?基本上,这是视觉文本。压缩范式使用少量的视觉文本。文本标记用于表示原本需要大量文本标记的内容,减少大型模型的计算开销。为了验证这个想法,他们构建了一个大小为 3B 的 DeepSeek-OCR 模型,并发现它在传统文档分析基准 OmniDocBench 上实现了新的 SOTA。下图显示,DeepSeek-OCR(红点)位于“每幅图像的平均视觉标记数”(横轴)的最右侧,表明它使用的标记数最少。但就“整体性能”(纵轴,越低越好)而言,已经达到了SOTA水平,而且大部分都是“大而小”。更具体的比较是:只有 100 个视觉 token,DeepSeek-OCR 每页使用 256 个 token 超过了 GOT-OCR2.0。当使用 400 个视觉标记(其中 285 个有效)时,DeepSeek-OCR 的性能可以与之前的 SOTA 模型一样好。 DeepSeek-OCR 使用少于 800 个视觉标记,显着优于 MinerU2.0,每页平均使用近 7000 个视觉标记。这一切的背后是 DeepSeek-OCR 架构的两个核心组件。 DeepEncoder:负责将图像转换为高度压缩的视觉标记。 DeepSeek3B-MoE-A570M 解码器:负责从压缩的视觉标记重建文本。这里我们重点关注DeepEncoder,它是整个系统的创新关键。你的主要目标是通过处理高分辨率图像来生成极少量具有非常高信息密度的视觉标记。为了实现这一目标,我们采用顺序设计:“首先本地处理,然后压缩,然后全局理解。”局部处理:第一步,我们使用基于 SAM 的模型(8000 万个参数)对高分辨率图像执行详细的局部特征提取,该模型仅使用“窗口注意”机制。虽然此时生成的视觉令牌数量很大,但由于内存开销仍然在控制范围内提高窗口注意力的效率。再压缩:接下来,我们在中间添加一个16x卷积压缩器,以显着减少特征进入全局注意模块之前的标记数量。例如,1024×1024的图像在第一阶段n之后产生4096个令牌,但是在压缩器之后,只剩下256个令牌进入第二阶段。后全局理解:最后,我们使用带有“全局注意力”机制的大型 CLIP 模型(3 亿个参数)来使这几个集中的 token 得到更深入的理解。此时,输入令牌的数量已显着减少,因此这里的计算开销是可以接受的。此外,值得一提的是,DeepEncoder经过训练可支持“Tiny”数据(51),以便灵活适应不同的压缩比要求和实际应用场景。 2×512,64个令牌)到“高达”(动态锁,近800个令牌)等输入模式。这意味着即使同一型号,“压缩力”可以根据任务的需要进行调整。也就是说,基于上述原理以及组件的组合,DeepSeek-OCR现在不仅具备传统的识别能力,还支持更复杂的图像的深度分析,例如财务报表、分子化学公式、数学几何图以及100多种语言。尽管三位作者都发表了备受好评的新研究,但他们仍然非常DeepSeek,都比较谦虚,网上发表的信息很少。此前在步星工作的魏浩然也主导了GOT-OCR2.0系统的开发,该系统旨在实现“第二代OCR”。 (该文章发表于2024年9月,表明Step是该文章第一作者魏浩然工作的单位。)这次DeepSeek-OCR的努力也可以说延续了之前GOT-OCR2.0的技术路线,致力于解决复杂问题通过端到端模型来分析 lex 文档问题。孙耀峰从去年开始就参与了多个DeepSeek模型的开发,包括R1和V3。 Yukun Li 是一名研究员,在 Google Scholar 文章中被引用近 10,000 次,并持续参与多个模型的开发,包括 DeepSeek V2/V3。有趣的是,这三个人在提出 DeepSeek-OCR 之后,还提出了利用光学压缩来模拟人类遗忘机制的绝妙想法。通过类比情景光学压缩和人类记忆的衰减过程,可以看出两者非常相似。最近的记忆:清晰可见,例如附近的物体。因此,您可以渲染高分辨率图像并使用更多视觉标记来保留高保真信息。长期记忆:就像一个遥远的物体一样,它会消失在黑暗中。因此,它可以逐渐扩展到由更少的 vis token 表示的更小、更模糊的图像。,从而实现信息的自然遗忘和压缩。这样,理论模型可以在处理很长的对话或文档时,动态地将不同数量的计算资源分配给不同时间的上下文,从而允许构建具有无限长上下文的架构。研究团队表示,虽然这还处于研究的早期阶段,但它是模型处理超长上下文的一种新思维方式。这个想法当然与人类智能相似。以往的人工智能情境研究都高度机械化,对短期、中期和长期一视同仁,但计算资源和响应问题也相应激增。现在,DeepSeek 提出了新的想法,是时候让 AI 记忆更加人性化了。传送门:Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-OCRGitHub:https://github.com/deepseek-ai/DeepSeek-OCR
特别提示:以上内容(包括图片和视频,如有)均为u由自有媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。