学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

来源：机器之心公众号 2023-08-30 14:21:13

声明:本文来自于微信公众号机器之心（ID:almosthuman2014），作者:陈萍、梓文，授权站长之家转载发布。

(资料图片仅供参考)

我们平时在阅读论文或者科学文献时，见到的文件格式基本上是 PDF（Portable Document Format）。据了解，PDF 成为互联网上第二重要的数据格式，占总访问量的2.4%。

然而，存储在 PDF 等文件中的信息很难转成其他格式，尤其对数学公式更是显得无能为力，因为转换过程中很大程度上会丢失信息。就像下图所展示的，带有数学公式的 PDF，转换起来就比较麻烦。

现在，Meta AI 推出了一个 OCR 神器，可以很好的解决这个难题，该神器被命名为 Nougat。Nougat 基于 Transformer 模型构建而成，可以轻松的将 PDF 文档转换为 MultiMarkdown，扫描版的 PDF 也能转换，让人头疼的数学公式也不在话下。

论文地址:https://arxiv.org/pdf/2308.13418v1.pdf

项目主页:https://facebookresearch.github.io/nougat/

Nougat 不但可以识别文本中出现的简单公式，还能较为准确地转换复杂的数学公式。

公式中出现的上标、下标等各种数学格式也分的清清楚楚:

Nougat 还能识别表格:

扫描产生畸变的文本也能处理:

不过，Nougat 生成的文档中不包含图片，如下面的柱状图:

看到这，网友纷纷表示:（转换）效果真是绝了。

方法概述

本文架构是一个编码器 - 解码器 Transformer 架构，允许端到端的训练，并以 Donut 架构为基础。该模型不需要任何 OCR 相关输入或模块，文本由网络隐式识别。该方法的概述见下图1。

该研究用到了2个 Swin Transformer ，一个参数量为350M，可处理的序列长度为4096，另一参数量为250M，序列长度为3584。在推理过程中，使用贪婪解码生成文本。

在图像识别任务中，使用数据增强技术来提高泛化能力往往是有益的。由于本文只研究数字化的学术研究论文，因此需要使用一些变换来模拟扫描文件的不完美和多变性。这些变换包括侵蚀、扩张、高斯噪声、高斯模糊、位图转换、图像压缩、网格变形和弹性变换。每种变换都有固定的概率应用于给定的图像。这些变换在 Albumentations 库中实现。在训练过程中，研究团队也会通过随机替换 token 的方式，对实际文本添加扰动。

每种变换的效果概览

数据集构建与处理

据研究团队所知，目前还没有 PDF 页面和相应源代码的配对数据集，因此他们从 arXiv 上开放获取的文章中创建了自己的数据集。为了数据多样性，数据集中还包括 PubMed Central （PMC）开放访问非商业数据集的一个子集。预训练期间，还加入了部分行业文档库 (IDL)。

表1数据集构成

在处理数据集的过程中，研究团队也将不同来源的数据进行了合适的处理，下图展示了他们对 arXiv 文章进行源代码收集并编译 PDF 的过程。详细内容请阅读全文。

源文件被转换成 HTML，然后再转换成 Markdown。

研究团队根据 PDF 文件中的分页符分割 markdown 文件，并将每个页面栅格化为图像以创建最终配对的数据集。在编译过程中，LaTeX 编译器自动确定 PDF 文件的分页符。由于他们不会为每篇论文重新编译 LaTeX 源文件，因此必须将源文件分割成若干部分，分别对应不同的页面。为此，他们使用 PDF 页面上的嵌入文本，并将其与源文本进行匹配。

但是，PDF 中的图形和表可能并不对应于它们在源代码中的位置。为了解决这个问题，研究团队使用 pdffigures2在预处理步骤中删除这些元素。将识别出的字幕与 XML 文件中的字幕进行比较，根据它们的 Levenshtein 距离进行匹配。一旦源文档被拆分为单独的页面，删除的图形和表就会重新插入到每一页的末尾。为了更好地匹配，他们还使用 pylatexence -library 将 PDF 文本中的 unicode 字符替换为相应的 LaTeX 命令。

词袋匹配:首先，研究团队使用 MuPDF 从 PDF 中提取文本行，并对其进行预处理，删除页码和页眉 / 页脚。然后使用词袋模型与 TF-IDF 向量化器和线性支持向量机分类器。将模型拟合到以页码为标签的 PDF 行。然后，他们将 LaTeX 源代码分成段落，并预测每个段落的页码。理想情况下，预测将形成阶梯函数，但在实践中，信号将有噪音。为了找到最佳边界点，他们采用类似于决策树的逻辑，并最小化基于 Gini 不纯度的度量:

其中

是在区间 [a，b] 中选择具有预测页码 i 的元素的概率，该区间描述了哪些段落（元素）被考虑用于分割。

区间 [a， b] 的最佳拆分位置 t 为:

搜索过程从所有段落开始，对于后续的每个分页，搜索区间的下界设置为前一个分页位置。

模糊匹配:在第一次粗略的文档分割之后，研究团队尝试找到段落中的准确位置。通过使用 fuzzysearch 库，将预测分割位置附近的源文本与嵌入的 PDF 文本的前一页的最后一个句子和下一页的第一个句子进行比较，就可以达到这个目的。如果两个分隔点在源文本中的相同位置，则认为换页是准确的，得分为1。另一方面，如果分割位置不同，则选择具有最小归一化 Levenshtein 距离的分割位置，并给出1减距离的分数。要包含在数据集中，PDF 页面的两个分页符的平均得分必须至少为0.9。如此一来，所有页面的接受率约为47%。

实验

实验中用到的文本包含三种类别:纯文本、数学表达式以及表格。

结果如表1所示。Nougat 优于其他方法，在所有指标中取得最高分，并且具有250M 参数模型的性能与350M 参数模型相当。

下图为 Nougat 优对一篇论文的转换结果:

Meta 表示，Nougat 在配备 NVIDIA A10G 显卡和24GB VRAM 机器上可并行处理6个页面，生成速度在很大程度上取决于给定页面上的文本量。在不进行任何推理优化的情况下，基础模型每批次平均生成时间为19.5s（token 数≈1400），与经典方法(GROBID10.6PDF/s )相比速度还是非常慢的，但 Nougat 可以正确解析数学表达式。

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

来源：机器之心公众号 2023-08-30 14:21:13

学术党狂喜，Meta推出OCR神器，PDF、数学公式都能转

莫脱 N.F.(关于莫脱 N.F.简述)

累计完成率怎么算（完成率怎么算）

安杰思：8月29日融券卖出1.36万股，融资融券余额2664.91万元

半导体板块继续走高，伟测科技接近20cm涨停

百利科技08月29日获沪股通增持110.75万股

“艾达利亚”增强为2级飓风 逼近美国佛罗里达州

睿智医药（300149）：8月29日北向资金增持54.99万股

京东方：回暖，不是来自需求

柠檬鸭、啤酒鸭、白切鸭……今天，你吃鸭了吗？医生提醒

ST开元：孙公司钠离子电池通过工信部认证并完成装车

医生中级职称是什么 中级职称是什么

李伟国(对于李伟国简单介绍)

电影《不虚此行》X《时尚芭莎》沙龙论坛 主创真挚分享创作感悟

华纬科技：公司的产品已成功进入了比亚迪、小鹏等客户供应链体系中

离婚诉讼授权委托问题离婚诉讼中哪些事项可以委托代理人进行？

“追捕”艾滋病毒 五十年探寻“隐秘的角落”

五粮液打响酒业“限制减持、提振信心”第一枪？

杨幂露背了什么梗 非常杨幂是什么梗 基本情况讲解

我国的哪种狗奔跑速度最快？有何依据？看完后明白了！

宿华，被时代选中的投资人

怀孕咳嗽有痰吃什么好得快呢

紫建电子拟投资50亿元在建设一个1GWh的储能用电池项目

南昌房价最新消息2021新楼盘 江西南昌房价最新消息

应急管理部：加强重点地区民族村寨、民俗客栈等隐患排查整治

江盐集团(601065)龙虎榜数据(08-28)

滴滴造车“触礁”，小鹏接棒“续梦”

华西证券：给予千禾味业增持评级

是心动的感觉！天门这场青年联谊活动有“亿”点甜

渝股半年报|山外山净利润大增687% 拟10派2元转增4.9股

六盘水市委依法治市办到水城区明察暗访推进涉道路专项整治

中国软件：8月25日融券卖出金额1893.91万元，占当日流出金额的2.51%

误删聊天记录可以恢复？广东一男子发9000元红包后，被整蒙了！

戒嗔戒痴戒贪（戒嗔）

Her2靶点之争：寻找最优解，一条没有终点的路

日本研究：幼童发育迟缓与其电子屏幕使用时间相关

国乒热身赛：樊振东0-3不敌林高远，无缘保持全胜

加入金砖，这两国独立于美国的能力增强了

普法栏目剧吴萍肖丽最后怎么样 《最后的真相》：一部普法科教片 基本情况讲解

浙江卫视收视跌了！不播《好声音》直接前十不入，无力再超湖南台

手机品牌，没有主流和小众之分，一切均来自每个人肤浅的想法

罗马尼亚首都布加勒斯特附近发生2起爆炸 已致1死46伤

日本专家：日本政府应该审慎对待核污染水排海 而非一排了之

欠50万还不起钱会坐牢吗

贷款近两百万，到期却未还清，法院现场查封抵押房产

责任险与意外险的区别是什么？可以买吗？

“把自身推向国际被告席” 日本市民再度集会抗议

“墨韵流芳”第十一届北京电视书法大赛初评两百余件作品胜出

江汉油田盐化工年产精制盐54万吨，可供2.7亿人吃一年

皇马1-0，验出球队真核！头槌绝杀3场轰4球连拿3mvp，比姆巴佩香

在一圆柱形容器中盛有水水面漂浮着一个小容器当将（一个圆柱形玻璃容器的底面直径是10厘米把一块完全浸在这个容器的水中的铁块取出后,水面下降2厘米）

评论区丨国企“举贤避亲”理应如此

2023-08-25 04：42

龙佰集团股东户数增加2.87%，户均持股18.79万元

当好中外民间交流的桥梁纽带——海外华裔新生代青年代表团参访新疆侧记

Keep公布2023年中期业绩：净亏损收窄0.94亿元，毛利率提升至43%

金鹰重工：聘任夏福坤为金鹰重型工程机械股份有限公司副总经理

全球生物多样性框架基金设立

菏泽市牡丹区老干部活动中心志愿服务队(关于菏泽市牡丹区老干部活动中心志愿服务队简述)

lol3d视角教程（lol3d视角）

孙丹林(关于孙丹林简述)

全国辣椒十大新优品种、十大潜力品种公布

马斯克回应美国司法部起诉SpaceX只雇用美国人

功夫英雄什么职业好打 功夫英雄什么职业好

中国农业银行格尔木分行副行长马福军任职资格获准

终获边路爆点！曼城官宣夏窗第3援：6千万签下21岁过人王，穿11号

中信证券等6家券商宣布28日起降佣，对行业影响几何？

华邦科技(03638)：陈永森获委任为执行董事兼行政总裁

A股龙虎榜揭秘 9股获机构青睐

乐凯胶片2023年上半年净利622.81万 同比减少78.17%

恒生指数收涨2.05%恒生科技指数涨3.72% 美团涨超7%，

亚太股市收盘多数走高，韩国综合指数涨1.28%

西咸文旅集团做强优质项目“捕捉器”推进科创项目招引、落地

贵阳银行：8月23日融资买入1455.61万元，融资融券余额12.45亿元

五粮液(000858.SZ)：控股股东方面自愿承诺1年内不减持公司股份

重新认识赵元任——《赵元任日记》出版

不要把《中国好声音》搞死、废掉？胡锡进的观点，我不敢苟同

奉孝是谁的字号 奉孝

“艾达利亚”增强为2级飓风逼近美国佛罗里达州

医生中级职称是什么中级职称是什么

电影《不虚此行》X《时尚芭莎》沙龙论坛主创真挚分享创作感悟

“追捕”艾滋病毒五十年探寻“隐秘的角落”

杨幂露背了什么梗非常杨幂是什么梗基本情况讲解

南昌房价最新消息2021新楼盘江西南昌房价最新消息

普法栏目剧吴萍肖丽最后怎么样《最后的真相》：一部普法科教片基本情况讲解

罗马尼亚首都布加勒斯特附近发生2起爆炸已致1死46伤

日本专家：日本政府应该审慎对待核污染水排海而非一排了之

功夫英雄什么职业好打功夫英雄什么职业好

乐凯胶片2023年上半年净利622.81万同比减少78.17%

奉孝是谁的字号奉孝

异地恋会长久的数据异地恋会长久

上半年中国人寿寿险公司保费收入达4701.15亿元同比上升6.9% 创历史同期新高

烟台高新区10个重点项目开工总投资42.4亿元

时代光影百部川扬 | 《夜武胜》

理想汽车6月交付32575辆首次破三万

210+N型技术助推组件功率再突破天合光能700W+组件提前实现量产

梅雁吉祥2023年上半年净利1617.4万同比减少46.38%

累计分红超2亿元华夏越秀高速REIT持续分红获关注

丽泽金融商务区秋色上新五大公园群规模初现

转换柱和转换梁抗震等级要提高么什么是转换梁和转换柱

两岸各界积极捐赠“迁台记忆”档案文献守护血脉亲情

青海西宁南门体育场升级改造为全民健身提供优质服务

波切蒂诺：本应半场建立优势要更好地把握机会

东北及京津冀地区加快灾后恢复重建生产生活秩序有序恢复

女性甲减吃什么药甲减吃什么药

经济观察：国际邮轮出境团队游重启上海邮轮经济“再起航”

小米推出七夕节礼盒小米Civi 3真爱礼盒

基建先行指标供给端偏紧叠加下游需求恢复铁矿石期货涨逾4%

挂牌首日涨停！集运指数（欧线）期货基准价业内称合理上市公司获对冲机会