在 C# .NET 中使用开源 Tabula 库从 PDF 中提取表数据
当前位置:点晴教程→知识管理交流
→『 技术文档交流 』
PDF 文档是一种无处不在的文件格式,用于以固定布局表示结构化文档。但是,该格式本身不支持提取语义信息,如表格、图像、文本等。这给以编程方式分析 PDF 文档或将其转换为其他格式(如 Excel)等任务带来了挑战。 在这篇博文中,我们将探讨如何使用 C# 构建将 PDF 文档中的表格数据直接提取为 .NET DataTable 等格式的能力。从 PDF 中提取表格数据使我们能够有效地理解、分析和处理 PDF 表格中包含的结构化信息。 了解 PDF 表格结构在我们深入研究代码之前,了解 PDF 格式表格的底层结构非常重要。PDF 文档使用一系列绘图命令来表示可视内容,这些命令将文本、线条和形状呈现到虚拟“页面”上。 PDF 中的表格呈现为这些绘图基元的集合,没有固有的逻辑分组或语义含义。它们只是在表格布局中呈现的矩形形状、线条和文本。 为了以编程方式提取表数据,我们需要分析可视化布局并识别指示表结构的常见模式,例如:
大多数 PDF 提取库都提供了分析这些视觉提示的工具,并通过检测绘图命令中的常见表格模式来识别基础表。 使用 Tabula 提取表在这篇博文中,我们将使用开源 Tabula 库从 C# 中的 PDF 中提取表格数据。Tabula 是一个流行的 Java 库,适用于基本的表提取任务。 要从 C# 使用它,我们可以添加对它所依赖的 Tabula 和 Apache PDFBox 的引用。PDFBox 提供低级 PDF 解析和渲染功能。
通过引用的库,我们现在可以编写代码从示例 PDF 文件中提取表数据:
TableExtractor 类处理 PDF 可视化效果的分析并识别表结构。它返回提取的表,其中包含组织成行和列的单元格文本值。 我们可以遍历提取的表格并打印或进一步处理表格数据。这提供了一种在 .NET 中以编程方式解析 PDF 中的表的简单方法。 处理复杂的 PDF 表格虽然在许多情况下很简单,但 Tabula 可能会遇到更复杂的 PDF 表格布局,其中包含合并单元格、跨行/列、嵌套标题等。为了处理这些问题,我们需要一个更强大的 PDF 提取库。 一种选择是使用 PDFClown,这是一个用于高级 PDF 解析和呈现的开源 .NET 库。它提供了非常低级的访问来解析整个 PDF 内容结构并构造 DOM 表示。 我们可以在 PDFClown 之上编写自定义逻辑来识别复杂的表格模式,并从可视化内容绘制命令中重建表格结构。 下面是一个示例方法:
我们遍历每个内容元素,分析位置和大小邻居等属性,以了解视觉布局。然后,复杂表逻辑根据可视化渲染中检测到的模式重建底层数据结构。 这允许通过分析原始 PDF 内容基元来处理任何类型的复杂表格结构。 最后的话在这篇博客文章中,我们介绍了 .NET 开发人员如何使用 C# 以编程方式从 PDF 文档中提取表格数据。我们研究了 PDF 格式表格的底层结构以及用于直观识别表格的一些常见模式。 我们演示了一种使用 Tabula 库的简单提取方法,以及使用 PDFClown 的低级 PDF 解析功能的更高级技术。能够从 PDF 中理解和提取表格等结构化数据,为进一步处理和分析 PDF 文档提供了许多可能性。 所示技术对于 ASP.NET 开发人员在其 .NET 应用程序中处理 PDF 文件非常有用。通过利用 Tabula 和 PDFClown 等 C# 库,开发人员可以更轻松地从 PDF 中提取表格和其他结构化数据,以便进行额外处理并集成到他们的应用程序中。 该文章在 2024/4/17 17:21:51 编辑过 |
关键字查询
相关文章
正在查询... |