欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

使用pdfbox实现pdf文本提取和合并功能示例

程序员文章站 2024-02-27 20:27:51
有时我们需要对pdf文件进行一些处理,提取文本、合并等。以前我们使用a-pdf text extractor免费工具,为什么不自己写一个呢? 现在我们可以使用pdfbox-...

有时我们需要对pdf文件进行一些处理,提取文本、合并等。以前我们使用a-pdf text extractor免费工具,为什么不自己写一个呢?
现在我们可以使用pdfbox-0.7.3这个开源类库. 下载解包后引用:

复制代码 代码如下:

pdfbox-0.7.3.dll
ikvm.gnu.classpath.dll

新建一个项目,代码很简单:

复制代码 代码如下:

public static string parsetotxtstringusingpdfbox(string filename){
pddocument doc = pddocument.load(filename);
pdftextstripper stripper = new pdftextstripper();
return stripper.gettext(doc);
}

获得这个textstring,再把它们写成磁盘文件就可以了, 像这样的方法:

复制代码 代码如下:

public static void writetotextfile(string str,string txtpath)
{
if (string.isnullorempty(txtpath))
throw new argumentnullexception("output file path should not be null");
using (var txtwriter = new streamwriter(txtpath))
{
txtwriter.write(str);
txtwriter.close();
}
}

其它的功能您可以自行发挥了. 这个类库目前支持:

pdf to text extraction
merge pdf documents
pdf document encryption/decryption
lucene search engine integration
fill in form data fdf and xfdf
create a pdf from a text file
create images from pdf pages
print a pdf