欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  资讯频道

Apache Tika 1.0发布,开源的文档检索工具包

程序员文章站 2024-01-18 17:39:40
...
Apache Tika 1.0 正式发布了。

Apache Tika 1.0发布,开源的文档检索工具包


Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。

其功能包括:

  • 检测文档的类型、字符编码、语言以及其他现有文档的属性。
  • 提取结构化的文本内容。
  • 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika主要用于搜索引擎以及其他内容索引和分析工具,其编程语言为Java。Tika项目于2007年3月启动,最开始是Apache Lucene(全文检索引擎工具包)的子项目,现在已经成为了Apache组织的*开源项目。

Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。

详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt

项目官网:http://tika.apache.org/

下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip