Apache Tika 1.0发布,开源的文档检索工具包
程序员文章站
2024-01-18 17:39:40
...
Apache Tika 1.0 正式发布了。
Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。
其功能包括:
Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。
详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt
项目官网:http://tika.apache.org/
下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip
Apache Tika是一种利用现有的解析类库,从不同格式的文档中(例如HTML、PDF、Doc等)检测和提取元数据、结构化文本内容的工具包。
其功能包括:
- 检测文档的类型、字符编码、语言以及其他现有文档的属性。
- 提取结构化的文本内容。
- 支持20多种常见的文件格式,包括各种Office文档格式、压缩格式、网页格式、文本格式等。
Apache Tika 1.0在之前版本基础上,针对API、配置、OSGi以及各种文档(包括RTF、MS Office、PDF、OpenOffice等文档)作了大量改进。
详细改进参阅:http://www.apache.org/dist/tika/CHANGES-1.0.txt
项目官网:http://tika.apache.org/
下载地址:http://www.apache.org/dyn/closer.cgi/tika/apache-tika-1.0-src.zip
上一篇: yii框架源码分析之创建controller代码_PHP
下一篇: php限制文件下载速度的代码