Github项目推荐 | Ambar:开源的文档搜素引擎

2019-05-08 18:00:07 浏览数 (1)

Ambar: Document Search Engine

Site:https://ambar.cloud/

Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。

项目地址:

https://github.com/RD17/ambar

Ambar定义了在工作流中实现全文文档搜索的新方法:

  • 使用单个 docker-compose 文件就能轻松部署Ambar
  • 在文档和图像内容中执行类似google的搜索
  • Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR
  • 给你的文档打标签
  • 使用一个简单的REST Api将Ambar集成到你的工作流中

特点

  • 搜索

教程:掌握Ambar搜索查询

  • 模糊搜索(John~3)
  • 短语搜索("John Smith")
  • 按作者搜索(作者:John)
  • 按文件路径搜索(文件名:*.txt)
  • 按日期搜索(时间:昨天,今天,上周等)
  • 按大小搜索(大小> 1M)
  • 按标签搜索(标签:ocr)
  • 按你的输入进行搜索
  • 支持的语言分析器:英语 ambar_en, 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语 ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk
  • 爬取

Ambar 2.0仅支持本地fs抓取,如果你需要抓取FTP位置的SMB共享 —— 只需使用标准Linux工具挂载它。 爬取过程是自动的,因为爬虫会监视fs事件并自动处理新文件,所以不需要进行调度。

  • 内容提取
  • Ambar支持大文件提取(>30MB)
  • ZIP档案
  • 邮件档案(PST)
  • MS Office文档(Word,Excel,Powerpoint,Visio,Publisher)
  • OCR图像
  • 带附件的电子邮件
  • Adobe PDF(带OCR)
  • OCR支持的语言:Eng,Rus,Ita,Deu(德文),Fra,Spa,Pl(波兰语),Nld(荷兰文)
  • OpenOffice文档
  • RTF,纯文本档案
  • HTML / XHTML
  • 多线程处理

安装

注意:Ambar要求在Docker运行,如果没有Docker将无法运行

请按照【安装指南】进行安装

Docker镜像请在Docker Hub上寻找

支持

Ambar是完全开源的,你可以免费使用,你也可以从我们的团队获得专门的支持,但是需要付费。具体可查看项目“Support”部分介绍。

隐私政策

License

项目遵循MIT License

0 人点赞