Ambar: Document Search Engine
Site:https://ambar.cloud/
Ambar是一个开源文档搜索引擎,具有自动爬取、OCR、标记和即时全文搜索功能。
项目地址:
https://github.com/RD17/ambar
Ambar定义了在工作流中实现全文文档搜索的新方法:
- 使用单个 docker-compose 文件就能轻松部署Ambar
- 在文档和图像内容中执行类似google的搜索
- Ambar支持所有流行的文档格式,如果需要的话也可以执行OCR
- 给你的文档打标签
- 使用一个简单的REST Api将Ambar集成到你的工作流中
特点
- 搜索
教程:掌握Ambar搜索查询
- 模糊搜索(John~3)
- 短语搜索("John Smith")
- 按作者搜索(作者:John)
- 按文件路径搜索(文件名:*.txt)
- 按日期搜索(时间:昨天,今天,上周等)
- 按大小搜索(大小> 1M)
- 按标签搜索(标签:ocr)
- 按你的输入进行搜索
- 支持的语言分析器:英语 ambar_en, 俄罗斯语 ambar_ru, 德语 ambar_de, 意大利语 ambar_it, 波兰语 ambar_pl, 中文 ambar_cn, 中日韩统一表意文字 ambar_cjk
- 爬取
Ambar 2.0仅支持本地fs抓取,如果你需要抓取FTP位置的SMB共享 —— 只需使用标准Linux工具挂载它。 爬取过程是自动的,因为爬虫会监视fs事件并自动处理新文件,所以不需要进行调度。
- 内容提取
- Ambar支持大文件提取(>30MB)
- ZIP档案
- 邮件档案(PST)
- MS Office文档(Word,Excel,Powerpoint,Visio,Publisher)
- OCR图像
- 带附件的电子邮件
- Adobe PDF(带OCR)
- OCR支持的语言:Eng,Rus,Ita,Deu(德文),Fra,Spa,Pl(波兰语),Nld(荷兰文)
- OpenOffice文档
- RTF,纯文本档案
- HTML / XHTML
- 多线程处理
安装
注意:Ambar要求在Docker运行,如果没有Docker将无法运行
请按照【安装指南】进行安装
Docker镜像请在Docker Hub上寻找
支持
Ambar是完全开源的,你可以免费使用,你也可以从我们的团队获得专门的支持,但是需要付费。具体可查看项目“Support”部分介绍。
隐私政策
License
项目遵循MIT License