组件分享之后端组件——一个简单且高度可扩展的分布式文件系统seaweedfs
背景
近期正在探索前端、后端、系统端各类常用组件与工具,对其一些常见的组件进行再次整理一下,形成标准化组件专题,后续该专题将包含各类语言中的一些常用组件。
组件基本信息
- 组件:seaweedfs
- 开源协议:Apache-2.0 License
内容
本节我们分享一个分布式存储系统seaweedfs,它是一个用于 blob、对象、文件和数据湖的快速分布式存储系统,可存储数十亿个文件!Blob 存储具有 O(1) 磁盘寻道、云分层。Filer支持Cloud Drive、跨DC双活复制、Kubernetes、POSIX FUSE挂载、S3 API、S3 Gateway、Hadoop、WebDAV、加密、纠删码。 可提供如下特性:
- 存储数十亿文件!
- 快速提供文件!
SeaweedFS 最初是作为一个对象存储来有效处理小文件。中央主服务器不管理中央主服务器中的所有文件元数据,而是仅管理卷服务器上的卷,而这些卷服务器管理文件及其元数据。这减轻了来自中央主机的并发压力,并将文件元数据传播到卷服务器中,从而允许更快的文件访问(O(1),通常只有一次磁盘读取操作)。 每个文件的元数据只有 40 字节的磁盘存储开销。O(1) 磁盘读取非常简单,欢迎您通过实际用例来挑战性能。 SeaweedFS 从实现Facebook 的 Haystack 设计文件开始。此外,SeaweedFS 使用 f4 的想法实现了擦除编码:Facebook 的 Warm BLOB Storage System ,并且与Facebook 的 Tectonic Filesystem有很多相似之处 在对象存储之上,可选的Filer可以支持目录和 POSIX 属性。Filer 是一个独立的线性可扩展无状态服务器,具有可自定义的元数据存储,例如 MySql、Postgres、Redis、Cassandra、HBase、Mongodb、Elastic Search、LevelDB、RocksDB、Sqlite、MemSql、TiDB、Etcd、CockroachDB 等。 对于任何分布式键值存储,大值可以卸载到 SeaweedFS。SeaweedFS 具有快速的访问速度和线性可扩展的容量,可以作为分布式Key-Large-Value 存储。 SeaweedFS 可以透明地与云集成。SeaweedFS利用本地集群上的热点数据和访问时间为O(1)的云上的温数据,既可以实现本地快速访问时间,又可以实现弹性云存储容量。更重要的是,云存储访问API成本最小化。比直接云存储更快、更便宜!
附加的功能
- 可以选择无复制或不同的复制级别,机架和数据中心感知。
- 自动主服务器故障转移 - 无单点故障 (SPOF)。
- 自动 Gzip 压缩取决于文件 mime 类型。
- 删除或更新后自动压缩以回收磁盘空间。
- 自动进入 TTL 过期。
- 任何具有一些磁盘空间的服务器都可以添加到总存储空间中。
- 添加/删除服务器不会导致任何数据重新平衡,除非由管理员命令触发。
- 可选的图片调整大小。
- 支持ETag、Accept-Range、Last-Modified等。
- 支持 in-memory/leveldb/readonly 模式调优以实现内存/性能平衡。
- 支持重新平衡可写和只读卷。
- 可定制的多个存储层:可定制的存储磁盘类型以平衡性能和成本。
- 透明的云集成:通过分层云存储的热数据无限容量。
- 用于热存储的纠删码 机架感知 10.4 纠删码可降低存储成本并提高可用性。
文件管理器功能
- Filer 服务器通过 http 提供“普通”目录和文件。
- 文件 TTL 会自动使文件元数据和实际文件数据过期。
- Mount filer通过 FUSE 直接将文件读写为本地目录。
- Filer Store Replication为 filer 元数据存储启用 HA。
- Active-Active Replication支持异步单向或双向跨集群连续复制。
- Amazon S3 兼容 API使用 S3 工具访问文件。
- Hadoop Compatible File System从 Hadoop/Spark/Flink/etc 访问文件,甚至运行 HBase。
- Async Replication To Cloud对 Amazon S3、Google Cloud Storage、Azure、BackBlaze 具有极快的本地访问和备份。
- WebDAV作为 Mac 和 Windows 上的映射驱动器访问,或从移动设备访问。
- AES256-GCM 加密存储安全地存储加密数据。
- Super Large Files存储数十 TB 的大型或超大型文件。
- Cloud Drive将云存储挂载到本地集群,通过异步回写进行缓存以实现快速读写。
- 除了云驱动器之外,远程对象存储的网关将存储桶操作镜像到远程对象存储
本文声明:
知识共享许可协议
本作品由 cn華少 采用 知识共享署名-非商业性使用 4.0 国际许可协议 进行许可。