导语:读书是一生的功课,技术人通过读书实现自我提升,学习优秀知识沉淀。TEG书知道本期特邀腾讯云数仓数据湖产品负责人堵俊平、腾讯云数据库负责人林晓斌、腾讯TEG云架构平台部数据块中心高级工程师王银虎,腾讯TEG计费平台部账户中心专家工程师潘安群为大家带来大数据方向好书推荐。来看看技术大牛在读什么,收藏优质内容,愿本期书单助您更专业。
堵俊平,腾讯云数仓数据湖产品负责人, T4专家工程师,腾讯开源联盟(TOSA)现任主席,Apache开源基金会Member, Apache Hadoop项目Committer和PMC。
《Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale》
作者:Tom White
大牛推荐语: 这本”Hadoop Definitive Guide”是由Hadoop之父Doug Cutting亲自推荐的,作者Tom White也是Hadoop开源项目最早期的开发者。本书深入浅出的讨论了大数据Hadoop生态系统里各种技术Hadoop, HBase, Hive, Spark等的基本原理,设计原则和使用细节。不仅对大数据领域的业者,也对于从事分布式系统,存储系统等研发的技术人员也有很强的参考价值。这本书指导了一代大数据开发者的成长,也被早期的Hadoop业者称为大数据领域的红宝书。
《Learning Spark: Lightning-Fast Big Data Analysis》
作者:Holden Karau, Andy Kowinski, Mark Hamstra, Matei Zaharia
大牛推荐语:这本“Learning Spark”是由Apache Spark项目的创始团队写给数据工程师和数据科学家的关于如何基于Spark做数据分析,全书通过丰富的例子,展现了Spark如何应用于数据的SQL查询,流计算,机器学习等常用的数据分析场景以及优化。全书实例丰富,逻辑严谨,是数据分析师和数据科学家采用Spark技术的必备工具书。
《Data Architecture: A Primer for the Data Scientist: Big Data, Data Warehouse and Data Vault》
作者:W.H. Inmon, Daniel Linstedt
大牛推荐语: 这本书是被誉为数据仓库之父的Bill Inmon撰写的关于企业全局数据架构的书, 该书详细分析了大数据趋势,并结合历史上已有的数据仓库系统探讨了如何在企业数据架构上实现两者的连接与统一。全书脉络清楚,通俗易懂,反映了作者多年的企业数据服务与治理的经验沉淀。适合试图在架构层面上理解企业数据架构以及数据规划的资深从业人员来阅读。
林晓斌,网名丁奇,腾讯云数据产品中心总监,云数据库负责人。擅长数据库性能优化和架构优化,活跃的社区开发者。著有专栏《MySQL实战45讲》,超过3万人已学习。
《SQL反模式》
作者:Bill Karwin
大牛推荐语:对于一个运维和开发人员来说,出了错就改并不太难,而如何识别潜在的问题就是一个进阶的能力。《SQL反模式》这本书,比较系统地介绍了如何识别潜在风险、归纳错误的用法、总结面对问题时正确的解决手段,除了解决实际问题,对运维人员的系统化思维提升也很有帮助。
《事务处理:概念与技术》
作者:Jim Gray, Andreas Reuter
大牛推荐语:这是一本奠定了关系数据库理论的书,在现在主流的数据库实现中,还可以看到其中一些概念的原型。这本著作详细阐述了各种可能发生的问题,以及解决这些问题的实际的技术。直到今天,书里的理论仍然能够用于指导现在的数据库设计和开发实践。 这是一本”大部头“,也是值得放在床头细读的书。
王银虎,TEG云架构平台部数据块中心云硬盘组T3-3高级工程师,负责云硬盘的开发和维护工作,混迹存储圈10年有余,为腾讯云高性能、低成本、高可用性和持久性的海量存储平台提供技术支持。
《失控:机器、社会与经济的新生物学》
作者:Kevin Kelly
大牛推荐语:凯文凯利的这本书,主题是控制论、自我组织、复杂系统和混沌理论等。《失控》的中心理论是当代科学与哲学拥有共通之处:智慧不再被集中组织,而是更像蜂巢中的一个个蜂窝。此作成书于1994年的书,书中预言式的提到今天正在兴起或大热的概念包括: 大众智慧、云计算、物联网、虚拟现实、敏捷开发、协作、双赢、共生、共同进化、网络社区、网络经济等等。对于计算机科学和工程,有很多指导意义,在CBS的分布式设计方面也借鉴了《失控》的很多理论和思想。
《重构:改善既有代码的设计》
作者:Martin Fowler
大牛推荐语:程序员写代码无非是在做两件事情,实现新功能,重构已有代码,而《重构》正是指导代码重构的一本工具书,它解释重构的原理和最佳实践方式,并指出何时何地你应该开始挖掘你的代码以求改善,它揭示了重构过程并整理了具体的方法和案例。同时《重构》有很多理念也是程序员应该学习的:推倒重来不是重构,安全、小步的重构应有的方法;稳定的软件不是设计出来的,是演进而来的......
潘安群,TEG计费平台部账户中心专家工程师,超过10年分布式计算和存储系统研发经验,目前负责分布式NoSQL系统厚德(Hold)、腾讯分布式数据库(TDSQL),以及腾讯云区块链(TBaaS)底层平台的技术研发工作。
《Designing Data-Intensive Applications》
作者:Martin Kleppmann
大牛推荐语:这是一本数据处理领域(SQL、NoSQL、NewSQL、Batch Processing、Stream Processing)的入门之作,也可以说是集大成之作,领域从业者必读,深入浅出,可以让你系统性的了解到各类型数据处理系统所需要考虑的问题,如可靠性、扩展性、可维护性、数据模型、复制、一致性、分布式、事务等等。同时通过对各种解决方案的来龙去脉以及优劣对比讲述,更能让大家加深对问题的理解。因为本书在具体细节上没有特别深入,所以无论是否从事数据存储处理系统领域的研发工作,都可以,也应该读读此书,对工作中的技术选型会非常有指导意义。此外,该书里面提供的大量引用文献,对于进一步深入细分领域非常有价值。
《Streaming Systems》
作者:Tyler Akidau, Slava Chernyak, Reuven Lax
大牛推荐语:源自Google内部大数据处理的思考与经验,虽然书名是Streaming Systems,但是内容远不止于此,作者希望用一个大统一理论来统一去过大数据处理的历程,包括批处理、流式计算、数据库表等概念,这可以充分加深大家对大数据处理系统的系统性理解。当然也有对当前各种Streaming System的对比分析,值得细读。
《技术的本质》
作者:W.Brian Arthur
大牛推荐语:严格意义上来说,这不是一本技术书籍,作者是经济学出身,这里的技术也不再是某个行业的具体技术,而是人类文明史上的技术总和,作者似乎希望脱离某个具体领域的技术,去思考技术的本质是什么,如何进行进化,里面提出很多有意思的观点,如技术在某种程度上一定是来自此前已有技术的新组合,而技术的最源头是人类对自然现象的捕获与利用,技术的模块化组合进化等,这些观点不能说一定无懈可击,但是不失为我们看待技术以及创新的一种参考。此外,因为技术本身是一个很抽象的概念,所以这本书读起来会有些生涩,可能容易睡着。