数据挖掘又称数据库中的知识发现,指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息,是目前人工智能和大数据分析领域的热点问题。它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析海量数据,寻找出规律,从而为决策提供支持。换句话说,数据挖掘是一门多学科交叉作用、且越来越高深的计算机技术活儿。也因此,在大数据时代,数据挖掘技术的发展具有重要的意义。利用先进人工智能算法和统计分析技术,数据挖掘可以发现新的模式,在过去的经验基础上洞见未来趋势。本期书单,我们就聚焦数据挖掘,重点推荐2020年出版的新书。
《数据挖掘——基于R语言的实战》,是中科院少年班天才、哈佛统计学博士,被誉为“哈佛小魔女”的张俊妮教授的十年磨一剑的新作。全书案例丰富,涵盖医疗、金融、营销、保险、政府部门等应用案例,并提供全套教学解决方案,可视为“数据挖掘”课程的最新成果。刘顺祥的《R语言数据分析、挖掘建模与可视化》内容涵盖数据清洗、数据处理、数据可视化、主流挖掘算法以及丰富的企业应用案例,5位业界专家力荐。《数据挖掘:原理与实践》(进阶篇),为引进版,不仅讨论传统的数据挖掘问题,而且介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。同期出版的还有本书的基础篇。周涛教授的《最简数据挖掘》,用通俗易懂的语言介绍数据挖掘的技术和价值。
Python应用方面,出版的书较多。《Python大数据分析与挖掘实战》,分基础篇、案例篇和提高篇,实践性强。《数据挖掘原理、方法及python应用实践教程》,兼顾原理、方法及应用的系统性教材。《Python预测之美》,对预测原理的深度剖析和算法的细致解读,是本书的一大亮点。
统计学方面,《统计分析:从小数据到大数据》,作者有着丰富的培训经验,以及大量的一线工程实践经验。《统计学习方法》(第2版),实用性强,深入浅出,是统计机器学习的畅销读物。
学术成果方面,《基于大数据挖掘的医疗健康公共服务》,是教育部人文社会科学重点研究基地重大项目“大数据资源的挖掘与服务研究——面向医疗健康研究”的主要成果。《遥感大数据智能计算》是测绘地理大数据挖掘的科技前沿。《基于网格资源与服务的决策支持方法与决策支持系统》,是对于决策支持系统的系统研究。
此外,《错觉:AI如何通过数据挖掘误导我们》、《大数据:挖掘数据背后的真相》、《数据可视化陷阱》等则提供了解数据挖掘的另外一种视角,并具有较强的可读性。
这里发布的书单均依据百道图书选品后台和百道好书大数据制作,书店、图书馆以及阅读推广机构对平台与数据有兴趣体验与试用的,还有出版机构有需要推荐相关图书到书单的,请邮件垂询:bd@bookdao.com。