网络数据爬取与分析实务

作者:李周平

字数:301千字

页数:257页

版次:1版

定价:68.0

ISBN:978-7-313-20032-7

出版日期:2018-09-25

本书按照网络数据爬取、数据清洗与处理、数据存储、数据分析的逻辑脉络,介绍了数据科学的相关知识。全书主要内容涉及理论、实战、工具三个层面。其中,理论层面主要介绍了网络爬虫,数据处理与存储,机器学习的相关概念、原理与算法;实战层面主要通过影评、二手房、招聘网站等实战项目,阐述了数据爬取、处理与存储的代码实现,并通过相关数据集的实例,介绍了机器学习算法的实现与效果评估;工具层面主要讲解了如何通过Python的Urllib、Request、BeautifulSoup、Pandas、Scikitlearn等第三方工具包实现数据的爬取、处理与分析,以及通过SQLite这一轻量级数据库工具实现数据的存储。 本书可作为高校开设数据科学相关课程的教学用书,也可供数据科学相关方向初学者的学习参考。


目录

第1章数据科学概述
第2章Python语法基础
第3章使用Urllib库编写爬虫
第4章使用正则表达式提取数据
第5章使用BeautifulSoup库提取数据
第6章爬虫项目实战
第7章Pandas数据处理基础
第8章Pandas数据处理常用方法
第9章数据处理实战
第10章SQLite数据库操作