数据分析

  • 数据分析基础
    • 数据分析概述
    • 数据分析环境
    • 数据分析工具
  • 数据存储获取
    • 数据获取
    • 数据存储
  • 多维数组运算
    • Numpy概述
    • NumPy类型
    • NumPy数组
    • NumPy矩阵
    • NumPy统计函数
    • NumPy运算函数
    • NumPy排序函数
    • NumPy随机函数
    • NumPy广播
  • 数据分析处理
    • Pandas概述
    • Pandas序列
    • Pandas数据框
    • Pandas统计
    • Pandas函数
    • Pandas数据准备
    • Pandas数据变换
    • Pandas数据清洗
  • 数据图形显示
    • 数据可视化概述
    • Matplotlib绘图
    • Pandas绘图
    • Seaborn绘图

1 数据分析简介

数据分析是结合数学、统计学理论的科学统计分析方法,对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据进行分析,从中提取有价值的信息并形成结论进行展示的过程。


2 数据分析流程

(1) 分析目标及思路:一个分析问题、拆分问题的过程。通过分析要研究的目标从而得出分析思路,确定目标需要对哪些方面进行具体的分析;
(2) 数据获取:在确立了分析需求之后需要用一些技术手段获取数据,包括但不限于下载数据集、爬取数据;
(3) 数据预处理:数据预处理可以大致分为4个基本步骤,分别是数据合并、数据转换、数据清洗数据标准化;
(4) 数据分析与建模:通过建模可以得出数据中存在的特定规律,而模型就是这种规律的抽象化实例;
(5) 数据可视化:将数据分析结果以图表的形式展现出来,会更加清晰直观有效;
(6) 数据应用:将数据分析之后的结果运用到相应的领域中去。
注意:数据分析具体流程包括确定分析目标及思路、数据获取、数据预处理、数据分析与建模、数据可视化及结果验证、数据应用。



3 数据分析常用库

(1) NumPy:是一个运行速度非常快的数学库,主要用于数组计算。
(2) Pandas:是一个强大的分析结构化数据的工具集,用于数据挖掘和数据分析,同时也提供数据清洗功能。
(3) Matplotlib:是一个功能强大的开源的数据可视化库。
(4) Seaborn:是一个Python数据可视化开源库,建立在matplotlib之上,并集成了pandas的数据结构。
(5) Sklearn:scikit-learn 是基于 Python 语言的机器学习工具。
(6) Jupyter Notebook/Jupyter Lab:是一个开源Web应用程序,可以创建和共享代码、公式、可视化图表、笔记文档,是数据分析学习和开发的首选开发环境。


4 数据分析应用

(1) 买东西、做生意:比如淘宝知道你喜欢什么,给你推荐商品;超市预测下个月哪种牛奶卖得最好,提前多进货。
(2) 银行和钱:比如银行判断你能不能贷款;发现你的银行卡是不是被盗刷了。
(3) 工厂和物流:比如工厂分析生产过程,找出哪里慢,提高效率;快递公司分析路线,让包裹送得更快。
(4) 医院和健康:比如医生用你的检查数据判断病情;研究新药有没有效果。
(5) 上网和手机:比如抖音给你推你爱看的视频;网站改版后,看看大家用起来方不方便。
(6) 城市和政府:比如分析哪里堵车最严重,想办法解决;警察根据数据预测哪里可能有小偷,加强巡逻。


5 数据分析文档

网址:https://blog.csdn.net/weixin_50216991/article/details/151373806