数据分析实战45讲

算法

决策树

朴素贝叶斯

SVM

KNN

K-Means

EM

关联规则

PageRank

AdaBoost

NumPy

Pandas

Matplotlib

Seaborn

流程

数据采集

  • 工具

    • 八爪鱼

数据挖掘

  • 准备阶段

    • 数据清洗

      • 占据80%的处理时间

      • 规则

        • 完整性

        • 全面性

        • 合法性

        • 唯一性

    • 数据集成

      • 合并多个数据源

    • 数据变换

      • 数据平滑

      • 数据聚焦

      • 数据概化

      • 数据规范化

        • Min-max 规范化

        • Z-Score 规范化

        • 小数定标规范化

    • 数据探索

  • 分类阶段

数据可视化

  • 4类图

    • 比较

    • 联系

    • 构成

    • 分布