scikit-learn — 经典 ML 库

是什么

scikit-learn 是一个 Python 机器学习工具箱——把几十种经典 ML 算法（线性回归 / 逻辑回归 / SVM / 随机森林 / KMeans / PCA 等）统一到同一套 API 下。

日常类比：像一家”通用电器店”。以前你买烤箱要学一个旋钮，买洗衣机又要学另一个旋钮——每家牌子接口都不一样。scikit-learn 规定：所有”机器”都用同样三个按钮——fit（学）、predict（猜）、transform（改造数据）。

最小例子：

from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X_train, y_train)        # 学
y_pred = clf.predict(X_test)     # 猜

把 RandomForestClassifier 换成 LogisticRegression / SVC / GradientBoosting——上面三行一字不改就能跑。这就是它能成为 Python ML default 的原因。

为什么重要

不理解 scikit-learn，下面这些事都没法解释：

为什么 Python ML 教程几乎都从它开篇——它是”经典 ML”的事实标准
为什么 Kaggle 比赛里”传统 ML 方法”代码长得几乎一样——都套 fit / predict 模板
为什么深度学习火起来后它还没被淘汰——表格数据上 XGBoost / 随机森林仍打赢神经网络
为什么”管线 / Pipeline / 网格搜索”这些工程概念被它带成行业通识

核心要点

scikit-learn 的设计可以拆成 三件套：

Estimator（估计器）抽象：每个算法都是一个类，必须实现 fit(X, y) 学参数。这个统一约定让”换模型”变成”换一个 import”——像换插头不用换墙。
Transformer（转换器）+ Predictor（预测器）：处理数据的（标准化 / 编码 / 降维）实现 transform；做预测的实现 predict。两者用同一套 fit 接口，所以可以用 Pipeline 串成流水线。
Pipeline + 交叉验证 + 网格搜索：Pipeline([StandardScaler(), LogisticRegression()]) 把”预处理 + 模型”打包成一个估计器，再喂给 cross_val_score 做 5-fold CV，或 GridSearchCV 自动调超参。这套工程范式是 scikit-learn 的最大遗产。

三件加起来，让”做一个 ML 实验”从”写 200 行胶水”变成”拼 5 个对象”。

实践案例

案例 1：随机森林分类器（fit / predict）

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
clf = RandomForestClassifier(n_estimators=100)
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))   # 准确率

逐部分解释：

train_test_split 把数据切训练 / 测试集，留 20% 给测试
fit 让森林”长出”100 棵决策树
score 一行算准确率，避免你自己写 (y_pred == y_test).mean()

案例 2：标准化 + 测试集（fit_transform vs transform）

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_s = scaler.fit_transform(X_train)   # 训练集：算均值方差 + 应用
X_test_s  = scaler.transform(X_test)        # 测试集：只应用，不算

关键点：训练集才能 fit_transform，测试集只能 transform——否则把测试集均值方差泄到模型里，离线指标虚高。

案例 3：Pipeline 把预处理和模型打包

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("model",  LogisticRegression()),
])
pipe.fit(X_train, y_train)
pipe.score(X_test, y_test)

整个 pipe 像单个估计器，fit 自动按顺序 fit_transform 标准化器，再 fit 模型。喂进 GridSearchCV 还能同时调 model__C 这种内层参数——名字用 step__param 双下划线串。

踩过的坑

数据泄漏：在 train_test_split 之前对整个数据集 fit_transform，测试集统计量泄进训练——离线 95%，上线塌成 70%。永远先切再 fit。
fit vs fit_transform：测试集只能 transform，写成 fit_transform 等于用测试集重新算了一套均值方差，污染评估。
类别特征不能直接喂：字符串列（gender、city）必须先 OneHotEncoder / OrdinalEncoder，否则报 ValueError: could not convert string to float。
没有 GPU / 不擅长大数据：scikit-learn 是 CPU + NumPy 计算，几十万行还行，几亿行就该上 polars + LightGBM / XGBoost / Spark MLlib，别在这里硬撑。

适用 vs 不适用场景

适用：

表格数据（结构化）的分类 / 回归 / 聚类——XGBoost 来之前最强 baseline
教学和 prototype——API 一致，新人 1 小时上手
中等规模数据（< 100 万行）的 ML 实验
需要可解释模型（决策树 / 线性模型 / 朴素贝叶斯）的场景

不适用：

深度学习 / 神经网络——用 PyTorch / TensorFlow / JAX
超大规模分布式训练——用 Spark MLlib / Dask-ML
序列 / 图像 / 文本端到端——不是它的领域
GPU 加速的传统 ML——用 cuML（NVIDIA 的 GPU 版 scikit-learn API）

历史小故事（可跳过）

2007 年：David Cournapeau 在 Google Summer of Code 起步，想给 SciPy 补一个 ML 模块。
2010 年：法国 INRIA 研究院的 Fabian Pedregosa、Gaël Varoquaux 等人接手主维护，“经典 ML 工具箱”定位形成。
2011 年：Pedregosa et al. 在 Journal of Machine Learning Research 发表论文 “Scikit-learn: Machine Learning in Python”，奠基学术引用 default。
2013 年起：fit / predict / transform 的 API 范式被广泛模仿——XGBoost / LightGBM / TensorFlow 的 Keras 后来都向它兼容。
2020 年代：GitHub 60k+ star，仍是 Python ML 教学和工业 baseline 的事实标准。

学到什么

统一 API 是平台级杠杆——用户学一次接口，可以换 50 种算法，迁移成本几乎 0
Pipeline 是工程级抽象——把”预处理 + 模型”绑定，等于给数据泄漏关了门
传统 ML 没死——表格数据上随机森林 / 梯度提升仍打赢神经网络
API 比算法重要——同样实现的算法，scikit-learn 因为约定好接口而赢

关联

numpy —— scikit-learn 的张量底座，所有矩阵运算都走它
scipy —— 提供稀疏矩阵和优化算法，scikit-learn 直接复用
pandas —— 真实业务里数据从这里来，scikit-learn 1.0+ 已原生支持 DataFrame 输入
polars —— 比 pandas 快得多的数据帧库，scikit-learn 通过 NumPy 数组接收它的输出
pyth —— Python 生态语言本身，scikit-learn 是它在 ML 领域的旗舰库

反向链接

dask —— Dask — 让 pandas / NumPy 直接跑在比内存大的数据上
fastai —— fastai — 三行代码做迁移学习
librosa —— librosa — Python 音频分析库与 MFCC/STFT 事实标准
matplotlib —— matplotlib — Python 绘图基石
numpy —— NumPy — Python 科学计算基石
pandas —— pandas — Python 表格数据事实标准
polars —— Polars — Rust 写的列存 DataFrame
pyth —— Pyth Network — 一手数据上链的低延迟预言机
pytorch-lightning —— PyTorch Lightning — PyTorch 训练循环抽象
scipy —— SciPy — NumPy 之上的科学计算工具箱
shap —— SHAP — 用博弈论给每个特征发工资