参考网址

第3章-一元线性回归_哔哩哔哩_bilibili

一元线性回归

1
2
3
4
算法原理
线性回归与极大似然估计
求解w与b
凸函数优化(优化角度定义)
1
2
线性回归损失函数: E(w, b) = Σ(yi - f(xi))^2
极大似然估计: L(theta) = ⫪P(xi; theta)

例题

1
2
3
样本符合正态分布 X ~ N(u, sigma^2)

总体思路是,先假设为一个一元线性回归, y = wx + b + sigma,然后由于符合正态分布,转化为对数函数,然后求换成一下形式

znrPNn.png

znrdUA.png

机器学习三要素

1
2
3
模型: 根据具体问题, 确定假设空间
策略: 根据评价标准, 确定最优策略(通常会产生一个损失函数)
算法: 求解损失函数, 确定最优模型

多元线性回归

1
2
由最小二乘求解损失函数Ew
求解w

对数几率

1
2
3
算法原理
损失函数极大似然估计推导
损失函数信息论推导

信息论概念

相对熵(描述两个分布的差异)

1
最小化相对熵的方式达到最接近模拟分布, 最小化型对上等价于最小化交叉熵

决策树

1
2
3
4
算法原理
ID3决策树
C4.5决策树
CART决策树

原理

1
2
3
从逻辑角度一堆的if else语句组合
从几何角度: 根据魔种规则划分特征空间
最终目的: 将样本越分越纯

ID3决策树

1
2
3
4
5
6
7
8
9
通过信息熵来表现其样本纯度,主要思路是,由于条件越来越多,对于它的描述越来越清晰,也就越来越纯,也就是信息熵最小
H(X) = -Σp(x)logbp(x) 越大表示越不确定
信息熵
Ent(D) = -Σpklog2pk
条件熵
Σ|Dv|/|D| * Ent(Dv)
信息增益
Gain = Ent(D) - Σ|Dv|/|D| * Ent(Dv)
以信息增益为准则来划分属性的决策树

C4.5对ID3的优化

1
2
3
4
5
6
7
使用ID3时采样样本太少,取值数目过多,会导致过拟合


类似使用增益率代替信息增益
Gain_ratio(D, a) = Gain(D, a) / IV(a)

IV(a) = -Σ|Dv|/|D| * log2|Dv|/|D|

CART

1
基尼值越小, 遇到异类的概率越小, 纯度越高

神经网络

1
2
3
4
5
M-P神经元
输入n个输入加权和,进行比较,经过激活函数(阶跃函数, sigmoid),得到输出
y = f(wTx + b)
感知机(sgn作为激活函数)
神经网络(多个神经元神经网络)

感知机

1
2
3
4
5
6
7
y = sgn(wTx + b)
构建一个超平面,也就是说只可以求解线性可分数据集

法相空间,法向正空间与负空间,也就是说对应slam地图中我们可以将地图分为墙外空闲区域与机器人无法直接到达区域


问题在于,搭建单层网络指挥导致只可以区分线性可分数据集

神经网络

1
2
3
4
5
6
7
8
9
10
11
12
13
本质是通过多层y=f(x)网络, 拟合任意线性不可分数据集

问题:
1. 多深多宽
2. 结构怎样设计
3. 输出结果如何解释, 一般只有直觉解释

多层前馈网络:
每层于下一层全互连,神经元不存在本层互连

提取有用特征,向全自动分析迈步

BP算法: 通过梯度下降求局部最小

支持向量机

1
2
3
4
5
6
7
8
9
10
11
算法原理
:线性可分数据集, 找距离正负样本都最远的超平面,相对于感知机解唯一,且不偏不倚,泛化性能更好
超平面:
: wTx + b = 0 (w为法向量, b为平移向量)
几何间隔
: r = yi(wTxi + b)/||w||
数据集几何间隔: 所有几何间隔最小值
支持向量机
: y = sign(wTx + b)

*注意学习凸优化问题: 拉格朗日乘子法

软间隔与支持向量机回归

1
2
3
4
5
6
算法原理
: 允许部分样本犯错,弹药尽可能少
软间隔
: min 0.5||w||^2 + CΣl/1(0/1)(yi(wTxi + b) - 1)
支持向量机回归
: 找到一个超平面使所有点到其距离最小

贝叶斯分类器

1
2
3
4
5
6
7
8
9
贝叶斯决策论
: 在概率框架下实施决策(概率与误判损失) 条件风险 总体条件风险最小
: h*(x) = argminR(c|x) h*为贝叶斯最优分类器
: 最大化后验概率 = 最小化条件风险
生成式模型和判别式模型
朴素贝叶斯分类器
: 假设特征相互独立
: 实际对应slam的贝叶斯滤波,关注先验概率,最大似然得到最大后验概率
半朴素贝叶斯分类器

集成学习

1
2
3
4
5
6
7
8
9
10
11
个体与集成
: 通过多个个体学习器预测进行融合, 使用个体学习器众数作为结果,返回
: 君子和而不同
: 个体学习器数量越大越好,个体学习器误差不等于0.5
Adaboost算法
: Hx = Σa*h
: 目的是为了增量式优化各个学习器权重a,最终优化所有权重,有点类似于贝叶斯滤波,加权传播的形式
: 二分类的
Bagging
随机森林
多样性增强