学术报告: 机器学习的常用招数

编程入门行业动态更新时间:2024-10-18 03:31:13

学术报告: 机器学习的常用招数

摘要: 传统计算机程序将人类的知识直接教给机器, 通常可以解决一些确定性的问题; 机器学习则模拟人类的学习方式, 从数据中总结出规律, 常用于解决现实中更为广泛存在的不确定性问题. 本讲座介绍惰性学习、决策树、支持向量机、BP神经网络、深度学习等常用方法, 并讨论这些方法的具体应用如植物分类、手写字识别、图片转换等.

1. 确定性与不确定性问题

1.1 确定性问题

动机: 科学计算 ( π \pi π)、信息管理
解决方案: 将规则写成程序
例 1: 工资的计算
例 2: 闰年的判断查看完整代码

		if (n % 4 != 0) {return false;} else if (n % 400 == 0) {return true;} else if (n % 100 == 0) {return false;} else {return true;} // Of if

1.2 不确定性问题

动机: 现实中广泛存在预测、诊断等任务
解决方案: 从数据中学习规律
例 1: 天气预报
例 2: 新冠检测 (有时需要检测几次)
例 3: 人脸识别、步态识别
讨论: 神学、艺术、科学
通过占卜预测天气是神学 (完全不靠谱)
看云预测天气是艺术 (月晕主风，日晕主雨. 有一定准确性)
查百度预测天气是科学 (相当准确)

2. 惰性学习

主要思想: 不学习, 从已知数据中找相似

图 1. 鸢尾花数据

数据预处理

表 1. 结构化数据

No.	萼片长度	萼片宽度	花瓣长度	花瓣宽度	类别
x 1 x_1 x1	5.1	3.5	1.4	0.2	Iris-setosa
x 2 x_2 x2	4.6	3.4	1.4	0.3	Iris-setosa
x 3 x_3 x3	6.6	2.9	4.6	1.3	Iris-versicolor
x 4 x_4 x4	5.2	2.7	3.9	1.4	Iris-versicolor
x 5 x_5 x5	6.9	3.2	5.7	2.3	Iris-virginica
x 6 x_6 x6	5.6	2.8	4.9	2.0	Iris-virginica

x 7 = [ 5.5 , 2.7 , 4.8 , 1.6 ] x_7 = [5.5, 2.7, 4.8, 1.6] x7=[5.5,2.7,4.8,1.6], 它属于哪个类别? 计算与已有数据的欧氏距离, 选择最近的 k k k 个参考即可.
优点: 数据多时效果好
缺点: 速度慢 (开卷考试最辛苦)