发布时间:2019-8-27 分类: 电商动态
这篇文章分享了一些关于机器学习的知识,希望能给PM带来好处。
2017年可以说是人工智能爆炸的一年,传统的互联网红利消失了,着名的大工厂BAT正在人工智能上布局。作为互联网PM,据了解,技术变革将不可避免地带来新的机遇。对于大多数互联网PM来说,面对ML(机器学习),DL(深度学习),NLP(自然语言处理)以及各种概念和底层所需的各种数学知识,似乎人们不了解技术。这是气馁的。
但事实并非完全正确。人工智能是一种手段。最终的目标是找到一个可以实际登陆和商业化的场景,以实现其价值,尽管它仍然是技术主导的。但是,可以确信的一点是,要进入这一领域,对基础知识和技术的要求必然高于因特网PM的水平。
我目前是互联网PM。我刚去学校做相关专业。我有一点数学。我还完成了代码设计实现。 “基于BP前馈神经网络的图像识别”将在未来进入AI领域。重新学习和构建AI的知识框架,我希望与大家分享,以了解AI在“高”上的样子。
首先,根据李小来的老师和罗发的理论,学习一个领域的知识是两件事(1)找到一个概念(2)来构造。特别是对于许多不理解这个概念的学生,必须有一个“知识地图”如下:
看到这张大脑地图,一些孩子的鞋子经常被混淆。
什么是机器学习?
什么是深度学习?
机器学习和深度学习有什么区别?
机器学习监督学习模式中的“学习思维”
我们来看看每一个
1.机器学习
概念定义(个人理解):通过大量已知数据(可以标记或不标记)训练算法模型,总结某些数据之间的映射关系(即法则),最后实现对未知数据的智能处理。 (分类,识别,预测等)
例如,我在这里有很多苹果和桃子的图片,每张图片都标有相应的类别,然后将图片输入模型,以便不断优化模型。训练结束后,我们还发现了一些未贴标签的苹果和桃子图片来抛出这个模型,让他做分类来判断它是苹果还是桃子,这是一个完整的机器学习过程(监督)。所谓“地图关系”,即“苹果图片”,“对应苹果标签”,“桃花图片”,“桃花标签”等。
2.基本概念
(1)学习方法
学习风格分为监督学习和无监督学习。如果有监督学习,我们将在模型训练之前手动处理数据,并执行手动预处理和标记(学名:特征提取)。监督学习分为回归和分类。
无监督学习意味着数据直接发送到算法而无需人工预处理。无监督学习方法是“聚类”。
(2)学习过程
训练集(训练样本):我们在训练算法模型时给他数据
验证集:经过训练样本训练后,我们还使用训练样本外的数据来测试算法模型的实际效果
错误:如何检查效果?在ML/DL中,它是根据“错误”的大小来判断的(关于如何计算,将提到下一个)
不合适:模型无法在训练集上获得足够低的误差
过度拟合:训练误差与测试误差(验证集中的误差)之间的差异太大,因此该模型不是一个好的模型,因为它只能用于训练样本和hellip;。
泛化:对其他数据使用训练模型,如果效果好,则是很好的推广
那么问题就来了,适当的合适是什么?
实际上,在整个过程中,随着时间的推移,算法被不断优化,并且训练样本和测试样本中的误差正在减少。但是,如果学习了时间过程,则训练集的误差继续减小,并且验证集的误差开始上升。它是。原因是该模型在训练集上运行得更好!它已经开始学习训练集的噪音和不必要的细节。因此,为了找到正确的“拟合”,最好找到训练误差仍在下降的那个,并且测试误差才开始上升。< ;; point”
3.机器学习和深度学习之间的区别
许多不认识的人可能只知道他们参与了这段关系。深度学习是机器学习,但事实上它远不止于此。 … ..(这太模糊了),从大脑地图中可以看出,事实上,机器学习就方法而言。可以有很多种,例如:逻辑回归,决策树,朴素贝叶斯,线性回归,SVM支持向量机等。它们都是机器学习,我们也看到底部有一个“神经网络”。他们的队伍属于上面列出的相同类别。
神经网络的概念可分为“浅层神经网络”和“深层神经网络”
“浅层神经网络中最经典的网络”是“BP前馈神经网络”
“深度神经网络”可以理解为我们所谓的“深度学习”,而深度神经网络则分为许多网络结构,如DNN,CNN和RNN
。但是,这里应该注意深度和深度之间的差异不仅是“网络层”之间的差异,更重要的是,与所有其他机器相比,“深度学习”(深度神经网络)是最强大的东西:/p>
他可以执行数据的特征提取<预处理“。 (这节省了手动数据注释的麻烦,并且可以提取矢量和空间矢量以获得更多维度和复杂特征,便于后续处理)。这也是他有很多层的原因,因为额外的网络层数用于执行数据特征提取预处理
相信一步,结合上面的脑图,我们可以区分“机器学习”和“深度学习”,真正的区别不是简单的包容关系。
4.返回
个人觉得回归作为理解机器学习过程的过程是对理解的一个很好的介绍。
所谓的“回归”似乎非常深奥,但事实并非如此。我正在给栗子:
y=2x这个一元函数,假设我们现在不知道他的斜率w=2,我给你5个数据y=2,4,6,8,10,相应的x是1,2,3,4,分别。你自动认为它们之间有2倍的对应关系吗?是!你“自动假设他们有一定的关系,这个过程称为“返回”;并且你假设它们的关系是“2次”,这是“线性回归”。
所以回归的定义(个人理解):我们看到很多事实或数据,假设它们之间存在某种对应关系。机器学习中的回归(监督学习)是试图让计算机在大量数据之间找到这种对应关系,那么如何找到它呢?
让我们首先假设一个关系:y=wx + b,其中w是权重,b是偏移量,w是1Xn矩阵向量,x是nX1的矩阵向量(这些概念没有在数学上解释,为什么x这不是一个实数,而是一个矩阵。这是因为我们在实际数据中有超过N维和hellip。描述这个数据特征不仅仅是一维的。
现在我想判断一个橙色的“好坏”,y代表“好坏”,它们都被标记了。 x是表示[大小,颜色,形状]的三维矩阵向量。然后用公式代替:
y=w1X尺寸+ w2X颜色+ w3X形状+ b(这里我们假设b为0)
然后,任务是找到适当的w1,w2和w3值,以准确描述橘子的质量与大小,颜色和形状之间的关系。那么你如何确定它是否合适?
由“损失函数”定义(此处未列出损失),Los的含义是将样本中的所有x替换为wx + b中的“公式所假设的”(这次是w的值和b几乎绝对不准确,然后值和真y值之间的差值就是损失函数Loss。那么损失越小,此时w和b的值越接近真“线性关系”。因此,我们最终机器学习的目标是求解w和b的相应值,使得损失更小(当然,无限接近0),之后,它是机器学习模型< ;; training end”!使用验证集验证拟合是否过度测试以验证模型的泛化能力
当然,这里有几点要解释:
(1)这只是最简单的机器学习板栗描述,侧重于机器学习中回归的基本思想
(2)我们在这里没有说如何找到相应的w和b之间的映射关系,使得Loss最小(或合格)。后来我分享了“BP前馈神经网络的梯度下降”,将简要介绍。基本思维过程
(3)如果您分析的数据本身是非线性关系,并且您假设它们是线性的并且使用相应的模型进行训练,那么结果必须是“欠拟合”(因此表示未适应) :你的想法不符合世界的现实…)
以上分享了一些关于机器学习的基本概念,后续不断更新,希望大家走在AI的路上!
本文最初由@Free发布。未经许可,禁止复制。
该地图来自PEXELS,基于CC0协议