脚本宝典收集整理的这篇文章主要介绍了多标签学习之白话版,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
简单的机器学习, 就是把人类的学习方式教给机器 ---- 斯 ⋅ cdot ⋅ 沃索迪.
每次只针对一个标签进行训练. 我们就获得了猫、狗、河豚等等各自的模型. 这样做的缺点在于: 不能有效利用标签之间的相关性. 如: 根据某张照片, 机器不确定里面的动物是 <猫和海狸> 还是 <猫和老鼠>. 由于在训练集中 <猫和老鼠> 更出现次数更多, 模型更愿意做出相应的判断. 在这里, <猫和老鼠> 的相关性, 称为 标签相关性. 因此, 如何有效地利用标签相关性进行模型的训练, 是多标签学习的核心问题. 同时注意, 标签间不但可以正相关, 还可以互斥, 如 <北极甜虾和小丑鱼>.
从训练集中, 挖掘动物的成对相关性 (如: 猫与老鼠, 猫与河豚), 如: 60 张图片中有猫, 200 张图片里面有老鼠, 50 张图片同时有猫和老鼠, 则出现猫的时候很可能有老鼠 ( 5 6 ≈ 83.3 % frac{5}{6} approx 83.3% 65≈83.3%), 但反之不然 ( 50 200 = 25 % frac{50}{200} = 25% 20050=25%). 需要注意: 这类信息仅仅是对图片识别结果的一种补充、校正, 而不能代替前者. 还可以挖掘高阶关联, 如: 已知出现猫和狗, 再出现老鼠的可能性有多大? 相应的方法, 都可看作是与关联规则挖掘的结合.
前面假设训练集的标签是完整的, 即我们知道每张照片里面有哪些动物. 但在实际数据中, 仅有少量标签是已知的. 例如: 总共的标签数是 2000 (实际动物类别比这个还多), 但某张图片的标签信息仅为: 有猫、狗、老鼠, 没有河豚、海狸鼠, 其它的不知道有没有. 这是因为打标签需要人工完成, 全部标签信息给出太累了! 另外, 不同的照片, 给的标签不同, 这是因为打标注的人有自己更为熟悉的动物. 如何从具有大量缺失标签的数据集中学习到有效的模型, 是多标签学习通常面临的挑战.
采用缺失值填补的方式, 将训练集的标签数所都补上, 然后就可以使用已有的多标签学习方式. 可使用矩阵分解, 我还没想好如何用白话来解释.
如里使用神经网络作为预测模型, 只需要在缺失值相对应的损失设为 0 即可. 这个我也没想好如何写成白话.
未完待续
以上是脚本宝典为你收集整理的多标签学习之白话版全部内容,希望文章能够帮你解决多标签学习之白话版所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。