脚本宝典收集整理的这篇文章主要介绍了【数据科学原理与实践】数据准备,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
知识点来源课程PPT
step 1:导入数据,使用 read.table()
方法。
d<-read.table(paste('http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data',sep=''),stringsAsFactors = F,header=F)
step 2:根据说明文档,设置列名
colnames(d)<-c('Status.of.existing.checking.account','Duration.in.month','Credit.history', 'Purpose','Credit.amount','savings account/bonds','Present.employment.since','Instal1ment.rate.in.percentage.of.disposab1e.income','Persona1.status.and.sex','other.debtors/guarantors','Present.residence.since','Property','Age.in.years','other.instal1ment.plans','Housing' ,'Number.of.existing.credits.at.this.bank', 'Job','Number.of.people.being.liable.to.provide.maintenance.for','Telephone','foreign.worker','Good.Loan' )
现实世界中的数据通常是脏的:
数据探索的方法:
缺失值:本身就是有信息量的。处理方法:删除或替换为其他值 无效值:可能是坏数据输入,也可能是某种表示“未知”的标志值。处理方法:删除或转换为有用值。 离群值:脱离了期望的数据范围。处理方法:删除或转化为有用值或保留
summary()
可以得到最小值、最大值、平均值、中位数等信息
直方图:ggplot()+geom_histogram()
密度图:ggplot()+geom_denisty()
。当数据以百分数方式变化或以数量级方式变化比按绝对单位变化更重要时,应该使用对数刻度。scale_x_log10()
柱状图:ggplot()+geom_bar()
线条图、散点图、六角箱图(高密度图)、两个类别的柱状图
概要统计发现有关数据范围、度量单位、数据类型和缺失值或无效值的问题。可视化更进一步了解数据分布和变量之间的关系。
step 1:通过数据探索,检测出缺失数据的位置 step 2:对缺失变量进行处理
用来选择一个样本总体的子集来代表全部数据的处理过程。采样的要点:采样的数据要能够准确代表全部数据 必要性:
随机采样:每个成员都有平等被选择的机会 系统采样:以固定间隔选择个体 分层采样:确保样本每个亚组都有适当的代表性 整群采样:每个亚组都具有和整个样本相似的特征,然后随机选择整个子组
训练集:为模型构建算法的提供数据,以便这些算法能够设置正确的参数来预测结果变量 测试集:为完成的结果模型提供数据,用来验证该模型的预测是否准确
以上是脚本宝典为你收集整理的【数据科学原理与实践】数据准备全部内容,希望文章能够帮你解决【数据科学原理与实践】数据准备所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。