数据准备

加载数据

step 1：导入数据，使用 read.table() 方法。

d<-read.table(paste('http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data',sep=''),stringsAsFactors = F,header=F)

step 2：根据说明文档，设置列名

colnames(d)<-c('Status.of.existing.checking.account','Duration.in.month','Credit.history', 'Purpose','Credit.amount','savings account/bonds','Present.employment.since','Instal1ment.rate.in.percentage.of.disposab1e.income','Persona1.status.and.sex','other.debtors/guarantors','Present.residence.since','Property','Age.in.years','other.instal1ment.plans','Housing' ,'Number.of.existing.credits.at.this.bank', 'Job','Number.of.people.being.liable.to.provide.maintenance.for','Telephone','foreign.worker','Good.Loan' )

探索数据

现实世界中的数据通常是脏的：

数据存在错误和不一致
数据存在缺失
名称/属性存在二义性

数据探索的方法：

处理缺失值、无效值以及离群值
概要统计方法：均值和中位数、方差和计数
可视化方法：数据的图示
数据概要和可视化的组合方法

缺失值：本身就是有信息量的。处理方法：删除或替换为其他值无效值：可能是坏数据输入，也可能是某种表示“未知”的标志值。处理方法：删除或转换为有用值。离群值：脱离了期望的数据范围。处理方法：删除或转化为有用值或保留

概要统计方法

summary()可以得到最小值、最大值、平均值、中位数等信息

可视化：

单个变量的分布：

直方图：ggplot()+geom_histogram() 密度图：ggplot()+geom_denisty()。当数据以百分数方式变化或以数量级方式变化比按绝对单位变化更重要时，应该使用对数刻度。scale_x_log10() 柱状图：ggplot()+geom_bar()

两个变量分布：

线条图、散点图、六角箱图（高密度图）、两个类别的柱状图

总结

概要统计发现有关数据范围、度量单位、数据类型和缺失值或无效值的问题。可视化更进一步了解数据分布和变量之间的关系。

管理数据

清洗数据

处理缺失值（忽略还是补全？）

删除整行记录或忽略整个属性
人工填充
- 使用一个全局值代替
- 使用平均数或中位数等代替（值随机性缺失）
- 用最大可能值推理（eg. 找最相似的点推理或使用贝叶斯或决策树推理）

step 1：通过数据探索，检测出缺失数据的位置 step 2：对缺失变量进行处理

转换数据目的：使数据更容易建模且更容易理解转换方法：

连续数据离散化（一些连续变量是否落入某个范围比确切值更重要）
规范化（当相对值比绝对值更有意义）
对数变换（针对倾斜分布和宽分布）

采样数据

用来选择一个样本总体的子集来代表全部数据的处理过程。采样的要点：采样的数据要能够准确代表全部数据必要性：

在开发和精炼一个模型的过程中，在全集上训练模型之前可以很容易在小的采样子集进行测试和调试代码
减少数据量
更容易可视化，处理更快，模式更清晰，提高探索式分析的效率
用于划分测试集和训练集

随机采样：每个成员都有平等被选择的机会系统采样：以固定间隔选择个体分层采样：确保样本每个亚组都有适当的代表性整群采样：每个亚组都具有和整个样本相似的特征，然后随机选择整个子组

训练集：为模型构建算法的提供数据，以便这些算法能够设置正确的参数来预测结果变量测试集：为完成的结果模型提供数据，用来验证该模型的预测是否准确

脚本宝典总结

以上是脚本宝典为你收集整理的【数据科学原理与实践】数据准备全部内容，希望文章能够帮你解决【数据科学原理与实践】数据准备所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: 欧拉路径的判断（并查集，DFS）下一篇:java3.5

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多