数据学习笔记
24 Oct 2016数据源 → 数据收集 → 数据清洗 → 数据库/数据表 → 缺失数据补充 → 数据展示
数据展示方法:直方图、线图、点图、分布图等
缺失数据(Unknown Values)补充:
- 删除未知点:当过多参数缺失值时
- 以最频繁值填充:比如平均数mean
- 以关联 columns (variables)数据填充:比如找其他参数接近的值填充(法3比法2好、准确)
- 以相似 rows (observations)数据填充:(以欧式距离)计算距离,根据距离分配权重(用高斯kernel方程:
knnImputation()
),距离增加权重降低 (法4更合理,但要考虑到“不相关变量”的影响和超大数据的计算复杂性→可以用取样本计算做估计)