笃行谊 盛年不重来,一日难再晨。及时当勉励,岁月不待人。

数据学习笔记

数据源 → 数据收集 → 数据清洗 → 数据库/数据表 → 缺失数据补充 → 数据展示

数据展示方法:直方图、线图、点图、分布图等

缺失数据(Unknown Values)补充:

  1. 删除未知点:当过多参数缺失值时
  2. 以最频繁值填充:比如平均数mean
  3. 以关联 columns (variables)数据填充:比如找其他参数接近的值填充(法3比法2好、准确)
  4. 以相似 rows (observations)数据填充:(以欧式距离)计算距离,根据距离分配权重(用高斯kernel方程:knnImputation()),距离增加权重降低 (法4更合理,但要考虑到“不相关变量”的影响和超大数据的计算复杂性→可以用取样本计算做估计)