查看训练集中的数据分布, 可对每个特征进行一些分析, 如timestamp的分布较为稳定,可以不做特殊处理, 而点击的操作系统的分布具有极强的偏态性, 之后可以对这个属性进行一定的特殊处理

数据分析

  1. 对用户的重复点击进行分析
    最终可以发现有99%的用户没有重复阅读过文章, 可以进行一个特征的构建
  2. 用户点击环境变化分析
    该处的分析主要是观察一下用户行为的稳定性
    而观察可视化结果也可以发现大多数用户的点击环境是比较稳定的. ==学习资料说可以构建统计特征,没有太懂什么意思😂==
  3. 用户点击新闻数量的分布
    这里的分析可以用来进行活跃用户与非活跃用户划分的依据, 比如说阅读数量在K以上的可以看作活跃用户,否则认定为非活跃用户, 而进行用户的区分之后就可以对不同活跃度的用户进行分开处理 ==更加全面的是再结合上点击时间==
  4. 新闻点击次数分析
    同样的,这里的分析也是为了进行热门新闻的筛选, 对于热门新闻而言, 可能和某个用户的爱好无关, 但是就算如此, 从实时性角度考虑也是有很大概率将这种新闻推荐给用户的.
  5. 新闻共现频次:两篇新闻连续出现的次数
    此处可以用来计算两篇新闻的关联性(相似性), 那么对于经常同时出现的两篇新闻而言, 如果某篇新闻被用户阅读, 那么我们可以大胆地推理另一篇新闻也被这个用户所阅读.
  6. 新闻文章信息
    1. 进行新闻种类出现次数的统计
    2. 进行新闻字数分布的统计
  7. 用户点击新闻类型的偏好
    此特征可以用于度量用户的兴趣是否广泛
  8. 用户查看文章的长度的分布
    通过统计不同用户点击新闻的平均字数,这个可以反映用户是对长文更感兴趣还是对短文更感兴趣
  9. 用户点击新闻的时间分析
    这个分析可以用来用来分析用户点击新闻的频率和点击新闻的喜好(个人觉得?)

0 条评论

发表评论