期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
两种面向推荐系统的数据压缩方法 被引量:5
1
作者 刘博 刘晓光 +1 位作者 王刚 吴迪 《计算机工程与科学》 CSCD 北大核心 2016年第11期2183-2190,共8页
今日头条的服务器每天都会产生规模庞大的训练数据,为方便进行训练,这些数据都具有特定的格式和分布特征。使用不同类型的通用压缩算法(字典类型及非字典类型)进行测试,发现单独任何一种算法都无法在满足业务需求(速率需求和CPU占比等)... 今日头条的服务器每天都会产生规模庞大的训练数据,为方便进行训练,这些数据都具有特定的格式和分布特征。使用不同类型的通用压缩算法(字典类型及非字典类型)进行测试,发现单独任何一种算法都无法在满足业务需求(速率需求和CPU占比等)的同时获得较为可观的压缩比。针对今日头条的训练数据,提出了分段聚类压缩和Hash recoding压缩两种策略。实验结果表明,分段聚类压缩方式在更好地保证了压缩率的同时提高了压缩速率的目的;Hash recoding压缩方式则更好地达到了以少量压缩速率的损失换取更可观的压缩率的目的。分段聚类方式搭配Gzip压缩算法的组合能使压缩速率提高300%以上;Hash recoding方式匹配Snappy压缩算法能使压缩率缩小50%以上。根据实际需求,不论选择哪种策略,对于降低今日头条的运营成本,提升业务处理的效率,提供更好的用户体验,都有一定意义。 展开更多
关键词 分段聚类压缩 哈希值编码压缩 字典压缩 训练数据 GZIP Snappy
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部