一种数据去重方法及装置
发布时间: 2021-11-12
来源: 科创项目库
基本信息
本发明实施例公开了一种数据去重方法,包括:接收用户发送的待保存数据,按照预设单位将待保存数据切分成多个数据块,并计算多个数据块中的每个数据块的指纹;根据所述用户的用户特征从已保存的用户库中确定至少一个对比 用户,其中,所述至少一个对比用户与所述用户拥有至少一个相同的用户特征;将所述至少一个 对比用户对应的指纹作为样本对比库;将多个数据块中的每个待比较数据块的指纹与样本对比 库中的指纹进行比较;存储多个数据块中的差异数据块;其中,所述差异数据块中的每个数据块 的指纹与所述至少一个对比用户对应的指纹均二不同。本发明实施例还公开了 一种数据去重装采用本发明,可在保障重删率的前提下,减小今匀样本对比库的容量。