用于处理来自多个容易出错源的数据聚合的算法
|
我正在汇总来自多个不同来源的演唱会列表,但这些列表都不是完整且准确的。某些数据来自用户(例如last.fm),可能不正确。其他数据源非常准确,但可能不会包含所有事件。我可以使用事件日期和城市/州等属性来尝试匹配来自不同来源的列表。我想合理地确定这些事件是否有效。似乎最好的方法是使用尽可能多的不同来源来验证容易出错的来源上的列表。
我不确定这是什么技术术语,因为我想进一步研究。是数据挖掘吗?有没有现有的算法?我了解解决方案永远不会完全准确。
没有找到相关结果
已邀请:
4 个回复
好按紊叉
春驹晴陪
晤默报
寿柬窟年