洪水控制,检查过去的消息与最新消息在%中的相等程度

|| 我正在为聊天系统进行洪水控制,其中一个想法是根据成员在X分钟内发送的最新消息来检查过去的消息是否相等。 因此,如果成员的最新消息是在过去消息的5分钟内发送的,则它将检查过去消息与他发送的最新消息是否相等,如果命中率达到或超过80%,他将无法讲话一会儿。 问题是我不知道这种算法是什么样子,我也不知道这是否是一种有效的方法... 让我们看事实,用户发送:
[00:00:01] MemberX: Hi everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi everyone ! 1
因此,在上述情况下,用户将在X分钟内删除其语音访问权限。 我想我可以对消息进行校验和,该消息将适用于顺序消息,例如在末尾添加文本的消息。 我如何计算匹配百分比? 过去消息的字节长度与最新消息的字节长度相匹配吗? 例: 过去的消息10个字节 最新消息14个字节 校验和最多匹配9个字节:“ 1” 现在,让我们再努力一点:
[00:00:01] MemberX: Hi hey everyone !
[00:00:02] MemberX: Hi everyone ! MUAH
[00:00:03] MemberX: Hi 123 everyone !
我认为,在第二种情况下,校验和将失败并且根本无法使用。 有没有很好的算法来捕捉这样的洪水?我不想捕获其中的100%,但至少要保留一小部分以使房间更清洁。 它的第一部分适用于许多滥用者,但是一些聪明的人会想到第二种方式,也许还有很多其他方式,这只是我可以实施的初步想法。 我不想限制所有用户使用洪泛时间限制,因为他们中的大多数人确实会快速键入。我只想吸引人们在短时间内反复发送可重复的文本。 所以我的问题是,什么是克服此类洪水的好算法?     
已邀请:
        许多IRC服务器使用“泄漏桶”方法将用户限制为恒定速率。他们跟踪用户最后发送的消息之间的时间间隔,并使用该时间来计算“费率”。通常将其实现为要发送的每用户消息队列。如果用户超出速率,则将其限制,除非用户超出速率超出给定值,此时将被禁止。 IRC上的另一种常见方法是简单地跟踪最近的N条消息,如果超出了某些可重复性阈值(即,同一消息一遍又一遍)以踢打/禁止用户。     
        我可能会看一下http://en.wikipedia.org/wiki/Levenshtein_distance,然后将接收到的字符串中的所有单词的得分与旧字符串相结合。 只有马上想到的事情。     

要回复问题请先登录注册