一串英文文本的熵如何表示低质量?
杰夫阿特伍德最近发布了一个链接到CodeReview帖子,他想知道社区是否可以改善他的“计算字符串熵”代码片段。他解释说,“我们正在计算Stack Overflow中几个字符串的熵,作为低质量的标志。”
他的方法的要点似乎是,如果计算字符串中唯一字符的数量,则表示熵(代码取自PieterG的答案):
int uniqueCharacterCount = string.Distinct().Count();
我不明白唯一字符数如何表示字符串的熵,以及字符串的熵如何表示低质量。我想知道在这方面有更多知识的人是否可以解释阿特伍德先生想要完成的事情。
谢谢!
没有找到相关结果
已邀请:
5 个回复
悲帽慑彤电
车料
或
这样的帖子,而不是抓住所有低质量的帖子。 至于“独特的字符数如何表示熵?” - 它不是,真的。最受欢迎的答案完全忽略了这一点。 请参阅https://codereview.stackexchange.com/questions/868#878和https://codereview.stackexchange.com/questions/868#926
臀夯脖锑
凄挡
才脊烽馈低