唯一字数

|| 这是一个通用的问题,适用于(可能)任何高级编程语言。 情况如下: 假设我有一个字符串数组。说,我设法将一个短故事中的50万个字符串放入一个数组中(只是假设您没有输入格式的选项)。因此,很可能会有任意数量的重复项。 我想使用此字符串数组并创建另一个包含该数组的唯一子集(?)的数组(即:无重复项)。在这种情况下,输入和输出都必须是数组,因此可能会限制您使用各种选项。 在性能方面,最快的方法是什么?我目前正在使用线性搜索来检查单词是否已经存在,但是由于它是线性搜索,因此我认为可能会有更快的方法,尤其是当我要处理的字符串数量不合理时。就像一本更大的小说!     
已邀请:
使用哈希集可能是最明智的做法-复杂度应为O(N)。 注意:大多数高级编程语言都包含一个函数的实现,该函数可从数组中删除重复项,例如PHP。     
如果要在其中放入成千上万个单词,那么有向无环单词图是我所知道的最有效的数据结构。 但是从概念上讲,它是一个非常简单的数据结构。     

要回复问题请先登录注册