你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

如何构建IMS开源语料库工作台和NLTK可读语料库？

目前我有一堆.txt文件。在每个.txt文件中，每个句子由换行符分隔。如何将其更改为IMS CWB格式，以便CWB可以读取？以及nltk格式。有人可以带我到howto页面去做吗？或者是否有指导页面这样做，我已经尝试阅读手册，但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf 这是否意味着我创建一个数据和注册表目录，然后我运行cwb-encode命令，它将全部转换为vrt文件？它一次转换一个文件？我如何编写脚本来运行目录中的多个文件？

已邀请:

1 个回复

樊熄忙暖

从NLTK可读的语料库中生成cwb的“垂直化”格式很容易：

from nltk.corpus import brown

out = open('corpus.vrt','w')
for sentence in nltk.brown.sents():
     print >>out,'<s>'
     for word in sentence:
          print >>out,word
     print >>out,'</s>'
out.close()

从那里，您可以按照CWB网站上的说明进行操作。

要回复问题请先登录或注册

如何构建IMS开源语料库工作台和NLTK可读语料库？

1 个回复

发起人

corpus

问题状态

如何构建IMS开源语料库工作台和NLTK可读语料库？

与内容相关的链接

1 个回复

发起人

corpus

问题状态