如何构建IMS开源语料库工作台和NLTK可读语料库?
目前我有一堆.txt文件。在每个.txt文件中,每个句子由换行符分隔。如何将其更改为IMS CWB格式,以便CWB可以读取?以及nltk格式。
有人可以带我到howto页面去做吗?或者是否有指导页面这样做,我已经尝试阅读手册,但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf
这是否意味着我创建一个数据和注册表目录,然后我运行cwb-encode命令,它将全部转换为vrt文件?它一次转换一个文件?我如何编写脚本来运行目录中的多个文件?
没有找到相关结果
已邀请:
1 个回复
樊熄忙暖
从那里,您可以按照CWB网站上的说明进行操作。