暴力解决NLTK下载问题(没有用)
参考:https://www.pianshen.com/article/31351658377/
一、问题描述
本人在开展端到端问题生成实验(https://github.com/patil-suraj/question_generation),在配置Requirements时,执行到最后一行代码“python -m nltk.downloader punkt”时报错如下:LookupError:********************************************************************** Resource punkt not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download('punkt') For more information see: https://www.nltk.org/data.html Attempted to load tokenizers/punkt/PY3/english.pickle Searched in: - '/home/pcx/nltk_data' - '/home/pcx/anaconda3/envs/xj-aqg/nltk_data' - '/home/pcx/anaconda3/envs/xj-aqg/share/nltk_data' - '/home/pcx/anaconda3/envs/xj-aqg/lib/nltk_data' - '/usr/share/nltk_data' - '/usr/local/share/nltk_data' - '/usr/lib/nltk_data' - '/usr/local/lib/nltk_data' - '' File "<stdin>", line 1 LookupError:*
问题分析:源于服务器端对网址(https://github.com/nltk/nltk_data)的阻止,显示,修改崔锋哲博士的服务器安全配置不太可行,但是,通过分析上述报错信息发现,系统尝试从以下文件夹搜索文件“tokenizers/punkt/PY3/english.pickle”,因此,解决办法是将该文件english.pickle拷贝到以上任意文件夹既可,本文拷贝到“/home/pcx/anaconda3/envs/xj-aqg/nltk_data/”
二、解决问题
访问官方https://github.com/nltk/nltk_data,点击Download ZIP即可得到一个压缩文件“nltk_data-gh-pages.zip”,
解压该压缩文件后从中找到\nltk_data-gh-pages\packages\tokenizers\punkt.zip,文件punkt.zip就是我们需要的文件,将该文件解压后得到文件夹punkt,将其拷贝到/home/pcx/anaconda3/envs/xj-aqg/nltk_data/”中,文件夹的层次结构更新为/home/pcx/anaconda3/envs/xj-aqg/nltk_data/punkt”
三、解决问题【最终】
已经成功加载了文件并将其存储到变量中后,您可以使用方法对文本进行分词。以下是一个使用示例代码:
运行上述代码,您将得到以下输出: