自然语言处理(NLP)——哈工大pyltp的安装与使用教程
哈工大语言技术平台(Language Technology Platform, LTP)是哈尔滨工业大学社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP还提供了包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等NLP技术。
哈工大语言云演示平台:http://www.ltp-cloud.com/
GitHub代码:https://github.com/HIT-SCIR/pyltp
文档:https://pyltp.readthedocs.io/zh_CN/latest/
安装
我的电脑环境:Windows64位,python 3.6
操作演示环境:pycharm
下载内容
- 模型下载:下载最新版的模型ltp_data_v3.4.0
下载地址:http://ltp.ai/download.html

2.下载LTP:pyltp-0.2.1-cp36-cp36m-win_amd64.whl
下载地址:https://download.csdn.net/download/xiaoxy97/10525781
备注:需要和自己电脑python版本对于,我的是python3.6
安装流程
1、将下载的两个文件解压(文件夹名称不要用中文)

2、将pyltp-0.2.1-cp36-cp36m-win_amd64.whl拷贝到自己python安装目录下的Scripts文件夹中(我的是D:\python\Scripts)


3、进入cmd命令行,进入自己python安装目录下的Scripts文件夹中(我的是D:\python\Scripts)。然后执行命令行:
pip.exe install pyltp-0.2.1-cp36-cp36m-win_amd64.whl

4、出现Successfully installed pyltp-0.2.1说明安装成功
5、检验:进入自己python安装目录下的Scripts文件夹中(我的是D:\python\Scripts)。然后执行命令行:
pip.exe list
出现如图所示情况表示安装成功

实际操作
1、打开charm,创建新的python项目
运行如下代码:
#itp-cws 分词方法
from pyltp import Segmentor
def segmenter(sentence):
segmenter = Segmentor()
#加载模型
segmenter.load(r'D:/NLP/ltp_data_v3.4.0/cws.model')
words = segmenter.segment(sentence)
words_list = list(words)
segmenter.release()
return words_list
if __name__ == "__main__":
sentence = r"我是一个喜欢吃串串的程序员小哥哥"
words = segmenter(sentence)
print(words)
备注:在代码:segmenter.load(r’D:/NLP/ltp_data_v3.4.0/cws.model’)中,模型地址就是我们最初下载的ltp_data_v3.4.0中的模型地址(cws.model是分词模型)

