2月2日消息,近日,spaCy v3.0 正式发布。spaCy 是具有工业级强度的 Python NLP 工具包,被称为最快的工业级自然语言处理工具。它支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。
spaCy v3.0 有以下特点:
具有新的基于 transformer 的 pipeline,这使得 spaCy 的准确率达到了当前的 SOTA 水平;
提供了新的 workflow 系统,帮助用户将原型变为产品;
pipeline 配置更加简单,训练 pipeline 也更加轻松;
与 NLP 生态系统的其他部分有许多新的和改进的集成。
spaCy v3.0 旨在优化用户的应用体验。用户可以使用强大的新配置系统来描述所有的设置,从而在 PyTorch 或 TensorFlow 等框架中编写支持 spaCy 组件的模型。新的 workflow 系统更加适用于步骤复杂的现代 NLP 流程。spcCy v3.0 更新文档地址:https://github.com/explosion/spaCy/releases/tag/v3.0.0