E foi lançada a spaCy 3 com novo sistema de configuração e muito mais. Confira as novidades dessa biblioteca de processamento de linguagem natural.
A biblioteca spaCy é projetada para fornecer uma API persistente que não está vinculada aos algoritmos usados e pronta para uso em produtos reais. A biblioteca usa os avanços mais recentes em PNL e os algoritmos mais eficientes disponíveis para processar informações.
Se um algoritmo mais eficiente aparecer, a biblioteca é passada para ele, mas essa transição não afeta a API ou os aplicativos.
Na prática, o projeto pode ser usado para construir autoresponders, bots, classificadores de texto e vários sistemas de diálogo que determinam o significado das frases.
Uma característica do spaCy também é uma arquitetura projetada para processar documentos inteiros, sem pré-processamento em pré-processadores que dividem o documento em frases. Os modelos são oferecidos em duas versões: para máxima produtividade e máxima precisão.
As principais características do spaCy:
- Suporte para cerca de 60 idiomas.
- Modelos já treinados disponíveis para diferentes idiomas e aplicações.
- Aprendizagem multitarefa utilizando transformadores previamente treinados como BERT (Bidirectional Encoder Renderings of Transformers).
- Suporte para vetores pré-treinados e incorporação de palavras.
- Alto rendimento.
- Modelo de sistema de treinamento on-the-job pronto para usar.
- Tokenização com motivação lingüística.
- Componentes prontos para uso estão disponíveis para vincular entidades nomeadas, marcar partes do discurso, classificar texto, analisar dependências baseadas em tags, dividir frases, marcar partes do discurso, análise morfológica, lematização, etc.
- Suporte para estender a funcionalidade com componentes e atributos personalizados.
- Suporte para criar seus próprios modelos com base em PyTorch, TensorFlow e outras estruturas.
- Ferramentas integradas para vinculação de entidade nomeada e visualização de sintaxe (NER, reconhecimento de entidade nomeada).
- Processo simples de empacotamento e implantação de modelos e gerenciamento de fluxo de trabalho.
- Alta precisão.
A biblioteca é escrita em Python com elementos em Cython, uma extensão do Python que permite a chamada direta de funções na linguagem C.
O código do projeto é distribuído sob a licença do MIT. Os modelos de idioma estão prontos para 58 idiomas.
Agora, a Explosion AI anunciou o lançamento da nova versão da biblioteca gratuita “spaCy” que possui uma implementação de algoritmos de processamento de linguagem natural (PNL).
Novidades da spaCy 3.0
O lançamento do spaCy 3.0 se destaca pela implementação de famílias de modelos retreinados para 18 idiomas e 59 pipelines treinados no total, incluindo 5 novos pipelines baseados em transformador
O modelo é oferecido em três versões (16 MB, 41 MB – 20 mil vetores e 491 MB – 500 mil vetores) e é otimizado para funcionar sob carga da CPU e inclui os componentes tok2vec, morfologizador, analisador, emissor, ner, attribute_ruler e lematizador .
“Trabalhamos na spaCy v3.0 há mais de um ano e quase dois anos se você contar todo o trabalho realizado no Thinc. Nosso principal objetivo com o lançamento é tornar mais fácil trazer seus próprios modelos no SPACY, principalmente os modelos de última geração como transformadores. Você pode escrever modelos que alimentam os componentes spaCy em estruturas como PyTorch ou TensorFlow, usando nosso novo sistema de configuração incrível para descrever todas as suas configurações. E como os fluxos de trabalho modernos da PNL geralmente consistem em várias etapas, há um novo sistema de fluxo de trabalho para ajudá-lo a manter seu trabalho organizado.”
Outras inovações importantes que se destacam na nova versão:
- Novo fluxo de trabalho para modelos de treinamento.
- Novo sistema de configuração.
- Suporte para modelos de pipeline baseados em transformador, adequados para aprendizado multitarefa.
- A capacidade de conectar seus próprios modelos usando várias estruturas de aprendizado de máquina, como PyTorch, TensorFlow e MXNet.
- Suporte a projetos para gerenciar todas as etapas dos workflows, desde o pré-processamento até a implementação do modelo.
- Suporte para integração com pacotes de controle de versão de dados (DVC), Streamlit, Weights & Biases e Ray.
- Novos componentes integrados: SentençaRecognizer, Morphologizer, Lemmatizer,
- AttributeRuler e Transformer.
- Nova API para criar seus próprios componentes.
Por fim, se você estiver interessado em saber mais sobre esta nova versão ou sobre spaCy, pode verificar os detalhes nesse endereço.