{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Yargy" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Yargy — библиотека для извлечения структурированной информации из текстов на русском языке. Правила описываются контекстно-свободными грамматиками и словарями ключевых слов. Банк готовых правил для имён, дат, адресов и других сущностей доступен в репозитории Natasha.\n", "\n", "Парсер реализует алгоритм Earley parser. Библиотека написана на чистом Python, поддерживает Python 3.5+ и Pypy 3, использует Pymorphy2 для работы с морфологией." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Томита-парсер" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Томита-парсер — популярный инструмент для извлечения структурированный информации из текстов на русском языке. Грубо говоря, Yargy — версия Томита-парсера для Python, написанная с нуля:\n", "\n", "
Томита-парсер | \n", "Yargy | \n", "
---|---|
Разрабатывался много лет внутри Яндекса | \n", "Open source, разрабатывается сообществом | \n", "
10 000+ строк кода на C++ | \n", "1000+ на Python | \n", "
CLI | \n", "Python-библиотека | \n", "
Protobuf + конфигурационные файлы | \n", "Python DSL | \n", "
Нет готовых правил | \n", "Natasha — готовые правила для извлечения имён, дат, адресов и других сущностей | \n", "
Медленный | \n", "Очень медленный | \n", "