Linguistics
Материал из ALT Linux Wiki
(Различия между версиями)
(→Коллокации, анализ сочетаемости) |
|||
Строка 18: | Строка 18: | ||
* {{PkgL|perl-Text-NSP}} пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста. | * {{PkgL|perl-Text-NSP}} пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста. | ||
- | * {{PkgL|perl-UCS}} пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от {{ | + | * {{PkgL|perl-UCS}} пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от {{PkgL|perl-Text-NSP}}. |
[[Категория:Пользователю]] | [[Категория:Пользователю]] | ||
[[Категория:Специализированный софт]] | [[Категория:Специализированный софт]] |
Версия 20:27, 19 февраля 2009
Лингвистика и обработка естественного языка (Natural language processing)
Содержание |
Лемматизация
- perl-Lingua-Stem Русский, Немецкий, Францунзский, Итальянский, Датский, Шведский, Португальский
Морфологический и синтаксический анализ
- aot Русский, Немецкий, Английский
Лингвистическая аннотация, базы данных
- emdros База данных для аннотированного текста. Оригинальная модель представления аннотированных данных (текста), гибкий язык запросов MQL. Утилиты для импорта из популярных форматов лингвистической аннотации. Графические пользовательские программы для наполнения и запросов к БД.
Коллокации, анализ сочетаемости
- perl-Text-NSP пакет для статистического анализа N-грамм в тексте (Ted Pedersen). Не полностью корректно поддерживает unicode, поэтому есть проблемы при обработке русского текста.
- perl-UCS пакет для статистического анализа коллокаций (Stefan Evert), UCSTools. Работает с данными от perl-Text-NSP.