Skip to content

freenoth/nltktask

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

nltktask

Тестовое задание по обработке текста

Академическая тошнота текста

Академическая тошнота текста это насыщенность текста ключевыми словами. По тошноте текста можно судить о его натуральности и оптимизации под поисковые запросы. Академическая тошнота измеряется в процентах и вычисляется как отношение числа повторов пяти самых частых слов к общему числу слов в тексте. Важно, что при расчёте (в т.ч. и общего количества слов) не учитываются “стопслова”: предлоги, союзы, местоимения и т.д., а все остальные учитываются независимо от формы употребления. Для того, чтобы обмануть простые системы анализа текстов, прибегают к замене русских букв на аналогичные по написанию английские (и наоборот). Использование данного подхода будем называть мошенничеством. Для расчёта корректного значения академической тошноты необходимо привести слова к нормальному варианту написания.

Задача: реализовать программу на языке Python, которая для заданных файлов рассчитывает показатель академической тошноты содержащихся в них текстов

Входные данные : набор файлов с текстами Выходные данные: таблица в базе данных, содержащая информацию о каждом проверенном файле: показатель академической тошноты и флаг наличия мошенничества в тексте

Желательно, чтобы предложенная реализация:

  • содержала тесты
  • использовала параллелизм

Рекомендуется использовать:

  • модуль nltk для стемминга и списка стопслов
  • sqlite3 в качестве СУБД

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages