nltktask

Тестовое задание по обработке текста

Академическая тошнота текста

Академическая тошнота текста это насыщенность текста ключевыми словами. По тошноте текста можно судить о его натуральности и оптимизации под поисковые запросы. Академическая тошнота измеряется в процентах и вычисляется как отношение числа повторов пяти самых частых слов к общему числу слов в тексте. Важно, что при расчёте (в т.ч. и общего количества слов) не учитываются “стопслова”: предлоги, союзы, местоимения и т.д., а все остальные учитываются независимо от формы употребления. Для того, чтобы обмануть простые системы анализа текстов, прибегают к замене русских букв на аналогичные по написанию английские (и наоборот). Использование данного подхода будем называть мошенничеством. Для расчёта корректного значения академической тошноты необходимо привести слова к нормальному варианту написания.

Задача: реализовать программу на языке Python, которая для заданных файлов рассчитывает показатель академической тошноты содержащихся в них текстов

Входные данные : набор файлов с текстами Выходные данные: таблица в базе данных, содержащая информацию о каждом проверенном файле: показатель академической тошноты и флаг наличия мошенничества в тексте

Желательно, чтобы предложенная реализация:

содержала тесты
использовала параллелизм

Рекомендуется использовать:

модуль nltk для стемминга и списка стопслов
sqlite3 в качестве СУБД

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
text_files		text_files
LICENSE		LICENSE
README.md		README.md
ac.py		ac.py
ac_test.py		ac_test.py
dbhelp.py		dbhelp.py
main.py		main.py
task_1611022210.sqlite		task_1611022210.sqlite

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

nltktask

Академическая тошнота текста

About

Releases

Packages

Languages

License

freenoth/nltktask

Folders and files

Latest commit

History

Repository files navigation

nltktask

Академическая тошнота текста

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages