Кластеризация коротких текстов из twitter

Для решения этой задачи был использован алгоритм с репозитория https://github.com/amazon-research/sccl

Модификация алгоритма: добавил слои dropout для предотвращения переобучения,добавил gradient_clipping для ограничения норм градиентов.

Обучение производилось на train,качество проверялось на val,итоговый score посчитан на test.

Файл main.py

В этом файле есть загрузка train,val,test

Создание классов DataLoader

Запуск алгоритма

Файл textaugmentation

Аугментация,которая исползовалась в решении

Файл my_model_cluster

В моем репозитории алгоритм с гита статьи был для удобства помещен в 1 файл-my_model_cluster

Аугментация

Я сравнил качество на разных типах аугментаций:

Аугментация данная в условии

Аугментация-замена синонимов

Аугментация-замена синонимов+Random Insertion+Random Deletion

Эти аугментации я делал как в явном виде так и во время обучения.

Лучший score дала замена синонимов+Random Insertion+Random Deletion(явная)

Эксперименты с гиперпараметрами

Провел довольно много экспериментов с гиперпараметрами,лучшие находятся в файле estimator(class args)

Итоговый результат по метрикам на test:

NMI-0.86+-0.1 ARI-0.7+-0.2

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
my_model_cluster		my_model_cluster
textaugment		textaugment
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Кластеризация коротких текстов из twitter

Файл main.py

Файл textaugmentation

Файл my_model_cluster

Аугментация

Эксперименты с гиперпараметрами

Итоговый результат по метрикам на test:

About

Releases

Packages

Languages

vadinabronin/testrep-

Folders and files

Latest commit

History

Repository files navigation

Кластеризация коротких текстов из twitter

Файл main.py

Файл textaugmentation

Файл my_model_cluster

Аугментация

Эксперименты с гиперпараметрами

Итоговый результат по метрикам на test:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages