Skip to content

vadinabronin/testrep-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Кластеризация коротких текстов из twitter

Для решения этой задачи был использован алгоритм с репозитория https://github.com/amazon-research/sccl

Модификация алгоритма: добавил слои dropout для предотвращения переобучения,добавил gradient_clipping для ограничения норм градиентов.

Обучение производилось на train,качество проверялось на val,итоговый score посчитан на test.

Файл main.py

В этом файле есть загрузка train,val,test

Создание классов DataLoader

Запуск алгоритма

Файл textaugmentation

Аугментация,которая исползовалась в решении

Файл my_model_cluster

В моем репозитории алгоритм с гита статьи был для удобства помещен в 1 файл-my_model_cluster

Аугментация

Я сравнил качество на разных типах аугментаций:

Аугментация данная в условии

Аугментация-замена синонимов

Аугментация-замена синонимов+Random Insertion+Random Deletion

Эти аугментации я делал как в явном виде так и во время обучения.

Лучший score дала замена синонимов+Random Insertion+Random Deletion(явная)

Эксперименты с гиперпараметрами

Провел довольно много экспериментов с гиперпараметрами,лучшие находятся в файле estimator(class args)

Итоговый результат по метрикам на test:

NMI-0.86+-0.1 ARI-0.7+-0.2

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages