安装

ERRL

此环境的灵感来源与ELO Ranking，既然对比学习可以用在图像或者NLP领域，而强化学习是一种自带对比的游戏，显然会有一个trail比另一个trail好的情况。那么是不是可以把对比学习的思想用在强化学习中？

conda create -n errl python=3.8
conda activate errl
pip install -r requirements.txt

python mcrl_code/train_base.py

rllib游戏环境构建，在这里的设定是只有最后的状态才有收益

修改的重点，参考MoCo的方法，着重修改了loss的计算方法。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
errl		errl
mcrl_code		mcrl_code
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt