Read this README in English.
IndoNLU adalah sebuah koleksi sumber untuk riset dalam topik Natural Language Understanding (NLU) untuk Bahasa Indonesia dengan 12 aplikasi. Kami menyediakan kode untuk mereproduksi hasil dan model besar yang sudah dilatih sebelumnya (IndoBERT and IndoBERT-lite) yang dilatih dengan kumpulan tulisan berisi sekitar 4 miliar kata (Indo4B) dan lebih dari 20 GB dalam ukuran data teks. Proyek ini awalnya dimulai dari kerjasama antara universitas dan industri, seperti Institut Teknologi Bandung, Universitas Multimedia Nusantara, The Hong Kong University of Science and Technology, Universitas Indonesia, Gojek, dan Prosa.AI.
IndoNLU telah diterima oleh AACL-IJCNLP 2020 dan Anda dapat menemukan detailnya di paper kami https://www.aclweb.org/anthology/2020.aacl-main.85.pdf. Jika Anda menggunakan komponen apa pun di IndoNLU termasuk Indo4B, FastText-Indo4B, atau IndoBERT dalam pekerjaan Anda, harap kutip makalah berikut:
@inproceedings{wilie2020indonlu,
title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding},
author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti},
booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing},
year={2020}
}
Pastikan anda mengecek pedoman kontribusi dan hubungi pengelola atau buka issue untuk mengumpulkan umpan balik sebelum memulai PR Anda.
- Cek disini: [Tautan]
- Kami menyediakan train, valid, dan test set. Label set pengujian disamarkan (tidak ada label sebenarnya) untuk menjaga integritas evaluasi. Silakan kirim prediksi Anda ke portal pengiriman di CodaLab
- Panduan untuk memuat model IndoBERT dan menyempurnakan model pada tugas Sequence Classification dan Sequence Tagging.
- Cek disini: tautan
Dimohon untuk memeriksa [tautan ini] (https://github.com/indobenchmark/indonlu/tree/master/submission_examples). Untuk setiap tugas, ada format yang berbeda. Setiap file pengiriman selalu dimulai dengan kolom index
(id sampel pengujian mengikuti urutan set pengujian yang disamarkan).
Untuk pengiriman, pertama-tama Anda perlu mengganti nama prediksi Anda menjadi pred.txt
, lalu membuat file menjadi zip. Setelah itu, Anda perlu mengizinkan sistem untuk menghitung hasilnya. Anda dapat dengan mudah memeriksa kemajuan anda di tab hasil
Anda.
Kami menyediakan akses ke kumpulan data pra-pelatihan kami yang besar. Dalam versi ini, kami mengecualikan semua tweet Twitter karena pembatasan Kebijakan dan Perjanjian Pengembang Twitter.
- Indo4B Dataset (23 GB tidak dikompresi, 5.6 GB dikompresi) [Tautan]
Kami menyediakan 4 Model IndoBERT dan IndoBERT-lite yang sudah dilatih terlebih dahulu [Tautan]
- IndoBERT-base
- IndoBERT-large
- IndoBERT-lite-base
- IndoBERT-lite-large
Kami menyediakan file model FastText lengkap tanpa pengubahan pengkapitalan huruf (11,9 GB) dan file vektor yang bersesuaian (3,9 GB)
Kami menyediakan model FastText yang lebih kecil dengan kosakata yang lebih kecil untuk masing-masing dari 12 aplikasi
- Portal Komunitas dan Public Papan Peringkat Publik [Tautan]
- Portal Pengiriman https://competitions.codalab.org/competitions/26537