chinese_poem_analysis 这个项目是想做一个分类器,将唐诗三百首的诗分为抒情诗和叙事诗。 目前只做完语料收集,语料来自http://www.diyifanwen.com。 poem_preprocess.py,用于预处理网页信息。 get_text_vector.py,主要用于诗歌的分词。 注:《利州南渡》的第一个句号改成逗号。《在狱咏蝉·并序》《兵车行》《长相思》《将进酒》《蜀道难》作者后面加空格。 《渭川田家》加一个"雊"字;《韩碑》修改"貙貙"两字;《蜀道难》的嚱字;《丽人行》的衱字;《听安万善吹觱篥歌》的觱字;