东西问 | 王兆鹏:唐诗宋词能否用大数据解读?
中新社成都7月11日电 题:唐诗宋词能否用大数据解读?
——专访四川大学文科讲席教授、中国词学研究会会长王兆鹏
中新社记者 贺劭清
白居易诗作量位居唐代诗人之首,影响力却没进入前十;宋词名篇最多的不是苏轼、辛弃疾而是周邦彦;综合影响指数表明,杜甫高于李白、辛弃疾强于苏轼;张若虚《春江花月夜》、陆游《卜算子·咏梅》在近现代才开始受瞩目……用大数据来显示和验证唐诗宋词,结论超出很多人的想象。
唐诗宋词是中国文学史上的两座高峰,但属于美学范畴的唐诗宋词能否用大数据解读?大数据研究唐诗宋词取得了哪些新发现,又有什么局限?四川大学文科讲席教授、中国词学研究会会长王兆鹏近日接受中新社“东西问”独家专访,作出深度解读。
现将访谈实录摘要如下:
中新社记者:唐诗宋词是中国文学史上的两座高峰。从大数据看,唐诗宋词是否达到空前的高度?分别有什么特色?
王兆鹏:数据显示,唐诗宋词作家、作品量均达到了空前的高峰。目前流传下来的唐诗超过5万首,而东汉到隋末近600年的诗歌一共才5000余首。唐诗比之前的八代诗增加了7倍多,诗人由600余位增加到3000多家,诗人和诗作都达到了前所未有的量级。
宋词是中国词史上第一座高峰,有词人1497家、词作21085首。相较唐五代,词人词作都增加了10多倍。宋词用调近900种,在唐五代词的基础上增加了700余种。词调多,意味着词体的丰富。唐五代词人中唯温庭筠、冯延巳、李璟、李煜有词集传世,而宋代则有300多位词人有词集流传。词人有词集传世,意味着作品多、知名度高,社会需求量大。宋词之所以流传数量不如唐诗,其中一个重要原因在于宋词是通过口头传唱,相当于现在的流行歌曲??谕反淖髌?,好多已失传。
衡量文学发展,作品数量是一个重要方面,但最关键还是要有精品。要说中国历史上产生伟大诗人、词人最多的朝代,无疑是唐宋。虽然现有技术还难以准确衡量作品艺术价值的高低,但可以用大数据来衡量作品影响力的大小,分析出哪一首作品最受大众欢迎。
中新社记者:唐诗宋词属于美学的范畴,为什么想到用大数据分析唐诗宋词?
王兆鹏:给文学作品排座次、定甲乙,并不是今天才有的时尚,而是古已有之。最早给诗人区分品第等级的,是南朝梁代的钟嵘。他在《诗品》中将汉魏以来诗人分为上中下三品,以评量其优劣。唐代张为的《诗人主客图》,把中晚唐的部分诗人分为主、入室、升堂、及门等级别,也是一种品第批评。
在中国古代文学批评中,还常常见到称誉某人为第一、某诗为第一的。如《宋书·谢灵运传》说谢灵运“文章之美,与颜延之为江左第一”。宋人许顗《彦周诗话》说“孟浩然、王摩诘诗,自李杜而下,当为第一”。
不过,古人的诗学批评,无论是分品第,还是排座次,都是基于个人的主观好恶。由于每个人的审美趣尚不同,所以对同一个人、同一首作品,品评往往不一样。比如,金人元好问、赵秉文和王若虚都推许东坡词“起衰振靡,当为古今第一”,清代潘德舆却叫板不认同,认为“推奉太过”。
现代计量历史学可以用数据衡量历史,古代文学也属于大历史的范畴。既然历史可以计量,为什么文学不能计量?通过大数据,可以找到一个最大公约数,用模型来分析和衡定,得出相对客观的答案。
中新社记者:您的十大唐诗、宋词、诗人、词人排行榜如何得出?从大数据看,唐诗宋词里谁的作品最多?作品量多的诗人词人,是否影响力大、知名度高?
王兆鹏:我们依据诗歌在历代选本中的入选频次、被历代诗论家品评的频次、被后人追和的频次和当代学者研究的频次、被网页著录及评论的频次等数据加权计算,确定一首诗的影响力,并将影响力位居前列的视为名篇。
现在已无法直接考察出在古代李白、杜甫的诗集有多少种、印数有多大,但可以计算杜甫和李白的诗集分别被刊刻了多少种。据此推算,在宋代,杜甫的影响力比李白大得多,有一种说法叫千家注杜,杜诗韩文是所有读书人的典范。
数据显示,唐代诗人综合影响力排名第一的是杜甫,其次为李白、王维。作品量第一的白居易,影响力排在十名之外。而宋词影响力位居第一的是辛弃疾,苏轼、周邦彦分别居第二、第三。
影响力大的诗人,拥有名篇也多。一百首唐诗名篇,杜甫独占16首,李白13首,王维和白居易均享12首。在三百首唐诗名篇中,杜甫豪取52首,占六分之一,李白有38首,王维和白居易共29首。在宋词百首名篇中,周邦彦夺得15首,辛弃疾获12首,苏轼10首,姜夔7首。扩大到三百首宋词名篇,周邦彦斩获40首,辛弃疾和苏轼各占23首,姜夔11首。宋诗百首名篇,苏轼一人占四分之一,比杜甫在唐诗中的名篇拥有率还高。
中新社记者:诗人张若虚以一首《春江花月夜》“孤篇盖全唐”,但他只有两首诗流传下来。对于这样的诗人,能用大数据分析吗?未来会可否用大数据分析外国诗歌?
王兆鹏:现在大家熟悉的陈子昂的《登幽州台歌》,以及张若虚的《春江花月夜》,其影响力是到20世纪之后才逐渐变大?!洞航ㄔ乱埂吩诿髑宀⑽抻跋炝?,直到王闿运赞其“孤篇横绝,竟为大家”,闻一多又称其为“诗中的诗,顶峰中的顶峰”,才将这首诗抬到至高无上的地位。
同样情况还有陆游的《卜算子·咏梅》(驿外断桥边)。毛泽东曾用“风雨送春归,飞雪迎春到”来和陆游这首词,一代伟人和领袖以自身政治影响力和诗词地位,提高了这首词的影响力。柳永《蝶恋花》(伫倚危楼风细细),在明清之前也几乎没有什么影响力,但自从王国维将“衣带渐宽终不悔,为伊消得人憔悴”列为人生三种境界后,这首词开始被读者熟知。
杜甫在盛唐时代几乎是一个无名小卒。李白出名时,杜甫只是一个普通的文艺青年。他和李白的年龄相差11岁,是李白的“迷弟”,所以可以看到很多杜甫怀念李白的诗,但很少看到李白给杜甫的诗。杜甫去世很多年后,元稹为其写墓志铭时发现了他的光芒。后来韩愈在《调张籍》中说“李杜文章在,光焰万丈长”,文坛领袖的推荐又进一步扩大了杜甫的影响力。
有些诗人、词人,在外国的影响力可能比在中国高。寒山的诗曾经在美国风行一时,在国内反倒没多少人了解他。在西方,作品被翻译最多的中国诗人不是李白、杜甫,而是王维;作品被翻译最多的词人不是辛弃疾、苏轼,而是李清照。
文学的发展有一定的偶然因素,比如李清照的作品在宋代有很多种版本,用今天的话来说,宋代很多出版社出版了她的词集,但到了明代全部失传。她的作品只能去选本中找,最终只找到40多首。另外,与李清照同时期的女词人朱淑真,在当时的影响力并不大,但她的几百首作品反而全部流传了下来。
也有很多古代红极一时的诗词,今天却无人问津。如欧阳修《蝶恋花》(海燕双来归画栋)、聂冠卿《多丽》(想人生)、周邦彦《侧犯》(暮霞霁雨)、王观《雨中花令》(百尺清泉声陆续),它们分别在明代22种词选中被入选17、18、19、20词,差不多是明人词选必选的名篇??傻搅?0世纪,其影响力和知名度降到了最低。个中原因,值得思考与探讨。
古诗词的影响力始终处于不断变化之中,很难通过一两条材料得出全面、客观、准确的判断,而大数据可以完整展现出一首诗词影响力的变化。
我从1992年第一次用数据分析古代诗词,现在数据不断丰富,模型不断完善。2000年以后,大数据库中除了中国不同历史时期的古诗词选本,还纳入了欧美日韩等海外的中国古代诗词数据。
目前,我们正建设古今中外诗歌的融合大数据平台。该平台已经收集了上百万首中国古典诗歌,正在收集20世纪以来有中文翻译的外国诗歌,以及五四运动以来的十余万首新诗。
没有一个大数据可以穷尽样本,但我们希望借助人工智能得出误差最小的结论。五四运动后的诗人郭沫若、胡适、闻一多,谁的影响力更大?在中国影响力最大的外国诗人是普希金、泰戈尔还是歌德?我们将用大数据说话。(完)
受访者简介:
王兆鹏,四川大学文学与新闻学院文科讲席教授、博士生导师。现为中国词学研究会会长、中国李清照辛弃疾学会会长、中国宋代文学学会常务副会长,《宋代文学研究年鉴》主编。主要研究唐宋文学和数字人文,主持国家社会科学基金重大项目2项。已出版《全唐五代词》《唐宋词史论》《词学史料学》等专著十余部,发表学术论文三百余篇。