所以说,文学美,但并不玄。人人知道太白斗酒诗百篇,太白可是把《昭明文选》反反复复拟作过三遍呢,这样看所谓斗酒诗百篇,不过是说做过无数套模拟题的学霸在醉醺醺的情况下仍能考好罢了。据说阮籍的《咏怀》“可以陶性灵,发幽思。言在耳目之内,情寄八荒之表。”很玄的样子,就像“夜中不能寐,起坐弹鸣琴。薄帷鉴明月,清风吹我衿。孤鸿号外野,朔鸟鸣北林。徘徊将何见,忧思独伤心。”可它和这样一首诗——“独夜不能寐,摄衣起抚琴。迅风拂裳袂,白露沾衣襟。孤雁飞南游,飞鸟翔故林。形影忽不见,翩翩伤我心“像不像呢?后一首可是我拿曹植、王粲的诗句乱拼的。所以说阮籍也是打开据库写诗的,三曹七子汉乐府,这些都在他的数据库里。创作、研究的这种“数据库现象”,正是计算机可以介入文学研究的方法论基础。
无可否认,计算机比人体更适合处理海量数据,因此特别长于探索一些宏观的、结构性的东西——比如诗人团体构成、地域分布、阶层分布,它们在某个时间点呈现的静态图景,或者在某个时间段呈现的动态走势。而计算机的另一个长处是实现分析结果的可视化,我有时就在课上展示不同诗人的词云来让学生猜作者,学生会觉得很酷,而且很容易记住诗人的用词偏好,还能发现谁爱重复用词(就是词云图中出现的那些字号巨大的词)、谁更有避复的意识;我又想过把杜甫的诗按他的行迹标注在电子地图上,这样就是一个杜诗的生成地图,甚至可以进一步做成APP,点击一个地点,作于此地的诗就弹出来,读者可以跟着杜甫,重走他诗人的一生。
但是计算机处理文学问题,当然也有它的能力边界。用推还是用敲?用木叶还是树叶?用建康还是金陵?为什么诗总写到长江无尽东流,换成黄河行么?“春与猨吟兮秋鹤与飞”和“春与猨吟兮秋与鹤飞”有什么不同?“清明时节雨纷纷,路上行人欲断魂。借问酒家何处有,牧童遥指杏花村。”为什么不能写成“清明时节雨,行人欲断魂。酒家何处有,遥指杏花村”?这些问题,不是因为玄,而是因为算法太复杂,足以让目前的计算机手段望而却步。如今也有所谓作诗软件,你却并不能指望它写出一首真正的好诗;同样地,你也不能指望计算机完美地分析一首诗。解铃还须系铃人,人写之,人解之,毕竟文学的逻辑和文学的文化,是无法完全数据化的。
所以我总觉得,大数据挖掘对文学研究而言,搭建数据库固然重要,但更重要的是我们要能提出新问题——把早已成熟的文学研究课题投给大数据去挖掘,通常不会得出什么新结论,充其量是把旧结论更精密化而已,这也是《诗人关系》和《读唐诗》上明显带有的问题。我期待大数据能引发一些新的研究视角,不过,即使引发不来,它也是比手串和汉服更真诚的接触文学的方式。