公众分类法（Folksonomy）

先从一个具体的问题开始思考：如何给电子书分类？（这个问题可以推广到如何给信息分类。）

传统的方法是使用自上而下的目录分类法（Taxonomy）。在中国是中图分类法（第四版），在美国是国会图书馆分类法。但是，这种分类过于复杂（所有细目厚达几千页），导致实施起来成本很高。而且，它不太符合电子书的实际，一是分得太细，一本书往往在第四层或第五层的子目录；二是分得不均衡，中图分类法下A类是"马克思主义、列宁主义、毛泽东思想、邓小平理论"，I类是"文学"，显而易见，对于电子书库来说，将A类单独分为一类非常浪费，而I类则至少可以分列成"汉语文学"和"外语文学"两大类。

此外，目录分类法还有一个先天不足，就是有时候一本书到底分在哪一个类很不明确。比如，《18世纪英国诗歌选（中英对照）》到底应该是"语言"类书籍，还是"文学"类书籍？一个解决办法是同时分在这两类，但是这会造成巨大的冗余工作量。

总之，目录分类法对于巨量信息来说，不是理想的分类方法。但是，它的直观和方便，却是其他分类法难以比拟的。

随着互联网的发展，一种新的分类方法出现了，那就是公众分类法（Folksonomy）。典型的代表网站就是Del.icio.us。

所谓"公众分类法"，就是由公众来为信息贴加标签（tagging），被使用最多的标签就最能说明这条信息的特点。

使用标签分类，非常的便捷，而且易于组合，但是也存在一些问题：

（1）不同的用户对相同的标签，往往有不同的理解，比如在"工具"标签下，可能会发现彼此完全没有关系的内容。

（2）同义词问题。用户可能使用同义词作为标签，比如"tv/television"，"Holland/Netherlands/Dutch"，"超级女生/超女"。英语中，还存在复数问题。

（3）词的多义性问题。比如"china"这个标签，到底指中国，还是指瓷器。

（4）用户的标签五花八门，可能会产生大量"噪音"，加重系统负担，降低分类的准确性。

所以，最好的解决方法应该是，自上而下的目录分类法与标签式的公众分类法相结合，然后对能够用作标签的词汇进行控制（controlled vocabulary），不能什么词都用来当标签。

当然，这只是理想中的情况，技术上的实现似乎难度很大。

（注：此文用来为我整理思路，留待以后修改和补充。）

taxonomy

0 人点赞