您好,欢迎来到佳博论文网!

社会化问答社区的内容抽取研究——以“百度知道”为例

论文摘要

社会化问答社区是除了搜索引擎以外另外一种常见的信息获取渠道,它是一种在线问答服务,“一个可以提问、回答并围绕问题进行交互的地方”。而百度知道一全球最大的中文社会化问答社区,内容分布广泛,数据量庞大。因此选择“百度知道”作为研究对象。随着百度知道的发展,其中的问题和答案数据越来越多,人们越来越关注问题和答案的质量。本文以“百度知道”为例研究社会化问答社区中的问答质量水平和存在的问题。首先以“柑橘”为主题爬取数据,一共获取适合本次试验的5992个问题,回答数共20010个,平均每个问题有3个答案。然后,两组人员通过判断、分析百度知道中问答对的质量,以及“提问者采纳”和“网友采纳”的是否为真正的最佳答案来进行人工标注。最后,从下述五个特征:问答对的文本特征、问答对的统计信息特征、基于时间顺序的特征、基于用户的特征、问题和答案的关联性的特征,使用SVM分类器进行质量评估。研究结果表明,百度知道的问答对质量比较高,因此百度知道的最佳答案近似为推荐答案。标注结果显示百度知道中绝大部分问题和答案质量很高,质量偏低的问题和答案只占少数。整体的分类效果良好。依次加入上述五大特征后,整体的准确率、召回率和AUC是增长的。AUC除了第一个小于0.05,其后依次增加,所以分类器的性能良好。最大的增长是在加入问答对的统计信息特征(准确率增量为14.16%)和加入基于时间的特征,特别是基于时间的特征的召回率和AUC增长量都最大。但是基于用户的特征的准确率增长较小,召回率是减小的,AUC增长也很小,考虑到随着时间的推移,越来越多的正确答案是网友推荐答案,即为匿名答案。并且越来越多的答案提供者都选择用匿名的方式,考虑到这层因素基于用户的特征准确率不高是合理的。终上所述,“百度知道”作为国内最大的社会化问答社区整体的问答质量较高。并且本文提出的五大特征可以较好的预测最佳答案。