周报系统评估

基于历史标注数据评估系统的重要性判断和分类准确性

评估控制

数据源:historical_classified.json 中所有人工标注的文章
评估维度:重要性判断(Precision/Recall/F1) + 分类准确性

点击开始评估以加载测试数据集信息
重要性判断评估
-
Precision
-
Recall
-
F1 Score
-
Accuracy
重要性判断混淆矩阵
实际 预测
重要 不重要
重要 - -
不重要 - -
分类准确性评估
-
总体分类准确率
-
测试文章数量
各类别分类准确性
类别 正确分类 总数 准确率
等待评估结果...
错误分析
重要性误判案例
等待分析结果...
分类错误案例
等待分析结果...