評分標準說明
閱讀約 3 分鐘
看到「整體 7.3」你會想知道——「7.3 跟 8.1 差在哪?什麼算 8 分?」這篇講評分依據。

0-10 的意義
| 範圍 | 對應 |
|---|---|
| 9-10 | 罕見、近乎已準備好投稿 / 出版 |
| 7-9 | 強,需要一些修補 |
| 5-7 | 中等,多處需改 |
| 3-5 | 結構性問題、需大改 |
| 0-3 | 很早期 draft |
絕大部分初稿在 5-7 之間——這正常、不是失敗。
評分依據
每個維度有 4-6 個 sub-criteria,AI 各打 0-10 後加權平均:
例:「結構」維度(5 個 sub)
- Act 劃分清晰度(25%)
- 轉折點力道(25%)
- 章節順序合理性(15%)
- 開頭設立(20%)
- 收尾完整性(15%)
每個 sub 都有自己的 rubric。
完整的所有 rubric 在報告底部「評分標準詳細」可以展開看。
為什麼分數應該當參考
幾個原因:
1 · LLM 的本質
不同 model 版本 / 不同 temperature 同樣的書可能差 0.5 分。
2 · Personas 選擇
選嚴格 personas vs 寬容 personas,同樣的書分數會差。
3 · 你寫的類別
literary fiction 的 7 分 vs popular fiction 的 7 分意義不同。
比較同一本書的多次跑分才有意義
改完跑第二次比一次跑出的絕對分有用得多:
- 第 1 次:6.2
- 第 2 次(改完):7.5
- → 你改的方向對
詳見:閱讀歷史與重看
跟外部 review 對齊
如果你找人類 beta reader讀完後也評了分——你會發現他們的分數通常跟 Slima 的同方向(不一定同數字)。
譬如人類 reader 給 8、Slima 給 7.5。方向一致是 signal、絕對數字不是。
相關
這篇有幫助嗎?