
1.黑盒評分器,透過多次產生並比較相同提示的回復來評估一致性。就反覆問同一個問題,如果每次回答的核心意思不一致或差異很大,表示它可能在瞎編
2.白盒評分器,利用token機率估計不確定性。看看LLM對自己答案中每個部分的自信程度,如果它對某個字或句子很不確定,就表示這部分內容可能有問題
3.專家評審法 (LLM 作為評審評分器),使用一個或多個 LLM評估原始LLM回應的可靠性,就是找其他LLM來評判答案的可靠性
4.綜合評估法 (整合評分器),結合以上幾種方法進行綜合評估
github:
加入免費會員,更新資訊不漏接:
小額贊助支持本節目:
留言告訴我你對這一集的想法:
Powered by Firstory Hosting ()