LLM-Comparison

大模型横评 - Groq LLaMa 3, GPT 3.5 Turbo, GPT 4o

本文将简要比较三种模型在平均处理时间、失败率以及查询长度与处理时间增长之间的差异。

对比的三个模型是

models = ["llama3-70b-8192", "gpt-3.5-turbo-0125", "gpt-4o-2024-05-13"]

其中llama3-70b-8192使用的是Groq API，gpt使用的是 OpenAI API。API使用方式均为Python Client Library，如下

groq_client = Groq(
    api_key=os.environ["GROQ_API_KEY"],
)

openai_client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))

测试集将使用名为 logs.json 的文件中的前50个条目，并将它们转换为大型模型可以读取的 messages 列表。logs.json文件不与公开。

测试将使用循环逐一遍历测试集，并记录查询长度、处理时长和失败率。每测试10个查询将暂停60秒，以避免超过限制的请求速率等问题。测试集不包括相同文本，因此理论上不存在缓存问题。

output1

output2

output3

Model	Average time	Overall query
llama3-70b-8192	1.4226796483993531	358776
gpt-3.5-turbo-0125	3.4280353021621703	358776
gpt-4o-2024-05-13	4.238370051383972	358776

平均响应时间
- llama3-70b-8192：1.42秒（最快）
- gpt-3.5-turbo-0125：3.43秒（中等）
- gpt-4o-2024-05-13：4.24秒（最慢）
失败率
- 所有模型的失败率均为 0.0，没有任何查询失败。
查询长度与响应时间关系
- 查询长度与响应时间呈正相关关系。
- llama3-70b-8192 在处理较长查询时响应时间最短，并未出现异常查询时间。
- gpt-4o-2024-05-13 在处理查询时响应时间最长，并出现超过10秒的超长查询时间。