試験

模型試験記録

AI MODEL TESTING

令和七年
Date
令和七年 一月十五日
丑三つ時
Model
Llama 3.1 8B Instruct Meta AI · 開放重み
Resource
RTX 3090 24GB Ollama v0.4.0 · Q4_K_M
Tests
MMLU-Pro GPQA IFEval
Result
閲覧
Observations

VRAM十四点二ギガバイトに到達。四十七トークン毎秒、継続運転。六時間の負荷試験、異常なし。四ビット量子化の雑音、推論に影響せず。

Date
令和七年 一月十二日
亥の刻
Model
Qwen2.5 14B Instruct Alibaba DAMO · 多言語
Resource
RTX 3090 + 64GB llama.cpp b4000 · Q5_K_M
Tests
HumanEval MBPP MultiPL-E LiveCodeBench
Result
閲覧
Observations

八層をCPUに移動。二十三トークン毎秒、遅延あり。CODE生成、C++/Pythonにて優秀。Rust試験、文脈長の制限により失敗。能力の問題に非ず。

Date
令和七年 一月八日
酉三つ時
Model
Mistral Small 24B Mistral AI · 仏蘭西
Resource
双 RTX 3090 NVLink vLLM 0.6.5 · BF16
Tests
MATH GSM8K BBH
Result
閲覧
Observations

二十四B、圧縮なしで運転。四十八ギガバイト、完全活用。八九トークン毎秒 — 最高記録。Chain-of-thought、全圧縮モデルを超越。NVLink、遅延無視可能。

NEOCITIESにて公開 · 遥かなる追跡なし