試験

模型試験記録

AI MODEL TESTING

令和七年

Date

令和七年一月十五日
丑三つ時

Model

Llama 3.1 8B Instruct Meta AI · 開放重み

Resource

RTX 3090 24GB Ollama v0.4.0 · Q4_K_M

Tests

MMLU-Pro GPQA IFEval

Result

閲覧

Observations

VRAM十四点二ギガバイトに到達。四十七トークン毎秒、継続運転。六時間の負荷試験、異常なし。四ビット量子化の雑音、推論に影響せず。

Date

令和七年一月十二日
亥の刻

Model

Qwen2.5 14B Instruct Alibaba DAMO · 多言語

Resource

RTX 3090 + 64GB llama.cpp b4000 · Q5_K_M

Tests

HumanEval MBPP MultiPL-E LiveCodeBench

Result

閲覧

Observations

八層をCPUに移動。二十三トークン毎秒、遅延あり。CODE生成、C++/Pythonにて優秀。Rust試験、文脈長の制限により失敗。能力の問題に非ず。

Date

令和七年一月八日
酉三つ時

Model

Mistral Small 24B Mistral AI · 仏蘭西

Resource

双 RTX 3090 NVLink vLLM 0.6.5 · BF16

Tests

MATH GSM8K BBH

Result

閲覧

Observations

二十四B、圧縮なしで運転。四十八ギガバイト、完全活用。八九トークン毎秒 — 最高記録。Chain-of-thought、全圧縮モデルを超越。NVLink、遅延無視可能。

別試験

ロールプレイ試験
創造性評価
キャラクター一貫性
実験的プロンプト

参る

別冊