はじめに
M3 Maxチップは、ローカルLLM実行において最高のパフォーマンスを発揮します。標準的なM3 ProやM3と比較し、メモリ帯域幅やコア数が格段に向上しているため、**70Bクラスの超大型モデル**でも現実的な速度で動作します。
検証環境:MacBook Pro (**M3 Max**) / 36GBまたは48GB Unified Memory
01.インストール手順
- Ollama公式サイトからインストーラーをダウンロード。
- ダウンロードしたZIPファイルを解凍。
- Ollama.app を「アプリケーション」フォルダへ移動。
- アプリを起動し、ウィザードに従ってセットアップ完了。
完了後、メニューバーにOllamaアイコン(🦙)が表示されます。
02.モデルの実行
ターミナル(Terminal.app)を開き、コマンドを実行するだけ。
Meta社 最新軽量モデル (Llama 3.2) を実行
$ ollama run llama3.2
(Llama 3.2は非常に高速で動作します。続いて**llama2:70b**などの大型モデルを試すのがおすすめです。)
>>> こんにちは!
(AIの応答...) こんにちは!何かお手伝いできることはありますか?
(AIの応答...) こんにちは!何かお手伝いできることはありますか?
コマンドチートシート
| コマンド | 説明 |
|---|---|
| ollama run [モデル名] | チャットを開始(未DLなら自動DL) |
| ollama list | インストール済みモデル一覧表示 |
| ollama rm [モデル名] | モデルの削除 |
| /bye | チャットを終了する |
M3 Maxチップでの使用感メモ
- **速度:** M3 Maxの強力なGPUコアのおかげで、LLMの推論(テキスト生成)は**超高速**です。
- **メモリ:** 36GB以上の統合メモリを搭載している場合、**70Bクラスのモデル**(例:`llama2:70b`)や、**複数のモデル**を同時に動かすことも可能です。
- **発熱:** 大型モデルを長時間動かすと発熱しますが、ファンが優秀なため、デスクトップGPU環境と比べても非常に静かです。
- **推奨:** 軽快さならLlama 3.2、最大性能を試すなら**Llama 2 70B**を試すことを強く推奨します。