月別アーカイブ: 2025年5月

【ローカルAI】LM StudioでGemma3を動かしてみた

PC新しくしたのでローカルAIやってみました。

動かすのはLLM(大規模言語モデル)、つまりテキスト生成AIです。

ツール選定

まずはPCスペックの確認。それなりに良いやつなので問題ないはず。
CPU:Core Ultra7 265KF
RAM:32GB
GPU:RTX5070Ti (VRAM 16GB)

次はクライアント。LM Studioを使うことにしました。一番有名っぽいので。

最後はモデル。無難にGoogleのGemma3にしました。

初期設定

LM Studioをインストールして起動。モデルもこのクライアントからダウンロード出来るので、すぐ使用できるようになりました。簡単すぎて驚いた。

画像生成AIは設定面倒なのに、LLMはこんな簡単に出来るんだね。

動かしてみた

Gemma-3-12B。テキスト投げたら一瞬で返答が来る。これは良いね。モデルサイズ8.15GBでVRAMに丸ごと乗るから軽い。

Gemma-3-27B。モデルサイズ16.43GBでVRAMに乗り切らず結構重たい。

ちなみに12B, 27Bというのはそれぞれパラメータ数が120億, 270億という意味です。そして12Bが速度と精度のバランスが取れたモデルとのこと。

この2モデル試していましたが、正直あまり性能差は感じられませんでした。「JavaScriptでテトリス作って」と指示したら、どちらも動かないコード出してきたし。

ずんだもんの画像見せたら「星街すいかさんです!」と自信満々に答えられて吹いた。

誰だよw

調べたら12BがGPT-3.5くらい、27BがGPT-4くらいの性能とのことでした。なるほど、2年以上前のChatGPTと考えれば納得だ。

ともかく動くようになったので、なりきりチャットとかさせてみようかなw あと外部ツールから呼び出したり出来るのかな? 色々いじってみよう。

まとめ

ちょっとした会話なら問題ないけど、知識が必要なことは厳しいなあと思いました。ローカルで動くこと自体は凄いんだけどね。

そのうち他のモデルも試してみます。

数日使ってみて

12Bで近所の公園について質問したら正しい返答が来て驚いた。たった8GBなのにそんなローカルな情報まで網羅してるのか。デタラメも多いけどね(汗)

12Bと27Bでは日本語の表現が段違いだった。しかし27BはVRAM16GBだと200~300トークンまでしか対応できないらしい。試した限りでは2000トークンくらいで同じ返答繰り返すようになり、まともに動作しなくなる。残念…

APIはOpenAI準拠で使えました。既にLLM+画像生成AI+音声生成AIを繋ぎ合わせてる人とかいたけど、いろんなことが出来そうだ。

他のモデルもためしてみたけど、今のところGemma3が一番しっくり来るな。Qwen3は推論内容が見えて楽しいんだけど、見当違いの返答が多くて。

JCBザ・クラスからオリジナルのペアグラスもらった

JCBから荷物が届きました。

ちなみに左上の凹みは最初からです(汗)

開けてみるとペアグラスが入ってました。

こちらに記事がありますが、JCBザ・クラスからの誕生日プレゼントとのことです。

初めてもらったよ。

調べると2023年くらいからもらってる人がいるようで、条件は保有年数や利用金額らしいとのこと。

5年保有記念と書いてる人がいたけど、俺は10年以上保有してるしなあ。

ガラスが薄くて、内側から力を入れて洗うと割れると書かれてました。普段遣いしづらいな…

まあでもプレゼントもらえて嬉しいです。

OpenAIのChatGPT以外のサービスまとめてみた

OpenAIはメインのChatGPT以外にも様々なサービスを提供しています。それらをまとめてみました。

商用向けサービス

API
・2020年6月リリース
・OpenAIが提供する汎用AIサービスで、GPTシリーズなどの大規模言語モデルにアクセスできるAPIです。

Codex(コード自動生成)
・2021年8月~2023年3月
・自然言語からプログラミングコードを生成できるAIモデルです。GitHubの自動補完ツール「Copilot」のエンジンとして使用され、複数の言語でコーディング支援を行いました。
・o3ベースのcodex-1(2025年5月)再リリース

Whisper(文字起こし)
・2022年9月リリース
・音声をテキストに変換する自動音声認識システムです。多言語の文字起こしだけでなく、他言語音声から英語への翻訳も可能なモデルです。モデルとコードがオープンソースで公開されており、誰でもローカル実行できます。

Embeddings(ベクトル埋め込み)
2020年6月リリース
・テキストやコードをベクトル(数値列)に変換するサービスです。埋め込みベクトルはテキストの意味的な類似度計算や検索、クラスタリングに利用できます。

DALL·E(画像生成)
・2021年1月リリース
・入力したテキストの説明に基づき、新規の画像を生成するシリーズモデルです。
・DALL·E 2(2022年7月)は解像度や写実性が大きく向上し、複数の概念や作風の組み合わせも可能になりました。
・DALL·E 3(2023年10月)は大幅に指示理解力を高めてより対話的に画像生成できるようになっています。
・現在は4o Image Generation(2025年3月)としてChatGPTに統合済みです。

Moderation API(有害データ判定API)
・2022年8月リリース
・テキストや画像に有害な内容が含まれていないかを自動判定するコンテンツ審査用サービスです。性的・暴力的表現やヘイトスピーチ、自己傷害の助長などポリシー違反の可能性があるかを分類モデルで検出します。

研究向け・実験的サービス

Sora(動画生成)
・2024年12月リリース
・テキスト、画像、動画などを入力して、新たな動画クリップを生成できるモデルです。短いプロンプトから最大20秒程度の映像を作成でき、既存動画の様式を変換したり、2つの動画を融合することも可能です。

Operator(サイト自動閲覧)
・2025年1月リリース
・ウェブ上のタスクを自動で実行するエージェントAIです。商品の注文や旅行予約、ウェブ上での定型業務を人間の代わりにこなすことができます。利用はまだ米国のProユーザ限定です。

Deep Research(ディープリサーチ)
・2025年2月リリース
・インターネット上の大量の情報を自動収集・分析し、複数段階の調査タスクを遂行してレポートを作成するエージェント機能です。人間のリサーチアナリストが数時間かける調査を数十分で完了できます。

Tasks(スケジュール機能)
・2025年1月リリース
・「毎朝8時にニュース要約を送って」や「来週○日にリマインドして」といったタスクを設定でき、指定時刻になると自律的にプロンプトを実行し結果を通知します。

ChatGPT統合機能

Voice(音声会話機能)
・2023年9月リリース
・ユーザがマイクから話しかけると音声認識(Whisper)でテキスト化され、それに対する応答を音声合成で返します。2024年にはGPT-4ベースの高度音声モード(Advanced Voice)も登場し、より自然で表現力豊かな音声応答が可能になりました。

Vision(画像理解機能)
・2023年9月リリース
・画像をアップロードして、その内容を解析・理解させる機能です。例えば写真の解析、図表の説明、手書きメモの読み取り、あるいは画像中の不具合箇所の特定など、視覚情報をテキストで説明します。この機能により「見る」能力を獲得しました。

Memory(メモリー機能)
・2024年9月リリース
・ユーザとのこれまでの対話内容やユーザが明示的に教えた情報を長期間保持し、今後の会話に活かす機能です。2025年4月のアップデートでは、保存メモリーに加えて過去のチャット履歴全体も参照されるようになりました。

Browsing(ブラウジング機能)
・2023年5月リリース
・インターネット上の最新情報を検索・取得して回答に反映する機能です。新しいニュースや出来事についても回答できるようになりました。2023年9月に「Browse with Bing」として再リリースされました。

Code Interpreter(コードインタープリタ)
・2023年7月リリース
・ユーザがデータ処理や計算をチャット内で依頼すると、モデルがPythonスクリプトを生成・実行し、その結果を回答として返します。例えばCSVデータの分析やグラフ作成、画像の編集、数値計算などを自律的に行います。後に「Advanced Data Analysis」に改称されました。

Plugins(プラグイン機能)
・2023年5月リリース
・外部のサービスやデータベースと連携する追加機能をChatGPTに組み込める拡張機能です。OpenAIが提供した公式プラグイン(BrowsingやCode Interpreterなど)に加え、サードパーティ企業が提供する何百ものプラグイン(例: レストラン予約のOpenTableや計算エンジンのWolframなど)が利用可能でした。

Record(録音・文字起こし機能)
・2023年6月リリース
・音声の録音、文字起こし、要約、アクションアイテム抽出、共有までを自動で行うAI録音サポート機能です。

まとめ

この記事はDeep Researchを元に書いてます。かなり手直ししてるけど。

最近のサービスでは画像生成が素晴らしいね。動画生成はまだいまいち。そろそろエージェントAIで凄いの来るかな。

ChatGPT各バージョンの特徴まとめてみた(o4-mini-highまで)

日頃お世話になっているOpenAIのChatGPT。今まで出てきたモデルを改めて確認してみた。

各モデル比較

ごちゃごちゃしてきたので表にしました。

モデルIQ検索推論コンテキストウィンドウリリース
GPT‑3.5644,0962020/07
GPT-48132,7682023/03
GPT-4o92128,0002024/05
o1122200,0002024/12
o3136200,0002025/04

IQ(知能指数)はネットから引っ張ってきた参考値です。
コンテキストウィンドウは記憶できるトークン数です。
リリースは正式版が公開された月です。

GPT‑3.5

・2020年7月~2024年7月
・初期の無料版モデル
・自然な会話生成や基本的な質問応答に優れている
・テキストや数値データの処理に特化

GPT‑4 シリーズ

GPT‑4
・2023年3月~2025年4月
・自然言語理解の精度が向上し、より一貫性のある回答が可能
・安全性や誤情報の低減対策も強化

GPT‑4.5 Preview
・2025年3月~2025年7月
・教師なし学習で性能向上
・モデルサイズはOpenAI史上最大

GPT‑4.1
GPT‑4.1 mini
GPT‑4.1 nano
・2025年4月リリース
・API専用モデル
・コンテキストウィンドウ100万トークン
・miniとnanoは軽量版
・2025年5月web版追加

GPT‑4o シリーズ

GPT‑4o
・2024年5月リリース
・oはomni(全て・あらゆる)
・マルチモーダル機能が強化され、画像や音声も同時に処理できる
・処理速度は前モデルの約2倍と非常に高速で、非英語圏の言語サポートも強化
・より正確で多様な課題に対応
・2025年1月タスク機能ベータ版追加
・2025年3月画像生成機能追加

GPT‑4o mini
・2024年7月リリース
・低コストかつ高速な処理が可能
・API利用時のコストも大幅に削減され、約3~4%程度の料金で利用できる
・ただし一部機能は制限される

o1 シリーズ

o1
・プレビュー版2024年9月リリース
・正式版2024年12月~2025年4月
・従来のモデルとは異なり、「じっくり考える」能力を重視
・数学、物理、科学、プログラミングなどの高度な推論で人間の博士レベルに近い性能を発揮

o1 mini
・2024年9月~2025年4月
・o1に比べて低コストで推論が実行できる

o1 pro mode
・2024年12月リリース
・高額会員専用モデル(月額200ドル)
・o1に追加の計算資源を使ってさらに難解な問題に最適化されている

o3 シリーズ

o3-mini
・2025年1月~2025年4月
・より軽量かつ高速なモデルで、モバイルアプリやリソース制約のある環境での利用に適する
・o1-miniの後継としてさらに推論力が向上している
・2025年2月Deep Research追加

o3-mini-high
・2025年1月~2025年4月
・o3‑miniよりもさらに深い思考プロセスを経るように設計されている
・数学や科学、プログラミングなどのSTEM分野においてより正確性や詳細な解析結果を提供

o3
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・最も強力な推論モデル
・IQ136
・2025年4月タスク機能追加

o3-pro
・2025年6月リリース
・高額会員専用モデル(月額200ドル)

o4 シリーズ

o4-mini
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・高速・低コストで推論できるよう最適化されたモデル
・2025年4月タスク機能追加

o4-mini-high
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・o4-miniの高性能版

まとめ

とにかく進化が凄まじいね。初期は嘘ついたり変なコード書いたりしてたのに、今じゃ信頼性上がって仕事上のパートナーと言っても過言じゃない。

ちなみに、初めてChatGPTに触れたのはBingAIでした(中身がGPT-4)。これは凄いと思い、2023年3月に有料プランに申し込み使い続けています。

今後の進化も楽しみです。