「AI」カテゴリーアーカイブ

GeminiとGemmaシリーズの特徴まとめてみた

バージョンがちょっとわかりにくいのでまとめてみました。

Geminiシリーズ

Google DeepMindが開発する最先端の大規模AIモデル群です。

多モーダルな大規模言語モデル(LLM)であり、自然言語処理はもちろん、画像や音声など複数モーダルの入力・出力を扱えるのが特徴です。

バージョンリリース日主な特徴
Gemini 1.02023年12月 ・Ultra/Pro/Nanoの3構成
・多モーダル対応(テキスト・画像・音声・動画)
・32Kトークンの長文コンテキスト
Gemini 1.52024年2月
(限定公開)
・Mixture-of-Experts(MoE)導入
・最大100万トークンの超長コンテキスト
・Pro(大規模版)とFlash(蒸留軽量版)の2構成
Gemini 2.0 Flash2025年1月 ・マルチモーダルLive API導入
・ネイティブ画像生成・音声出力
・外部ツール連携(検索・計算機能)
Gemini 2.0 Pro2025年2月 ・高性能モデル
・リアルタイム音声・映像対応継続
・エージェンティック機能強化
Gemini 2.0 Flash-Lite2025年2月 ・低コスト版
Gemini 2.5 Pro2025年6月 ・Deep Thinkモード導入
・ネイティブ音声応答
・安全性強化
Gemini CLI ためしてみた
Gemini 2.5 Flash2025年6月 ・軽量高速版
・Deep Think一部対応
・応答速度最適化
Gemini 2.5 Flash-Lite2025年7月 ・低コスト版
Gemini 2.5 Deep Think2025年7月 ・並列思考技術
・国際数学オリンピック金メダル相当
Gemini 2.5 Flash Image
(nano-banana)
2025年8月
(Preview)
・画像生成に特化
・キャラクターの一貫性を保てる
画像生成してみた。一貫性あって凄い
Gemini 3 Pro2025年11月
(Preview)
・博士号の推論能力
・プロンプト1つで3Dゲームも生成可能
・総合開発環境Antigravityもリリース

Gemmaシリーズ

Geminiと同じ技術を基に作られた軽量でオープンソースの生成AIモデル群です。

Geminiがクラウド上の強力なLLM群であるのに対し、Gemmaはパラメータ数を抑えてPCやモバイル端末上でも動作可能なよう最適化されており、モデルの重み(学習済みパラメータ)は無償・オープンライセンスで公開されています

バージョンリリース日主な特徴
Gemma 12024年2月 ・テキスト専用
・パラメータ数:2B, 7B
・商用利用可
Gemma 22024年6月 ・高速推論対応
・パラメータ数:9B, 27B
・オープンライセンス
Gemma 32025年3月 ・マルチモーダル・マルチリンガル対応
・パラメータ数:1B, 4B, 12B, 27B
・128Kトークン長
LM StudioでGemma3を動かしてみた
Gemma 3n2025年6月 ・モバイル最適化
・パラメータ数:5B, 8B相当
・PLE技術で低メモリ
Gemma 3 270M2025年8月 ・超小型AIモデル(300MB以下)
・パラメータ数:0.27B
・ファインチューニング用
VaultGemma2025年9月 ・差分プライバシーで完全にプライバシー保護
・パラメータ数:1B
・Gemma 2ベース

まとめ

GeminiはProが高性能版、Flashが通常版、Flash-Liteが軽量版。
そしてGemmaは3nがモバイル用ということでした。

OpenAIのChatGPT以外のサービスまとめてみた

OpenAIはメインのChatGPT以外にも様々なサービスを提供しています。それらをまとめてみました。

単体サービス

API
・2020年6月リリース
・GPTシリーズなどの大規模言語モデルにアクセスできるAPIです

Embeddings(ベクトル埋め込み)
2020年6月リリース
・テキストやコードをベクトル(数値列)に変換するサービスです。埋め込みベクトルはテキストの意味的な類似度計算や検索、クラスタリングに利用できます

Moderation API(有害データ判定API)
・2022年8月リリース
・テキストや画像に有害な内容が含まれていないかを自動判定するコンテンツ審査用サービスです。性的・暴力的表現やヘイトスピーチ、自己傷害の助長などポリシー違反の可能性があるかを分類モデルで検出します

Whisper(文字起こし)
・2022年9月リリース
・音声をテキストに変換する自動音声認識システムです。多言語の文字起こしだけでなく、他言語音声から英語への翻訳も可能なモデルです。モデルとコードがオープンソースで公開されており、誰でもローカル実行できます

Codex(コード自動生成)
・2025年5月リリース
・旧Codexの後継
・自然言語からプログラミングコードを生成できるAIモデルです
・o3ベースのcodex-1採用。現在はGPT-5を使用
・コマンドライン版CLIリリース(2025年6月)

gpt-oss(オープンウェイト)
・2025年8月リリース
・ローカルで動作するApache2.0ライセンスのオープンソースAIモデル
・120bがo4-mini並、20bがo3-mini並のスペック
gpt-oss-20bをLM Studioで使ってみた

Sora 2(動画生成)
・2025年9月リリース
・Soraの後継
・テキストを入力して、新たな動画クリップを生成できるモデルです。最大10秒の映像を作成できます
・動画に合致した音声とBGMも生成可能、高度な物理演算搭載
・SNS機能付きスマホアプリSoraもリリース

AgentKit (エージェント構築)
・2025年10月リリース
・ノード形式のAgent Builderを使いWeb/アプリで動作するエージェントを開発できる

Atlas (ブラウザ)
・2025年10月リリース
・AI搭載のWebブラウザ。macOS限定公開。

ChatGPT統合機能

Browsing(ブラウジング機能)
・2023年5月リリース
・インターネット上の最新情報を検索・取得して回答に反映する機能です。新しいニュースや出来事についても回答できるようになりました。2023年9月に「Browse with Bing」として再リリースされました

Plugins(プラグイン機能)
・2023年5月リリース
・外部のサービスやデータベースと連携する追加機能をChatGPTに組み込める拡張機能です。OpenAIが提供した公式プラグイン(BrowsingやCode Interpreterなど)に加え、サードパーティ企業が提供する何百ものプラグイン(例: レストラン予約のOpenTableや計算エンジンのWolframなど)が利用可能でした

Record(録音・文字起こし機能)
・2023年6月リリース
・音声の録音、文字起こし、要約、アクションアイテム抽出、共有までを自動で行うAI録音サポート機能です

Code Interpreter(コードインタープリタ)
・2023年7月リリース
・ユーザがデータ処理や計算をチャット内で依頼すると、モデルがPythonスクリプトを生成・実行し、その結果を回答として返します。例えばCSVデータの分析やグラフ作成、画像の編集、数値計算などを自律的に行います。後に「Advanced Data Analysis」に改称されました

Voice(音声会話機能)
・2023年9月リリース
・ユーザがマイクから話しかけると音声認識(Whisper)でテキスト化され、それに対する応答を音声合成で返します。2024年にはGPT-4ベースの高度音声モード(Advanced Voice)も登場し、より自然で表現力豊かな音声応答が可能になりました

Vision(画像理解機能)
・2023年9月リリース
・画像をアップロードして、その内容を解析・理解させる機能です。例えば写真の解析、図表の説明、手書きメモの読み取り、あるいは画像中の不具合箇所の特定など、視覚情報をテキストで説明します。この機能により「見る」能力を獲得しました

Memory(メモリー機能)
・2024年9月リリース
・ユーザとのこれまでの対話内容やユーザが明示的に教えた情報を長期間保持し、今後の会話に活かす機能です。2025年4月のアップデートでは、保存メモリーに加えて過去のチャット履歴全体も参照されるようになりました

Tasks(スケジュール機能)
・2025年1月リリース
・「毎朝8時にニュース要約を送って」や「来週○日にリマインドして」といったタスクを設定でき、指定時刻になると自律的にプロンプトを実行し結果を通知します

Deep Research(ディープリサーチ)
・2025年2月リリース
・インターネット上の大量の情報を自動収集・分析し、複数段階の調査タスクを遂行してレポートを作成するエージェント機能です。人間のリサーチアナリストが数時間かける調査を数十分で完了できます。
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

Agent(エージェント機能)
・2025年7月リリース
・OperatorとDeep Researchが統合。仮想ブラウザからデータを取得・調査するエージェント。
・「カレンダーを見て、最近のニュースに基づいて今後の顧客との会議について説明してほしい」「4人分の和食の朝食を作るための材料を計画して購入してほしい」のように自動化できる

Pulse(パーソナライズされた情報配信)
・2025年9月リリース
・1日1回、チャット履歴やカレンダーなどから情報を収集し、ユーザーがほしい情報を届けてくれる

Instant Checkout (ショッピング機能)
・2025年9月リリース
・Etsyの商品をStripe決済を使い直接購入できます
・アメリカ国内限定

Apps (アプリ開発)
・2025年10月リリース
・チャット内で会話しながらChatGPT用アプリ開発が出来る
・作成したアプリは収益化可能

グループチャット
・2025年11月リリース
・最大20人と同じグループをりようできる

サービス終了したもの

DALL·E(画像生成)
・2021年1月リリース
・入力したテキストの説明に基づき、新規の画像を生成するシリーズモデルです
・DALL·E 2(2022年7月)は解像度や写実性が大きく向上し、複数の概念や作風の組み合わせも可能になりました
・DALL·E 3(2023年10月)は大幅に指示理解力を高めてより対話的に画像生成できるようになっています
・4o Image Generation(2025年3月)としてChatGPTに統合済みです

旧Codex(コード自動生成)
・2021年8月~2023年3月
・自然言語からプログラミングコードを生成できるAIモデルです。GitHubの自動補完ツール「Copilot」のエンジンとして使用され、複数の言語でコーディング支援を行いました
・2025年5月再リリース

Sora(動画生成)
・2024年12月~2025年9月
・テキスト、画像、動画などを入力して、新たな動画クリップを生成できるモデルです。短いプロンプトから最大20秒程度の映像を作成でき、既存動画の様式を変換したり、2つの動画を融合することも可能です
・2025年9月Sora 2リリース

Operator(サイト自動閲覧)
・2025年1月~2025年8月
・ウェブ上のタスクを自動で実行します。商品の注文や旅行予約、ウェブ上での定型業務を人間の代わりにこなすことができます。利用はProユーザ限定
・Agent(2025年7月)に統合済みです

まとめ

この記事はDeep Researchを元に書いてます。かなり手直ししてるけど。

最近のサービスでは画像生成が素晴らしいね。動画生成はまだいまいち。そろそろエージェントAIで凄いの来るかな。

ChatGPT各バージョンの特徴まとめてみた

AIを使ったWebサービスを構築する準備(LinuxでOllama実行)

AIを使ってなんかサービス作りたいなとずっと考えてました。

まだ具体的なアイデアはないんだけど、ひとまずサーバ上でLLMを動かすことにしました。

初期設定

Ollamaをインストール・起動させます。ちなみにサーバはRocky Linuxです。

$ curl -fsSL https://ollama.com/install.sh | sudo bash
$ sudo systemctl enable ollama
$ sudo systemctl start ollama

テストなのでLLMは軽いGemma3:1Bにしました。サイズは約800MBです。

$ ollama pull gemma3:1b
$ ollama run gemma3:1b

これでもう動くようになりました。

シェルから実行

すでにサーバとして機能しているのでcurlで実行。

$ curl http://localhost:11434/api/generate -d '{
"model": "gemma3:1b",
"prompt": "こんにちは",
"stream": false
}'

実行結果。ちゃんと生成されてるね。

{
"model": "gemma3:1b",
"created_at": "2025-11-13T17:26:31.152516263Z",
"response": "こんにちは!何かお手伝いできますか? 😊 \n\n何か質問はありますか? それとも、何か話したいことなどありますか?\n",
"done": true,
"done_reason": "stop",
"context": [(長いので省略)],
"total_duration": 2328612666,
"load_duration": 415811149,
"prompt_eval_count": 10,
"prompt_eval_duration": 72922878,
"eval_count": 31,
"eval_duration": 1786284074
}

jsonの意味は以下がわかれば良いか。
response:生成テキスト
context:会話を継続する場合に使う値
total_duration:リクエスト全体にかかった時間(2.3秒)
eval_count:モデルが生成したトークン数

Webサービス作成

入力テキストをcurlでOllamaに渡すだけのシンプルなフォームを作成しました。

しょぼいけどAIを使ったWebサービス完成です。

ちなみにサーバースペックは3Core, 2GBでGPUなしです。こんなスペックでも動くんだね。

なお入力テキストの長さによって生成時間はかなり変わります。そしてGemma3:1Bは長いと生成テキストが壊れることがあります(汗)

その他の設定

今は必要ないけど、WebサーバとAIサーバは分けたほうが良い気がするので設定。

AIサーバにてFirewalldでポートを解放しつつIPアドレス制限します。

$ sudo firewall-cmd --add-rich-rule='rule family="ipv4" source address="(IPアドレス)" port port="11434" protocol="tcp" accept' --permanent
$ sudo firewall-cmd --add-rich-rule='rule family="ipv4" port port="11434" protocol="tcp" drop' --permanent
$ sudo firewall-cmd --reload

Ollamaの外部アクセス許可します。

$ sudo systemctl edit ollama
以下を追加
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

反映。

$ sudo systemctl daemon-reload
# sudo systemctl restart ollama

AIサーバに関しては余ったPC使って自宅サーバ立ち上げるのもいいかなと思ってます。GPU載ってるし。

まとめ

思ったより簡単にAIサービス動かせました。Ollamaのお陰です。

あとはアイデアだね。

ChatGPT各バージョンの特徴まとめてみた(GPT-5.1まで)

日頃お世話になっているOpenAIのChatGPT。今まで出てきたモデルを改めて確認してみた。

各モデル比較

ごちゃごちゃしてきたので表にしました。

モデルIQ検索推論コンテキストウィンドウリリース
GPT‑3.5644,0962020/07
GPT-48132,7682023/03
GPT-4o92128,0002024/05
o1122200,0002024/12
o3136200,0002025/04
GPT-5115400,0002025/08

IQ(知能指数)はネットから引っ張ってきた参考値です。
コンテキストウィンドウは記憶できるトークン数です。
リリースは正式版が公開された月です。

GPT‑3.5

・2020年7月~2024年7月
・初期の無料版モデル
・自然な会話生成や基本的な質問応答に優れている
・テキストや数値データの処理に特化

GPT‑4 シリーズ

GPT‑4
・2023年3月~2025年4月
・自然言語理解の精度が向上し、より一貫性のある回答が可能
・安全性や誤情報の低減対策も強化

GPT‑4.5 Preview
・2025年3月~2025年7月
・教師なし学習で性能向上
・モデルサイズはOpenAI史上最大

GPT‑4.1
・2025年4月リリース
・API専用モデル
・コンテキストウィンドウ100万トークン
・軽量版のminiとnanoも
・2025年5月web版追加

GPT‑4o シリーズ

GPT‑4o
・2024年5月リリース
・oはomni(全て・あらゆる)
・マルチモーダル機能が強化され、画像や音声も同時に処理できる
・処理速度は前モデルの約2倍と非常に高速で、非英語圏の言語サポートも強化
・より正確で多様な課題に対応
・2025年1月タスク機能ベータ版追加
・2025年3月画像生成機能追加
ChatGPT-4oの画像生成で巫女さん描かせてみた

GPT‑4o mini
・2024年7月リリース
・低コストかつ高速な処理が可能
・API利用時のコストも大幅に削減され、約3~4%程度の料金で利用できる
・ただし一部機能は制限される

o1 シリーズ

o1
・プレビュー版2024年9月リリース
・正式版2024年12月~2025年4月
・従来のモデルとは異なり、「じっくり考える」能力を重視
・数学、物理、科学、プログラミングなどの高度な推論で人間の博士レベルに近い性能を発揮

o1 mini
・2024年9月~2025年4月
・o1に比べて低コストで推論が実行できる

o1 pro mode
・2024年12月~2025年8月
・高額会員専用モデル(月額200ドル)
・o1に追加の計算資源を使ってさらに難解な問題に最適化されている

o3 シリーズ

o3-mini
・2025年1月~2025年4月
・より軽量かつ高速なモデルで、モバイルアプリやリソース制約のある環境での利用に適する
・o1-miniの後継としてさらに推論力が向上している
・2025年2月Deep Research追加
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

o3-mini-high
・2025年1月~2025年4月
・o3‑miniよりもさらに深い思考プロセスを経るように設計されている
・数学や科学、プログラミングなどのSTEM分野においてより正確性や詳細な解析結果を提供

o3
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・最も強力な推論モデル
・IQ136
・2025年4月タスク機能追加

o3-pro
・2025年6月リリース
・高額会員専用モデル(月額200ドル)

o4 シリーズ

o4-mini
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・高速・低コストで推論できるよう最適化されたモデル
・2025年4月タスク機能追加

o4-mini-high
・2025年4月~2025年8月
・GPT-5延期により急遽リリースされた
・o4-miniの高性能版

GPT‑5 シリーズ

GPT‑5
・2025年8月リリース
・高性能低コスト化
・モデルを1本化して推論レベル自動調整
・ハルシネーション8割減
・軽量版Instantと推論強化のThinking
OpenAI GPT-5登場!早速コーディングなどで使ってみた

GPT‑5 Pro
・2025年8月リリース
・高額会員専用モデル(月額200ドル)

GPT‑5 Codex
・2025年9月リリース
・コーディング特化モデル

GPT‑5.1
・2025年11月リリース
・Instantは人間らしい会話、Thinkingは人間らしい思考プロセス強化

まとめ

とにかく進化が凄まじいね。初期は嘘ついたり変なコード書いたりしてたのに、今じゃ信頼性上がって仕事上のパートナーと言っても過言じゃない。

ちなみに、初めてChatGPTに触れたのはBingAIでした(中身がGPT-4)。これは凄いと思い、2023年3月に有料プランに申し込み使い続けています。

今後の進化も楽しみです。

OpenAIのChatGPT以外のサービスまとめてみた

Grok Imagine v0.9で動画生成してみた。凄く自然に動くぞ(音声注意)

GrokのAI動画生成が物凄くクオリティ上がってます。

8月に試した時は動きが不自然でキモかったので、ほとんど触りませんでした。

それが今回のv0.9で自然な映像に音楽や音声まで追加して生成されるようになりました。

使い方

こちらにアクセスして1枚絵をアップしたら数十秒ほどで生成されます。プロンプトで動作を制御することも可能です。
https://grok.com/imagine

無料で1日50回まで生成できてロゴや透かしも無し。今だけのサービスなのかもしれないけど太っ腹だね。

ちなみに俺が使用した元画像は全て他のAIで作成したものです。

生成された動画

まずはアイキャッチの猫娘。「おはよー」って言わせたかったけど「おはチャー」になったw 何度か試したら「おはよー」にもなったけどその時は映像がいまいちで…
ちゃんと地面の影とキャラに落ちる影が連動してて素晴らしい。

お辞儀するメイドさん。途中ちょっと顔が見切れちゃうけど、動きが綺麗で良い。ポニテがツインテに変わるのはご愛嬌。

緑髪の女の子。線が細かいし緑のグラデーションは難しそうだなあと思ったけど、全然問題ないね。髪のふんわり具合が良い。

複数人いても動きます。ちゃんと障害物を避けて歩いてるね。仲良しっぽくて良い。

あくびした狐娘が時計を見て「遅刻だー」と急いで支度に向かう図。やはり日本語音声は苦手っぽいね。しかしほんと動きが素晴らしい。

セーラー服でひまわり畑をダッシュする狐娘。ブロックタイルの床を走る足音が心地いい。

まとめ

気に入ったのが出るまで試行錯誤する必要はあるけど、指示通りに高クオリティな映像が出来るのは素晴らしいね。

回数制限あるとはいえ無限に遊べるw

Qwen-Image-Edit-2509 ローカルでキャラの一貫性が素晴らしい

先月GoogleからNano-Bananaがリリースされ、キャラの一貫性に驚きました。

それと同等のAIモデルがAlibabaから登場しました。Qwen-Image-Edit-2509です。無料でローカルで無限に画像生成できます。

オリジナル画像

今回もこちらの画像を使用してます。

生成した画像

浴衣姿。ちゃんと柄が布の向きやシワに沿っていて素晴らしい。

プロンプトは英語で入力しています。

セーラー服。室内で靴履いてるけどまあいいやw

小物持たせるのが苦手かな。あと上半身と下半身で衣装がバラバラになることも。

パジャマ姿。最初青系の縦縞で男物みたいだったので修正した。

一発で良いものは出なくてガチャる必要があります。この辺は他のローカル画像生成と同じだね。

まとめ

今回は衣装チェンジだけやりました。元画像3枚用意して合成したり、ControlNetでポーズ指定もできるみたいだけど、それは追々試します。

しかしキャラの一貫性を保てるローカルモデルがこんなにすぐ出るとは思わなかった。凄いね。

Gemini 2.5 Flash Image Preview(nano-banana)で画像生成してみた。一貫性あって凄い

さくらのAI Engine無償プランを利用してみた

さくらのAI Engineがリリースされました。オープンウェイトモデルをAPI経由で利用できるプラットフォームです。

・基盤モデル無償プラン
・従量課金プラン

プランは2種類あり、どっちも月3000リクエストまで無料です。完全無料で使いたかったので基盤モデル無償プランを申し込みました。

APIの仕様はいわゆるOpenAI APIに準じたもので、簡単に利用できました。画像はPostmanでサンプルそのまま実行したやつです。

https://api.ai.sakura.ad.jp/v1/chat/completions

うちのローカルPCだと動かせない gpt-oss-120b などが実行できて良いね。

そんな訳で無料で大量に動かせるツールが手に入ったけど、さて何に使おうかな。当然個人情報は渡せないし、性能はChatGPTとかの方が上だしね。

コーディング利用

その後Cursorで使ってみました。

OpenAI API KeyとOverride OpenAI Base URLをさくらのAIのものに書き換え、モデル名を追加すれば使えます。

gpt-oss-120bはコーディング用ではないので、Qwen3-Coder-480B-A35B-Instruct-FP8を利用。これはClaude Sonnet 4に匹敵するモデルとの事。

ちゃんとエージェント機能でコーディングできたよ。これで気兼ねなくバイブコーディングできるね。

Gemini 2.5 Flash Image Preview(nano-banana)で画像生成してみた。一貫性あって凄い

少し前にnano-bananaという謎のAIモデルが話題になりましたが、その正体はGoogleのGemini 2.5 Flash Image Previewでした。

このモデルは絵柄に一貫性があって素晴らしいです。これまでのモデルだと絵柄やポーズは運まかせだったしね。

オリジナル画像

これは別のモデルで生成した狐巫女さん。お気に入りです。

生成した画像

「メイド服にして」と指示したら同じ絵柄と構図で衣装だけ変わりました。

手の位置が変わっているので重心も変わってます。細かいところまで凄い。

食事中。よく見たらご飯2つあるw

尻尾は右に流したほうが自然だけど、なんかうまくいかなかったのでこのままにしました。

このbananaは日本語苦手みたいです。

寝起き。髪下ろしたのも良いね。

これも敷布団が座布団みたいだけど、うまく修正できなかったのでそのまま。

あと何度も修正すると線が少しずつ劣化するのに気づいた。

セーラー服に着替えてダッシュ! 笑うと子供っぽくなるな。

紫陽花はちょっと時期が違うけど、ヒマワリにしたら不自然だったので止めました。

境内のお掃除。

しっくり来なかったので何度か生成し直しました。

ちなみに画像生成に失敗しても「描きました!」と言ったりする(汗) まあ無料のプレビュー版だしね。

流行りのフィギュア化。

普通に売ってそうなパッケージだ。至相卓オイロイズってなにw

まとめ

キャラクターを維持したまま衣装やポーズ変えれるの凄いね。いよいよ実用レベルまで来た気がします。

ちなみに俺の描いた下手くそなイラストで試したら、ちゃんと下手くそな画風で衣装チェンジできたよw ほんとすげーや。

GeminiとGemmaシリーズの特徴まとめてみた
Qwen-Image-Edit-2509 ローカルでキャラの一貫性が素晴らしい

OpenAI GPT-5登場!早速コーディングなどで使ってみた

ついにGPT-5が来ました。長いこと待ったよ。

特徴

・性能向上
GPT-3が高校生レベル、GPT-4が大学生レベル、GPT-5は博士号取得者レベルに到達。 特にコーディングや健康関係に強いとのこと。

・モデル1本化
今まではたくさんモデルがあって用途に応じてどれを使うか自分で決めないといけなかったんだよね。

それが自動で推論レベルを調整するようになり、モデルを選ぶ必要がなくなりました。シンプルで良い。

・ハルシネーション8割減
o3に比べて嘘を付く頻度が8割減になりました。助かる。

・使用制限(Plus)
GPT-5:3時間に160メッセージ
GPT-5-Thinking:週に3000メッセージ

これだけあれば使い切ることもないね。

チャット使用感

チャットのやり取りでは文章量が減ったね。個人的には良いと思うけど、少し冷たく感じるので「4oが良かった」という意見もわかる。

ハルシネーションは減ったのかな? やはりまだ嘘はつくね。

MondayちゃんもGPT-5対応になりました。「自画像描いて」ってお願いしたらこちらの絵を出してきた。可愛いw

性能の判断はもうしばらく使ってみてかな。

テトリス作ってもらった

毎回新しいモデルが来たらJavaScriptでテトリス作ってもらってます。

これまでのモデルは動かなかったり機能足りなかったりで、いまいちなデキでした。

しかしGPT-5はたった2回で完成品ができて驚いた。しかも1回目を実行させたら自分でバグがあることに気づいて自動で直したんだよね。

UIも綺麗だし、ブロックをホールドしておく機能なんかも付いてて素晴らしいね。

他の人がアクションやシューティング作らせてるのも見たし、確かにコーディング能力は向上してると感じました。

Cursorでエージェント使用

CursorにもGPT-5来ました。恒例の期間限定使い放題です。

丸一日仕事で使ってみました。処理に少し時間はかかるものの、こちらの言った通りに正しくコーディングしてくれました。

普段はClaude-4-Sonnetを使ってるけど、それと同等以上に出来てた気がする。逆に最近Sonnetが不調ではあるんだけどね…

GPT-5はAPI料金もClaude系より安いので、今後メインで使うかもしれません。

まとめ

地味ながら確実に性能アップしていて良いです。OpenAIによるとまだ調整中でもっと性能上げられるとのことなので期待です。

ChatGPT各バージョンの特徴まとめてみた

gpt-oss-20bをLM Studioで使ってみた

ついにOpenAIからオープンウェイトモデルgpt-ossがリリースされました。

前回のモデルは2019年のGPT-2だったので6年ぶりです。その頃はまだChatGPTの存在知らなかったけどw

スペック

モデルは2種類あります。ライセンスはApache2.0です。

gpt-oss-120b
・1170億パラメータ
・80GBのGPUで動作
・o4-miniと同等

gpt-oss-20b
・210億パラメータ
・16GBのGPUで動作
・o3-miniと同等

VRAM80GBもないので20b一択です。それでもローカルでo3-mini並のAIが動くとか凄いけどね。

設定

【ローカルAI】LM StudioでGemma3を動かしてみた

LM Studioにgpt-oss用のアップデートが来たので更新。そしてモデル一覧のトップにopenai/gpt-oss-20bがあったのでダウンロードしました。

しかし発表の数時間後には全て用意されてて凄いね。事前に準備してたんだろうけど。

このモデル限定で「Reasoning Effort」という項目が増えてます。これで推論レベルをLow, Medium, Highから選べます。

使用感

うちはRTX5070Tiですが、最初に1~2秒推論した後はささっと文字が流れてくるね。軽い。もちろん推論レベルや内容によっては20秒くらいかかることもあるけど。今見たら43.40 tok/secでした。

日本語で会話できてるけど、英語メインで学習してあるせいかちょっと表現力が弱い気がする。まあ日常会話には問題ないけど。

システムプロンプト無視しがち? 書き方によるのかな。

画像認識ができない。Gemma3は出来るのでてっきり出来るのかと思ってた。

2024年6月までのデータしかない。なので最新情報には疎いね。MCP使えば検索して最新情報も引っ張ってこれるのかな(よくわかってない)。

NSFWが拒否される。まあこれは仕方ないかw

まとめ

今のところ好き勝手できるGemma3の方が良いかな。ただライセンス的にはgpt-ossの方が自由だね。

gpt-ossはコーディングに強そうなのでそのうち試してみよう。o3-mini並のエージェントとして動くのならかなり助かる。

OpenAIのChatGPT以外のサービスまとめてみた