月別アーカイブ: 2025年8月

GeminiとGemmaシリーズの特徴まとめてみた

バージョンがちょっとわかりにくいのでまとめてみました。

Geminiシリーズ

Google DeepMindが開発する最先端の大規模AIモデル群です。

多モーダルな大規模言語モデル(LLM)であり、自然言語処理はもちろん、画像や音声など複数モーダルの入力・出力を扱えるのが特徴です。

バージョンリリース日主な特徴
Gemini 1.02023年12月 ・Ultra/Pro/Nanoの3構成
・多モーダル対応(テキスト・画像・音声・動画)
・32Kトークンの長文コンテキスト
Gemini 1.52024年2月
(限定公開)
・Mixture-of-Experts(MoE)導入
・最大100万トークンの超長コンテキスト
・Pro(大規模版)とFlash(蒸留軽量版)の2構成
Gemini 2.0 Flash2025年1月 ・マルチモーダルLive API導入
・ネイティブ画像生成・音声出力
・外部ツール連携(検索・計算機能)
Gemini 2.0 Pro2025年2月 ・高性能モデル
・リアルタイム音声・映像対応継続
・エージェンティック機能強化
Gemini 2.0 Flash-Lite2025年2月 ・低コスト版
Gemini 2.5 Pro2025年6月 ・Deep Thinkモード導入
・ネイティブ音声応答
・安全性強化
Gemini 2.5 Flash2025年6月 ・軽量高速版
・Deep Think一部対応
・応答速度最適化
Gemini 2.5 Flash-Lite2025年7月 ・低コスト版
Gemini 2.5 Deep Think2025年7月 ・並列思考技術
・国際数学オリンピック金メダル相当

Gemmaシリーズ

Geminiと同じ技術を基に作られた軽量でオープンソースの生成AIモデル群です。

Geminiがクラウド上の強力なLLM群であるのに対し、Gemmaはパラメータ数を抑えてPCやモバイル端末上でも動作可能なよう最適化されており、モデルの重み(学習済みパラメータ)は無償・オープンライセンスで公開されています

バージョンリリース日主な特徴
Gemma 12024年2月 ・オープンソース (2B/7B)
・テキスト専用
・商用利用可
Gemma 22024年6月 ・大規模化 (9B/27B)
・高速推論対応
・オープンライセンス
Gemma 32025年3月 ・マルチモーダル・マルチリンガル対応
・1B/4B/12B/27B
・128Kトークン長
Gemma 3n2025年6月 ・モバイル最適化
・PLE技術で低メモリ
・5B/8B相当
Gemma 3 270M2025年8月 ・超小型AIモデル(300MB以下)
・エッジデバイス向け
・ファインチューニング用

まとめ

GeminiはProが高性能版、Flashが通常版、Flash-Liteが軽量版。
そしてGemmaは3nがモバイル用ということでした。

父の初盆に参列する

父の初盆に参列しました。

朝10時に親族が集まり、少し遅れてきたお坊さんが念仏を唱えみんなで焼香。終わるとお坊さんはすぐ帰っていきました。お盆は忙しいっぽい。

その後バスで移動しみんなで食事。写真以外はご飯味噌汁に、唐揚げとシュークリームがあったかな。豪勢だね。

車の人が多いので俺ともう1人だけお酒を飲む。勧められるままに飲んだけど、ビール瓶1本と日本酒半合はちょっと多かった(汗)

家に戻ってきたら近所の人たちが初盆参りに来てくれました。母は「近所の人全員が来る決まりなのに少ない」と文句言ってました。時代が違うのだよ…

母たちは色々準備してた訳で大変だったとは思うけどね。ともかく滞りなく終了。次は一周忌です。

しかし通夜・葬儀・四十九日・初盆・一周忌とイベント多いな。

ぎゃる☆がん だぶるぴーすクリア(ネタバレ)

ぎゃる☆がん だぶるぴーすクリアしました。クリア時間は1人目が2時間で、2人目以降は1時間半ずつ。累計9時間ほどプレイしました。

Steamにて70%offで購入したものです。

システム

和製FPSですw 実は先にぎゃる☆がん2VRクリア済みなので、ゲームパッドで照準合わせるのはちょっと難しかった。

プレイはサクサク進むけど同じことの繰り返しは飽きるね。そういえば2VRも2人しかクリアしてなかった。

真夜ルートでアナログコントローラーをグリグリ回す箇所が幾つかあったけど、全然うまく回らなくて1回バッドエンドになったよ…

3Dモデルは2VRの方が好きかな。

ストーリー

見習い天使えころのミスでホウダイはモテモテになってしまう。今日中に女の子に告白しないと一生女の子たちに嫌われるようになってしまうため、頑張って運命の女の子を探すお話です。多分シリーズ共通の導入かな。

神園しのぶルート
ホウダイの幼馴染で実は運命の相手。でも妹もホウダイの事が好きなので遠慮していた。2VRでもあったけど壁尻キャラだねw

神園真夜ルート
しのぶの妹。悪魔ハンターの修行で3年間留守にしていた。悪魔を捕まえようと罠を張ったら自分が引っかかるの良い。

神園姉妹ルート
天使好きなしのぶが天使召喚の舞を踊るの痛々しい(汗) 両方に告白して3人で付き合うようになり、えころは留年確定かw

えころルート
好感度足りなかったせいでえころではなくぱたこに好かれてしまうエンドに。えころはぱたこ先輩大好きなのでNTRだw

くろなルート
補習で来ていた見習い悪魔。イタズラしすぎて暴走するけどフェロモンショットで倒したらホウダイの事が好きになる。

まとめ

他にもたくさん攻略キャラがいるけど、主要キャラのエンディングは見たのでひとまず満足です。

次はグリム・ガーディアンズシリーズかな。2VRもまたやるか。

OpenAI GPT-5登場!早速コーディングなどで使ってみた

ついにGPT-5が来ました。長いこと待ったよ。

特徴

・性能向上
GPT-3が高校生レベル、GPT-4が大学生レベル、GPT-5は博士号取得者レベルに到達。 特にコーディングや健康関係に強いとのこと。

・モデル1本化
今まではたくさんモデルがあって用途に応じてどれを使うか自分で決めないといけなかったんだよね。

それが自動で推論レベルを調整するようになり、モデルを選ぶ必要がなくなりました。シンプルで良い。

・ハルシネーション8割減
o3に比べて嘘を付く頻度が8割減になりました。助かる。

・使用制限(Plus)
GPT-5:3時間に160メッセージ
GPT-5-Thinking:週に3000メッセージ

これだけあれば使い切ることもないね。

チャット使用感

チャットのやり取りでは文章量が減ったね。個人的には良いと思うけど、少し冷たく感じるので「4oが良かった」という意見もわかる。

ハルシネーションは減ったのかな? やはりまだ嘘はつくね。

MondayちゃんもGPT-5対応になりました。「自画像描いて」ってお願いしたらこちらの絵を出してきた。可愛いw

性能の判断はもうしばらく使ってみてかな。

テトリス作ってもらった

毎回新しいモデルが来たらJavaScriptでテトリス作ってもらってます。

これまでのモデルは動かなかったり機能足りなかったりで、いまいちなデキでした。

しかしGPT-5はたった2回で完成品ができて驚いた。しかも1回目を実行させたら自分でバグがあることに気づいて自動で直したんだよね。

UIも綺麗だし、ブロックをホールドしておく機能なんかも付いてて素晴らしいね。

他の人がアクションやシューティング作らせてるのも見たし、確かにコーディング能力は向上してると感じました。

Cursorでエージェント使用

CursorにもGPT-5来ました。恒例の期間限定使い放題です。

丸一日仕事で使ってみました。処理に少し時間はかかるものの、こちらの言った通りに正しくコーディングしてくれました。

普段はClaude-4-Sonnetを使ってるけど、それと同等以上に出来てた気がする。逆に最近Sonnetが不調ではあるんだけどね…

GPT-5はAPI料金もClaude系より安いので、今後メインで使うかもしれません。

まとめ

地味ながら確実に性能アップしていて良いです。OpenAIによるとまだ調整中でもっと性能上げられるとのことなので期待です。

ChatGPT各バージョンの特徴まとめてみた

ChatGPT各バージョンの特徴まとめてみた(GPT-5まで)

日頃お世話になっているOpenAIのChatGPT。今まで出てきたモデルを改めて確認してみた。

各モデル比較

ごちゃごちゃしてきたので表にしました。

モデルIQ検索推論コンテキストウィンドウリリース
GPT‑3.5644,0962020/07
GPT-48132,7682023/03
GPT-4o92128,0002024/05
o1122200,0002024/12
o3136200,0002025/04
GPT-5115400,0002025/08

IQ(知能指数)はネットから引っ張ってきた参考値です。
コンテキストウィンドウは記憶できるトークン数です。
リリースは正式版が公開された月です。

GPT‑3.5

・2020年7月~2024年7月
・初期の無料版モデル
・自然な会話生成や基本的な質問応答に優れている
・テキストや数値データの処理に特化

GPT‑4 シリーズ

GPT‑4
・2023年3月~2025年4月
・自然言語理解の精度が向上し、より一貫性のある回答が可能
・安全性や誤情報の低減対策も強化

GPT‑4.5 Preview
・2025年3月~2025年7月
・教師なし学習で性能向上
・モデルサイズはOpenAI史上最大

GPT‑4.1
GPT‑4.1 mini
GPT‑4.1 nano
・2025年4月リリース
・API専用モデル
・コンテキストウィンドウ100万トークン
・miniとnanoは軽量版
・2025年5月web版追加

GPT‑4o シリーズ

GPT‑4o
・2024年5月リリース
・oはomni(全て・あらゆる)
・マルチモーダル機能が強化され、画像や音声も同時に処理できる
・処理速度は前モデルの約2倍と非常に高速で、非英語圏の言語サポートも強化
・より正確で多様な課題に対応
・2025年1月タスク機能ベータ版追加
・2025年3月画像生成機能追加
ChatGPT-4oの画像生成で巫女さん描かせてみた

GPT‑4o mini
・2024年7月リリース
・低コストかつ高速な処理が可能
・API利用時のコストも大幅に削減され、約3~4%程度の料金で利用できる
・ただし一部機能は制限される

o1 シリーズ

o1
・プレビュー版2024年9月リリース
・正式版2024年12月~2025年4月
・従来のモデルとは異なり、「じっくり考える」能力を重視
・数学、物理、科学、プログラミングなどの高度な推論で人間の博士レベルに近い性能を発揮

o1 mini
・2024年9月~2025年4月
・o1に比べて低コストで推論が実行できる

o1 pro mode
・2024年12月リリース
・高額会員専用モデル(月額200ドル)
・o1に追加の計算資源を使ってさらに難解な問題に最適化されている

o3 シリーズ

o3-mini
・2025年1月~2025年4月
・より軽量かつ高速なモデルで、モバイルアプリやリソース制約のある環境での利用に適する
・o1-miniの後継としてさらに推論力が向上している
・2025年2月Deep Research追加
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

o3-mini-high
・2025年1月~2025年4月
・o3‑miniよりもさらに深い思考プロセスを経るように設計されている
・数学や科学、プログラミングなどのSTEM分野においてより正確性や詳細な解析結果を提供

o3
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・最も強力な推論モデル
・IQ136
・2025年4月タスク機能追加

o3-pro
・2025年6月リリース
・高額会員専用モデル(月額200ドル)

o4 シリーズ

o4-mini
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・高速・低コストで推論できるよう最適化されたモデル
・2025年4月タスク機能追加

o4-mini-high
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・o4-miniの高性能版

GPT‑5 シリーズ

GPT‑5
・2025年8月リリース
・高性能低コスト化
・モデルを1本化して推論レベル自動調整
・ハルシネーション8割減
OpenAI GPT-5登場!早速コーディングなどで使ってみた

GPT‑5 Thinking
・2025年8月リリース
・時間をかけて深く推論

GPT‑5 Pro
・2025年8月リリース
・高額会員専用モデル(月額200ドル)

まとめ

とにかく進化が凄まじいね。初期は嘘ついたり変なコード書いたりしてたのに、今じゃ信頼性上がって仕事上のパートナーと言っても過言じゃない。

ちなみに、初めてChatGPTに触れたのはBingAIでした(中身がGPT-4)。これは凄いと思い、2023年3月に有料プランに申し込み使い続けています。

今後の進化も楽しみです。

OpenAIのChatGPT以外のサービスまとめてみた

gpt-oss-20bをLM Studioで使ってみた

ついにOpenAIからオープンウェイトモデルgpt-ossがリリースされました。

前回のモデルは2019年のGPT-2だったので6年ぶりです。その頃はまだChatGPTの存在知らなかったけどw

スペック

モデルは2種類あります。ライセンスはApache2.0です。

gpt-oss-120b
・1170億パラメータ
・80GBのGPUで動作
・o4-miniと同等

gpt-oss-20b
・210億パラメータ
・16GBのGPUで動作
・o3-miniと同等

VRAM80GBもないので20b一択です。それでもローカルでo3-mini並のAIが動くとか凄いけどね。

設定

【ローカルAI】LM StudioでGemma3を動かしてみた

LM Studioにgpt-oss用のアップデートが来たので更新。そしてモデル一覧のトップにopenai/gpt-oss-20bがあったのでダウンロードしました。

しかし発表の数時間後には全て用意されてて凄いね。事前に準備してたんだろうけど。

このモデル限定で「Reasoning Effort」という項目が増えてます。これで推論レベルをLow, Medium, Highから選べます。

使用感

うちはRTX5070Tiですが、最初に1~2秒推論した後はささっと文字が流れてくるね。軽い。もちろん推論レベルや内容によっては20秒くらいかかることもあるけど。今見たら43.40 tok/secでした。

日本語で会話できてるけど、英語メインで学習してあるせいかちょっと表現力が弱い気がする。まあ日常会話には問題ないけど。

システムプロンプト無視しがち? 書き方によるのかな。

画像認識ができない。Gemma3は出来るのでてっきり出来るのかと思ってた。

2024年6月までのデータしかない。なので最新情報には疎いね。MCP使えば検索して最新情報も引っ張ってこれるのかな(よくわかってない)。

NSFWが拒否される。まあこれは仕方ないかw

まとめ

今のところ好き勝手できるGemma3の方が良いかな。ただライセンス的にはgpt-ossの方が自由だね。

gpt-ossはコーディングに強そうなのでそのうち試してみよう。o3-mini並のエージェントとして動くのならかなり助かる。

OpenAIのChatGPT以外のサービスまとめてみた

OpenAIのChatGPT以外のサービスまとめてみた

OpenAIはメインのChatGPT以外にも様々なサービスを提供しています。それらをまとめてみました。

商用向けサービス

API
・2020年6月リリース
・OpenAIが提供する汎用AIサービスで、GPTシリーズなどの大規模言語モデルにアクセスできるAPIです。

Embeddings(ベクトル埋め込み)
2020年6月リリース
・テキストやコードをベクトル(数値列)に変換するサービスです。埋め込みベクトルはテキストの意味的な類似度計算や検索、クラスタリングに利用できます。

DALL·E(画像生成)
・2021年1月リリース
・入力したテキストの説明に基づき、新規の画像を生成するシリーズモデルです。
・DALL·E 2(2022年7月)は解像度や写実性が大きく向上し、複数の概念や作風の組み合わせも可能になりました。
・DALL·E 3(2023年10月)は大幅に指示理解力を高めてより対話的に画像生成できるようになっています。
・現在は4o Image Generation(2025年3月)としてChatGPTに統合済みです。

Codex(コード自動生成)
・2021年8月~2023年3月
・自然言語からプログラミングコードを生成できるAIモデルです。GitHubの自動補完ツール「Copilot」のエンジンとして使用され、複数の言語でコーディング支援を行いました。
・o3ベースのcodex-1(2025年5月)再リリース

Moderation API(有害データ判定API)
・2022年8月リリース
・テキストや画像に有害な内容が含まれていないかを自動判定するコンテンツ審査用サービスです。性的・暴力的表現やヘイトスピーチ、自己傷害の助長などポリシー違反の可能性があるかを分類モデルで検出します。

Whisper(文字起こし)
・2022年9月リリース
・音声をテキストに変換する自動音声認識システムです。多言語の文字起こしだけでなく、他言語音声から英語への翻訳も可能なモデルです。モデルとコードがオープンソースで公開されており、誰でもローカル実行できます。

研究向け・実験的サービス

Sora(動画生成)
・2024年12月リリース
・テキスト、画像、動画などを入力して、新たな動画クリップを生成できるモデルです。短いプロンプトから最大20秒程度の映像を作成でき、既存動画の様式を変換したり、2つの動画を融合することも可能です。

Operator(サイト自動閲覧)
・2025年1月~2025年8月
・ウェブ上のタスクを自動で実行します。商品の注文や旅行予約、ウェブ上での定型業務を人間の代わりにこなすことができます。利用はProユーザ限定。
・Agentに統合。

Tasks(スケジュール機能)
・2025年1月リリース
・「毎朝8時にニュース要約を送って」や「来週○日にリマインドして」といったタスクを設定でき、指定時刻になると自律的にプロンプトを実行し結果を通知します。

Deep Research(ディープリサーチ)
・2025年2月リリース
・インターネット上の大量の情報を自動収集・分析し、複数段階の調査タスクを遂行してレポートを作成するエージェント機能です。人間のリサーチアナリストが数時間かける調査を数十分で完了できます。
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

gpt-oss(オープンウェイト)
・2025年8月リリース
・ローカルで動作するApache2.0ライセンスのオープンソースAIモデル。
・120bがo4-mini並、20bがo3-mini並のスペック。
gpt-oss-20bをLM Studioで使ってみた

ChatGPT統合機能

Browsing(ブラウジング機能)
・2023年5月リリース
・インターネット上の最新情報を検索・取得して回答に反映する機能です。新しいニュースや出来事についても回答できるようになりました。2023年9月に「Browse with Bing」として再リリースされました。

Plugins(プラグイン機能)
・2023年5月リリース
・外部のサービスやデータベースと連携する追加機能をChatGPTに組み込める拡張機能です。OpenAIが提供した公式プラグイン(BrowsingやCode Interpreterなど)に加え、サードパーティ企業が提供する何百ものプラグイン(例: レストラン予約のOpenTableや計算エンジンのWolframなど)が利用可能でした。

Record(録音・文字起こし機能)
・2023年6月リリース
・音声の録音、文字起こし、要約、アクションアイテム抽出、共有までを自動で行うAI録音サポート機能です。

Code Interpreter(コードインタープリタ)
・2023年7月リリース
・ユーザがデータ処理や計算をチャット内で依頼すると、モデルがPythonスクリプトを生成・実行し、その結果を回答として返します。例えばCSVデータの分析やグラフ作成、画像の編集、数値計算などを自律的に行います。後に「Advanced Data Analysis」に改称されました。

Voice(音声会話機能)
・2023年9月リリース
・ユーザがマイクから話しかけると音声認識(Whisper)でテキスト化され、それに対する応答を音声合成で返します。2024年にはGPT-4ベースの高度音声モード(Advanced Voice)も登場し、より自然で表現力豊かな音声応答が可能になりました。

Vision(画像理解機能)
・2023年9月リリース
・画像をアップロードして、その内容を解析・理解させる機能です。例えば写真の解析、図表の説明、手書きメモの読み取り、あるいは画像中の不具合箇所の特定など、視覚情報をテキストで説明します。この機能により「見る」能力を獲得しました。

Memory(メモリー機能)
・2024年9月リリース
・ユーザとのこれまでの対話内容やユーザが明示的に教えた情報を長期間保持し、今後の会話に活かす機能です。2025年4月のアップデートでは、保存メモリーに加えて過去のチャット履歴全体も参照されるようになりました。

Agent(エージェント機能)
・2025年7月リリース
・OperatorとDeep Researchを統合。仮想ブラウザからデータを取得・調査するエージェント。
・「カレンダーを見て、最近のニュースに基づいて今後の顧客との会議について説明してほしい」「4人分の和食の朝食を作るための材料を計画して購入してほしい」のように自動化できる。

まとめ

この記事はDeep Researchを元に書いてます。かなり手直ししてるけど。

最近のサービスでは画像生成が素晴らしいね。動画生成はまだいまいち。そろそろエージェントAIで凄いの来るかな。

ChatGPT各バージョンの特徴まとめてみた