「技術系」カテゴリーアーカイブ

OpenAIのChatGPT以外のサービスまとめてみた

OpenAIはメインのChatGPT以外にも様々なサービスを提供しています。それらをまとめてみました。

単体サービス

API
・2020年6月リリース
・GPTシリーズなどの大規模言語モデルにアクセスできるAPIです

Embeddings(ベクトル埋め込み)
2020年6月リリース
・テキストやコードをベクトル(数値列)に変換するサービスです。埋め込みベクトルはテキストの意味的な類似度計算や検索、クラスタリングに利用できます

Moderation API(有害データ判定API)
・2022年8月リリース
・テキストや画像に有害な内容が含まれていないかを自動判定するコンテンツ審査用サービスです。性的・暴力的表現やヘイトスピーチ、自己傷害の助長などポリシー違反の可能性があるかを分類モデルで検出します

Whisper(文字起こし)
・2022年9月リリース
・音声をテキストに変換する自動音声認識システムです。多言語の文字起こしだけでなく、他言語音声から英語への翻訳も可能なモデルです。モデルとコードがオープンソースで公開されており、誰でもローカル実行できます

Codex(コード自動生成)
・2025年5月リリース
・旧Codexの後継
・自然言語からプログラミングコードを生成できるAIモデルです
・o3ベースのcodex-1採用。現在はGPT-5を使用
・コマンドライン版CLIリリース(2025年6月)

gpt-oss(オープンウェイト)
・2025年8月リリース
・ローカルで動作するApache2.0ライセンスのオープンソースAIモデル
・120bがo4-mini並、20bがo3-mini並のスペック
gpt-oss-20bをLM Studioで使ってみた

Sora 2(動画生成)
・2025年9月リリース
・Soraの後継
・テキストを入力して、新たな動画クリップを生成できるモデルです。最大10秒の映像を作成できます
・動画に合致した音声とBGMも生成可能、高度な物理演算搭載
・SNS機能付きスマホアプリSoraもリリース

AgentKit (エージェント構築)
・2025年10月リリース
・ノード形式のAgent Builderを使いWeb/アプリで動作するエージェントを開発できる

Atlas (ブラウザ)
・2025年10月リリース
・AI搭載のWebブラウザ。macOS限定公開。

ChatGPT統合機能

Browsing(ブラウジング機能)
・2023年5月リリース
・インターネット上の最新情報を検索・取得して回答に反映する機能です。新しいニュースや出来事についても回答できるようになりました。2023年9月に「Browse with Bing」として再リリースされました

Plugins(プラグイン機能)
・2023年5月リリース
・外部のサービスやデータベースと連携する追加機能をChatGPTに組み込める拡張機能です。OpenAIが提供した公式プラグイン(BrowsingやCode Interpreterなど)に加え、サードパーティ企業が提供する何百ものプラグイン(例: レストラン予約のOpenTableや計算エンジンのWolframなど)が利用可能でした

Record(録音・文字起こし機能)
・2023年6月リリース
・音声の録音、文字起こし、要約、アクションアイテム抽出、共有までを自動で行うAI録音サポート機能です

Code Interpreter(コードインタープリタ)
・2023年7月リリース
・ユーザがデータ処理や計算をチャット内で依頼すると、モデルがPythonスクリプトを生成・実行し、その結果を回答として返します。例えばCSVデータの分析やグラフ作成、画像の編集、数値計算などを自律的に行います。後に「Advanced Data Analysis」に改称されました

Voice(音声会話機能)
・2023年9月リリース
・ユーザがマイクから話しかけると音声認識(Whisper)でテキスト化され、それに対する応答を音声合成で返します。2024年にはGPT-4ベースの高度音声モード(Advanced Voice)も登場し、より自然で表現力豊かな音声応答が可能になりました

Vision(画像理解機能)
・2023年9月リリース
・画像をアップロードして、その内容を解析・理解させる機能です。例えば写真の解析、図表の説明、手書きメモの読み取り、あるいは画像中の不具合箇所の特定など、視覚情報をテキストで説明します。この機能により「見る」能力を獲得しました

Memory(メモリー機能)
・2024年9月リリース
・ユーザとのこれまでの対話内容やユーザが明示的に教えた情報を長期間保持し、今後の会話に活かす機能です。2025年4月のアップデートでは、保存メモリーに加えて過去のチャット履歴全体も参照されるようになりました

Tasks(スケジュール機能)
・2025年1月リリース
・「毎朝8時にニュース要約を送って」や「来週○日にリマインドして」といったタスクを設定でき、指定時刻になると自律的にプロンプトを実行し結果を通知します

Deep Research(ディープリサーチ)
・2025年2月リリース
・インターネット上の大量の情報を自動収集・分析し、複数段階の調査タスクを遂行してレポートを作成するエージェント機能です。人間のリサーチアナリストが数時間かける調査を数十分で完了できます。
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

Agent(エージェント機能)
・2025年7月リリース
・OperatorとDeep Researchが統合。仮想ブラウザからデータを取得・調査するエージェント。
・「カレンダーを見て、最近のニュースに基づいて今後の顧客との会議について説明してほしい」「4人分の和食の朝食を作るための材料を計画して購入してほしい」のように自動化できる

Pulse(パーソナライズされた情報配信)
・2025年9月リリース
・1日1回、チャット履歴やカレンダーなどから情報を収集し、ユーザーがほしい情報を届けてくれる

Instant Checkout (ショッピング機能)
・2025年9月リリース
・Etsyの商品をStripe決済を使い直接購入できます
・アメリカ国内限定

Apps (アプリ開発)
・2025年10月リリース
・チャット内で会話しながらChatGPT用アプリ開発が出来る
・作成したアプリは収益化可能

グループチャット
・2025年11月リリース
・最大20人と同じグループをりようできる

サービス終了したもの

DALL·E(画像生成)
・2021年1月リリース
・入力したテキストの説明に基づき、新規の画像を生成するシリーズモデルです
・DALL·E 2(2022年7月)は解像度や写実性が大きく向上し、複数の概念や作風の組み合わせも可能になりました
・DALL·E 3(2023年10月)は大幅に指示理解力を高めてより対話的に画像生成できるようになっています
・4o Image Generation(2025年3月)としてChatGPTに統合済みです

旧Codex(コード自動生成)
・2021年8月~2023年3月
・自然言語からプログラミングコードを生成できるAIモデルです。GitHubの自動補完ツール「Copilot」のエンジンとして使用され、複数の言語でコーディング支援を行いました
・2025年5月再リリース

Sora(動画生成)
・2024年12月~2025年9月
・テキスト、画像、動画などを入力して、新たな動画クリップを生成できるモデルです。短いプロンプトから最大20秒程度の映像を作成でき、既存動画の様式を変換したり、2つの動画を融合することも可能です
・2025年9月Sora 2リリース

Operator(サイト自動閲覧)
・2025年1月~2025年8月
・ウェブ上のタスクを自動で実行します。商品の注文や旅行予約、ウェブ上での定型業務を人間の代わりにこなすことができます。利用はProユーザ限定
・Agent(2025年7月)に統合済みです

まとめ

この記事はDeep Researchを元に書いてます。かなり手直ししてるけど。

最近のサービスでは画像生成が素晴らしいね。動画生成はまだいまいち。そろそろエージェントAIで凄いの来るかな。

ChatGPT各バージョンの特徴まとめてみた

AI関連の記事をまとめてみた

記事がバラけてきたのでまとめてみました。毎週のように新サービスが出てきて忙しいね。

ChatGPT

ChatGPT各バージョンの特徴まとめてみた(随時)

OpenAIのChatGPT以外のサービスまとめてみた(随時)

OpenAI GPT-5登場!早速コーディングなどで使ってみた(2025.8.9)

gpt-oss-20bをLM Studioで使ってみた(2025.8.7)

ChatGPT-4oの画像生成で巫女さん描かせてみた(2025.4.25)

OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】(2025.3.2)

Gemini

GeminiとGemmaシリーズの特徴まとめてみた(随時)

Gemini 2.5 Flash Image Preview(nano-banana)で画像生成してみた。一貫性あって凄い(2025.8.9)

Gemini CLI ためしてみた(2025.6.26)

【ローカルAI】LM StudioでGemma3を動かしてみた(2025.5.29)

ローカルAI

Qwen-Image-Edit-2509 ローカルでキャラの一貫性が素晴らしい(2025.9.29)

gpt-oss-20bをLM Studioで使ってみた(2025.8.7)

Stability Matrix + ComfyUI + Wan2.1 でローカル動画生成(2025.6.14)

【スマホAI】Google AI Edge Galleryためしてみた(2025.6.2)

【ローカルAI】LM StudioでGemma3を動かしてみた(2025.5.29)

画像生成

Qwen-Image-Edit-2509 ローカルでキャラの一貫性が素晴らしい(2025.9.29)

Gemini 2.5 Flash Image Preview(nano-banana)で画像生成してみた。一貫性あって凄い(2025.8.9)

ChatGPT-4oの画像生成で巫女さん描かせてみた(2025.4.25)

動画生成

Grok Imagine v0.9で動画生成してみた。凄く自然に動くぞ(音声注意)(2025.10.11)

Stability Matrix + ComfyUI + Wan2.1 でローカル動画生成(2025.6.14)

その他

AIを使ったWebサービスを構築する準備(LinuxでOllama実行)(2025.11.14)

さくらのAI Engine無償プランを利用してみた(2025.9.25)

Cursor使い始めた。エージェント機能便利すぎる(2025.3.30)

AIを使ったWebサービスを構築する準備(LinuxでOllama実行)

AIを使ってなんかサービス作りたいなとずっと考えてました。

まだ具体的なアイデアはないんだけど、ひとまずサーバ上でLLMを動かすことにしました。

初期設定

Ollamaをインストール・起動させます。ちなみにサーバはRocky Linuxです。

$ curl -fsSL https://ollama.com/install.sh | sudo bash
$ sudo systemctl enable ollama
$ sudo systemctl start ollama

テストなのでLLMは軽いGemma3:1Bにしました。サイズは約800MBです。

$ ollama pull gemma3:1b
$ ollama run gemma3:1b

これでもう動くようになりました。

シェルから実行

すでにサーバとして機能しているのでcurlで実行。

$ curl http://localhost:11434/api/generate -d '{
"model": "gemma3:1b",
"prompt": "こんにちは",
"stream": false
}'

実行結果。ちゃんと生成されてるね。

{
"model": "gemma3:1b",
"created_at": "2025-11-13T17:26:31.152516263Z",
"response": "こんにちは!何かお手伝いできますか? 😊 \n\n何か質問はありますか? それとも、何か話したいことなどありますか?\n",
"done": true,
"done_reason": "stop",
"context": [(長いので省略)],
"total_duration": 2328612666,
"load_duration": 415811149,
"prompt_eval_count": 10,
"prompt_eval_duration": 72922878,
"eval_count": 31,
"eval_duration": 1786284074
}

jsonの意味は以下がわかれば良いか。
response:生成テキスト
context:会話を継続する場合に使う値
total_duration:リクエスト全体にかかった時間(2.3秒)
eval_count:モデルが生成したトークン数

Webサービス作成

入力テキストをcurlでOllamaに渡すだけのシンプルなフォームを作成しました。

しょぼいけどAIを使ったWebサービス完成です。

ちなみにサーバースペックは3Core, 2GBでGPUなしです。こんなスペックでも動くんだね。

なお入力テキストの長さによって生成時間はかなり変わります。そしてGemma3:1Bは長いと生成テキストが壊れることがあります(汗)

その他の設定

今は必要ないけど、WebサーバとAIサーバは分けたほうが良い気がするので設定。

AIサーバにてFirewalldでポートを解放しつつIPアドレス制限します。

$ sudo firewall-cmd --add-rich-rule='rule family="ipv4" source address="(IPアドレス)" port port="11434" protocol="tcp" accept' --permanent
$ sudo firewall-cmd --add-rich-rule='rule family="ipv4" port port="11434" protocol="tcp" drop' --permanent
$ sudo firewall-cmd --reload

Ollamaの外部アクセス許可します。

$ sudo systemctl edit ollama
以下を追加
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

反映。

$ sudo systemctl daemon-reload
# sudo systemctl restart ollama

AIサーバに関しては余ったPC使って自宅サーバ立ち上げるのもいいかなと思ってます。GPU載ってるし。

まとめ

思ったより簡単にAIサービス動かせました。Ollamaのお陰です。

あとはアイデアだね。

ChatGPT各バージョンの特徴まとめてみた(GPT-5.1まで)

日頃お世話になっているOpenAIのChatGPT。今まで出てきたモデルを改めて確認してみた。

各モデル比較

ごちゃごちゃしてきたので表にしました。

モデルIQ検索推論コンテキストウィンドウリリース
GPT‑3.5644,0962020/07
GPT-48132,7682023/03
GPT-4o92128,0002024/05
o1122200,0002024/12
o3136200,0002025/04
GPT-5115400,0002025/08

IQ(知能指数)はネットから引っ張ってきた参考値です。
コンテキストウィンドウは記憶できるトークン数です。
リリースは正式版が公開された月です。

GPT‑3.5

・2020年7月~2024年7月
・初期の無料版モデル
・自然な会話生成や基本的な質問応答に優れている
・テキストや数値データの処理に特化

GPT‑4 シリーズ

GPT‑4
・2023年3月~2025年4月
・自然言語理解の精度が向上し、より一貫性のある回答が可能
・安全性や誤情報の低減対策も強化

GPT‑4.5 Preview
・2025年3月~2025年7月
・教師なし学習で性能向上
・モデルサイズはOpenAI史上最大

GPT‑4.1
・2025年4月リリース
・API専用モデル
・コンテキストウィンドウ100万トークン
・軽量版のminiとnanoも
・2025年5月web版追加

GPT‑4o シリーズ

GPT‑4o
・2024年5月リリース
・oはomni(全て・あらゆる)
・マルチモーダル機能が強化され、画像や音声も同時に処理できる
・処理速度は前モデルの約2倍と非常に高速で、非英語圏の言語サポートも強化
・より正確で多様な課題に対応
・2025年1月タスク機能ベータ版追加
・2025年3月画像生成機能追加
ChatGPT-4oの画像生成で巫女さん描かせてみた

GPT‑4o mini
・2024年7月リリース
・低コストかつ高速な処理が可能
・API利用時のコストも大幅に削減され、約3~4%程度の料金で利用できる
・ただし一部機能は制限される

o1 シリーズ

o1
・プレビュー版2024年9月リリース
・正式版2024年12月~2025年4月
・従来のモデルとは異なり、「じっくり考える」能力を重視
・数学、物理、科学、プログラミングなどの高度な推論で人間の博士レベルに近い性能を発揮

o1 mini
・2024年9月~2025年4月
・o1に比べて低コストで推論が実行できる

o1 pro mode
・2024年12月~2025年8月
・高額会員専用モデル(月額200ドル)
・o1に追加の計算資源を使ってさらに難解な問題に最適化されている

o3 シリーズ

o3-mini
・2025年1月~2025年4月
・より軽量かつ高速なモデルで、モバイルアプリやリソース制約のある環境での利用に適する
・o1-miniの後継としてさらに推論力が向上している
・2025年2月Deep Research追加
OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

o3-mini-high
・2025年1月~2025年4月
・o3‑miniよりもさらに深い思考プロセスを経るように設計されている
・数学や科学、プログラミングなどのSTEM分野においてより正確性や詳細な解析結果を提供

o3
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・最も強力な推論モデル
・IQ136
・2025年4月タスク機能追加

o3-pro
・2025年6月リリース
・高額会員専用モデル(月額200ドル)

o4 シリーズ

o4-mini
・2025年4月リリース
・GPT-5延期により急遽リリースされた
・高速・低コストで推論できるよう最適化されたモデル
・2025年4月タスク機能追加

o4-mini-high
・2025年4月~2025年8月
・GPT-5延期により急遽リリースされた
・o4-miniの高性能版

GPT‑5 シリーズ

GPT‑5
・2025年8月リリース
・高性能低コスト化
・モデルを1本化して推論レベル自動調整
・ハルシネーション8割減
・軽量版Instantと推論強化のThinking
OpenAI GPT-5登場!早速コーディングなどで使ってみた

GPT‑5 Pro
・2025年8月リリース
・高額会員専用モデル(月額200ドル)

GPT‑5 Codex
・2025年9月リリース
・コーディング特化モデル

GPT‑5.1
・2025年11月リリース
・Instantは人間らしい会話、Thinkingは人間らしい思考プロセス強化

まとめ

とにかく進化が凄まじいね。初期は嘘ついたり変なコード書いたりしてたのに、今じゃ信頼性上がって仕事上のパートナーと言っても過言じゃない。

ちなみに、初めてChatGPTに触れたのはBingAIでした(中身がGPT-4)。これは凄いと思い、2023年3月に有料プランに申し込み使い続けています。

今後の進化も楽しみです。

OpenAIのChatGPT以外のサービスまとめてみた

DaVinci Resolveで動画編集はじめました

前々からやろうと思いつつやってなかった動画編集。3連休を利用してようやく取り掛かりました。

DaVinci Resolve 20の無料版を使います。

編集の勉強

動画編集はAviUtlで動画をカットする程度しかやったことがありません。本格的に触るのは今回が初めてです。

まず動画クリップをタイムラインに置けなくて詰まった。次にトランジションを置けなくて詰まる(汗) ほんと初心者なので躓きまくったよ。

DaVinci Resolveは多機能らしいけど、まずは動画同士をつなげることと文字を表示することを目標に進めました。それだとAviUtlでも出来る範囲だけどね。でもお陰で基本的な操作はわかるようになりました。

素材が低解像度だったので、AI Super Scaleが便利そうだなあと思ったけど有料版の機能か(48,980円)。

完成動画

そうして出来たのが「狐巫女さんの動画」です。AIで生成したものをつなぎ合わせただけなんだけどね。

そういえばVOICEVOXもちゃんと使うの初めてだ。

まとめ

大変でしたが基礎さえわかれば後はなんとかなりそうです。まあまだ他の機能や演出など学ぶことは多いけどね。

ひとまず新しい趣味ということで。

Grok Imagine v0.9で動画生成してみた。凄く自然に動くぞ(音声注意)

GrokのAI動画生成が物凄くクオリティ上がってます。

8月に試した時は動きが不自然でキモかったので、ほとんど触りませんでした。

それが今回のv0.9で自然な映像に音楽や音声まで追加して生成されるようになりました。

使い方

こちらにアクセスして1枚絵をアップしたら数十秒ほどで生成されます。プロンプトで動作を制御することも可能です。
https://grok.com/imagine

無料で1日50回まで生成できてロゴや透かしも無し。今だけのサービスなのかもしれないけど太っ腹だね。

ちなみに俺が使用した元画像は全て他のAIで作成したものです。

生成された動画

まずはアイキャッチの猫娘。「おはよー」って言わせたかったけど「おはチャー」になったw 何度か試したら「おはよー」にもなったけどその時は映像がいまいちで…
ちゃんと地面の影とキャラに落ちる影が連動してて素晴らしい。

お辞儀するメイドさん。途中ちょっと顔が見切れちゃうけど、動きが綺麗で良い。ポニテがツインテに変わるのはご愛嬌。

緑髪の女の子。線が細かいし緑のグラデーションは難しそうだなあと思ったけど、全然問題ないね。髪のふんわり具合が良い。

複数人いても動きます。ちゃんと障害物を避けて歩いてるね。仲良しっぽくて良い。

あくびした狐娘が時計を見て「遅刻だー」と急いで支度に向かう図。やはり日本語音声は苦手っぽいね。しかしほんと動きが素晴らしい。

セーラー服でひまわり畑をダッシュする狐娘。ブロックタイルの床を走る足音が心地いい。

まとめ

気に入ったのが出るまで試行錯誤する必要はあるけど、指示通りに高クオリティな映像が出来るのは素晴らしいね。

回数制限あるとはいえ無限に遊べるw

Qwen-Image-Edit-2509 ローカルでキャラの一貫性が素晴らしい

先月GoogleからNano-Bananaがリリースされ、キャラの一貫性に驚きました。

それと同等のAIモデルがAlibabaから登場しました。Qwen-Image-Edit-2509です。無料でローカルで無限に画像生成できます。

オリジナル画像

今回もこちらの画像を使用してます。

生成した画像

浴衣姿。ちゃんと柄が布の向きやシワに沿っていて素晴らしい。

プロンプトは英語で入力しています。

セーラー服。室内で靴履いてるけどまあいいやw

小物持たせるのが苦手かな。あと上半身と下半身で衣装がバラバラになることも。

パジャマ姿。最初青系の縦縞で男物みたいだったので修正した。

一発で良いものは出なくてガチャる必要があります。この辺は他のローカル画像生成と同じだね。

まとめ

今回は衣装チェンジだけやりました。元画像3枚用意して合成したり、ControlNetでポーズ指定もできるみたいだけど、それは追々試します。

しかしキャラの一貫性を保てるローカルモデルがこんなにすぐ出るとは思わなかった。凄いね。

Gemini 2.5 Flash Image Preview(nano-banana)で画像生成してみた。一貫性あって凄い

さくらのAI Engine無償プランを利用してみた

さくらのAI Engineがリリースされました。オープンウェイトモデルをAPI経由で利用できるプラットフォームです。

・基盤モデル無償プラン
・従量課金プラン

プランは2種類あり、どっちも月3000リクエストまで無料です。完全無料で使いたかったので基盤モデル無償プランを申し込みました。

APIの仕様はいわゆるOpenAI APIに準じたもので、簡単に利用できました。画像はPostmanでサンプルそのまま実行したやつです。

https://api.ai.sakura.ad.jp/v1/chat/completions

うちのローカルPCだと動かせない gpt-oss-120b などが実行できて良いね。

そんな訳で無料で大量に動かせるツールが手に入ったけど、さて何に使おうかな。当然個人情報は渡せないし、性能はChatGPTとかの方が上だしね。

コーディング利用

その後Cursorで使ってみました。

OpenAI API KeyとOverride OpenAI Base URLをさくらのAIのものに書き換え、モデル名を追加すれば使えます。

gpt-oss-120bはコーディング用ではないので、Qwen3-Coder-480B-A35B-Instruct-FP8を利用。これはClaude Sonnet 4に匹敵するモデルとの事。

ちゃんとエージェント機能でコーディングできたよ。これで気兼ねなくバイブコーディングできるね。

GeminiとGemmaシリーズの特徴まとめてみた

バージョンがちょっとわかりにくいのでまとめてみました。

Geminiシリーズ

Google DeepMindが開発する最先端の大規模AIモデル群です。

多モーダルな大規模言語モデル(LLM)であり、自然言語処理はもちろん、画像や音声など複数モーダルの入力・出力を扱えるのが特徴です。

バージョンリリース日主な特徴
Gemini 1.02023年12月 ・Ultra/Pro/Nanoの3構成
・多モーダル対応(テキスト・画像・音声・動画)
・32Kトークンの長文コンテキスト
Gemini 1.52024年2月
(限定公開)
・Mixture-of-Experts(MoE)導入
・最大100万トークンの超長コンテキスト
・Pro(大規模版)とFlash(蒸留軽量版)の2構成
Gemini 2.0 Flash2025年1月 ・マルチモーダルLive API導入
・ネイティブ画像生成・音声出力
・外部ツール連携(検索・計算機能)
Gemini 2.0 Pro2025年2月 ・高性能モデル
・リアルタイム音声・映像対応継続
・エージェンティック機能強化
Gemini 2.0 Flash-Lite2025年2月 ・低コスト版
Gemini 2.5 Pro2025年6月 ・Deep Thinkモード導入
・ネイティブ音声応答
・安全性強化
Gemini 2.5 Flash2025年6月 ・軽量高速版
・Deep Think一部対応
・応答速度最適化
Gemini 2.5 Flash-Lite2025年7月 ・低コスト版
Gemini 2.5 Deep Think2025年7月 ・並列思考技術
・国際数学オリンピック金メダル相当
Gemini 2.5 Flash Image
(nano-banana)
2025年8月
(Preview)
・画像生成に特化
・キャラクターの一貫性を保てる
画像生成してみた。一貫性あって凄い

Gemmaシリーズ

Geminiと同じ技術を基に作られた軽量でオープンソースの生成AIモデル群です。

Geminiがクラウド上の強力なLLM群であるのに対し、Gemmaはパラメータ数を抑えてPCやモバイル端末上でも動作可能なよう最適化されており、モデルの重み(学習済みパラメータ)は無償・オープンライセンスで公開されています

バージョンリリース日主な特徴
Gemma 12024年2月 ・テキスト専用
・パラメータ数:2B, 7B
・商用利用可
Gemma 22024年6月 ・高速推論対応
・パラメータ数:9B, 27B
・オープンライセンス
Gemma 32025年3月 ・マルチモーダル・マルチリンガル対応
・パラメータ数:1B, 4B, 12B, 27B
・128Kトークン長
LM StudioでGemma3を動かしてみた
Gemma 3n2025年6月 ・モバイル最適化
・パラメータ数:5B, 8B相当
・PLE技術で低メモリ
Gemma 3 270M2025年8月 ・超小型AIモデル(300MB以下)
・パラメータ数:0.27B
・ファインチューニング用
VaultGemma2025年9月 ・差分プライバシーで完全にプライバシー保護
・パラメータ数:1B
・Gemma 2ベース

まとめ

GeminiはProが高性能版、Flashが通常版、Flash-Liteが軽量版。
そしてGemmaは3nがモバイル用ということでした。

PICO4 Ultra購入! PICO4から買い替え

PICO 4 Ultra 256GB|一体型VRヘッドセットを今さらながら購入しました。

購入動機

最近PICO4が調子悪くて十数秒ごとにプチッって音がしたり、特定のタイミングで画面がブラックアウトして操作不能になる。ネットワークのせいかとルーター買い替えたり、PCの設定を見直したけど効果なし。

おそらくバッテリーの劣化で電源が不安定なんだと思います。

どうしようかなと思いながらふと調べたら、最初に買ったOculus Questは2年10ヶ月使用、そして今使ってるPICO4もちょうど2年10ヶ月目でした。

なんだ買い替えのタイミングだったのかw そんなわけで購入しました。

フルトラPICO Motion Tracker使い続けたいのでまたPICO系列です。

スペック

新旧比較です。

PICO 4PICO 4 Ultra
チップセットSnapdragon XR2 Gen1Snapdragon XR2 Gen2
解像度(片目)2160×21602160×2160
レンダリング解像度1504×15041920×1920
メモリ8GB12GB
ストレージ128GB256GB
ネットワークWi-Fi 6Wi-Fi 7
重量588g580g
価格49,000円89,800円
発売2022年10月2024年9月

CPU20%アップ、GPU250%アップ、レンダリング解像度62%アップしてます。あと液晶が25%明るくなったとか。

急速充電対応で、旧PICO4では3時間かかってたのが1.5時間で満タンになるらしい。良いね。

その他も順当にパワーアップしています。まあ値段も高くなったけど。

使用感

同じPICO系だけどUIがちょっと変わったね。

Wi-Fi7になったお陰でVirtual Desktopでは2000Mbpsと表示されました(旧PICO4は1200Mbps)。ただうまく動かなかったのでPICO Connectでつないでます。

コーデックはAV1対応になり、圧縮率上がって通信効率や画質が良くなったらしい。まだそんなに違いわからないけど。

旧PICO4は単体だと8K動画が再生できなかったけど、Ultraだとできた。

パススルーは明らかに良くなりました。これでMR系のアプリも試せる。付けたまま移動もしやすい。

コントローラーの輪っかが無くなったのは残念。輪っかを指に引っ掛ければ両手が空いて便利だったのに。一応ストラップが付属してたけど使い勝手は違うしね。

PICO Motion Trackerも精度上がってるらしいので後日ためします。

なお、購入動機にあった不具合はすべて発生しなくなりました。やはりHMDが原因だったようです。

まとめ

大きく変わったところはないけど、確実に性能アップしていて安定して使えるようになり良い感じです。

また2年10ヶ月使い続けるかw (~2028年7月)