「技術系」カテゴリーアーカイブ

gpt-oss-20bをLM Studioで使ってみた

2025年8月7日技術系神代クロ

ついにOpenAIからオープンウェイトモデルgpt-ossがリリースされました。

前回のモデルは2019年のGPT-2だったので6年ぶりです。その頃はまだChatGPTの存在知らなかったけどｗ

スペック

モデルは2種類あります。ライセンスはApache2.0です。

gpt-oss-120b
・1170億パラメータ
・80GBのGPUで動作
・o4-miniと同等

gpt-oss-20b
・210億パラメータ
・16GBのGPUで動作
・o3-miniと同等

VRAM80GBもないので20b一択です。それでもローカルでo3-mini並のAIが動くとか凄いけどね。

設定

・【ローカルAI】LM StudioでGemma3を動かしてみた

LM Studioにgpt-oss用のアップデートが来たので更新。そしてモデル一覧のトップにopenai/gpt-oss-20bがあったのでダウンロードしました。

しかし発表の数時間後には全て用意されてて凄いね。事前に準備してたんだろうけど。

このモデル限定で「Reasoning Effort」という項目が増えてます。これで推論レベルをLow, Medium, Highから選べます。

使用感

うちはRTX5070Tiですが、最初に1～2秒推論した後はささっと文字が流れてくるね。軽い。もちろん推論レベルや内容によっては20秒くらいかかることもあるけど。今見たら43.40 tok/secでした。

日本語で会話できてるけど、英語メインで学習してあるせいかちょっと表現力が弱い気がする。まあ日常会話には問題ないけど。

システムプロンプト無視しがち？　書き方によるのかな。

画像認識ができない。Gemma3は出来るのでてっきり出来るのかと思ってた。

2024年6月までのデータしかない。なので最新情報には疎いね。MCP使えば検索して最新情報も引っ張ってこれるのかな(よくわかってない)。

NSFWが拒否される。まあこれは仕方ないかｗ

まとめ

今のところ好き勝手できるGemma3の方が良いかな。ただライセンス的にはgpt-ossの方が自由だね。

gpt-ossはコーディングに強そうなのでそのうち試してみよう。o3-mini並のエージェントとして動くのならかなり助かる。

OpenAIのChatGPT以外のサービスまとめてみた

2025年8月6日技術系神代クロ

OpenAIはメインのChatGPT以外にも様々なサービスを提供しています。それらをまとめてみました。

商用向けサービス

API
・2020年6月リリース
・OpenAIが提供する汎用AIサービスで、GPTシリーズなどの大規模言語モデルにアクセスできるAPIです。

Embeddings（ベクトル埋め込み）
2020年6月リリース
・テキストやコードをベクトル（数値列）に変換するサービスです。埋め込みベクトルはテキストの意味的な類似度計算や検索、クラスタリングに利用できます。

DALL·E（画像生成）
・2021年1月リリース
・入力したテキストの説明に基づき、新規の画像を生成するシリーズモデルです。
・DALL·E 2（2022年7月）は解像度や写実性が大きく向上し、複数の概念や作風の組み合わせも可能になりました。
・DALL·E 3（2023年10月）は大幅に指示理解力を高めてより対話的に画像生成できるようになっています。
・現在は4o Image Generation（2025年3月）としてChatGPTに統合済みです。

Codex（コード自動生成）
・2021年8月～2023年3月
・自然言語からプログラミングコードを生成できるAIモデルです。GitHubの自動補完ツール「Copilot」のエンジンとして使用され、複数の言語でコーディング支援を行いました。
・o3ベースのcodex-1(2025年5月)再リリース

Moderation API（有害データ判定API）
・2022年8月リリース
・テキストや画像に有害な内容が含まれていないかを自動判定するコンテンツ審査用サービスです。性的・暴力的表現やヘイトスピーチ、自己傷害の助長などポリシー違反の可能性があるかを分類モデルで検出します。

Whisper（文字起こし）
・2022年9月リリース
・音声をテキストに変換する自動音声認識システムです。多言語の文字起こしだけでなく、他言語音声から英語への翻訳も可能なモデルです。モデルとコードがオープンソースで公開されており、誰でもローカル実行できます。

研究向け・実験的サービス

Sora（動画生成）
・2024年12月リリース
・テキスト、画像、動画などを入力して、新たな動画クリップを生成できるモデルです。短いプロンプトから最大20秒程度の映像を作成でき、既存動画の様式を変換したり、2つの動画を融合することも可能です。

Operator（サイト自動閲覧）
・2025年1月～2025年8月
・ウェブ上のタスクを自動で実行します。商品の注文や旅行予約、ウェブ上での定型業務を人間の代わりにこなすことができます。利用はProユーザ限定。
・Agentに統合。

Tasks（スケジュール機能）
・2025年1月リリース
・「毎朝8時にニュース要約を送って」や「来週○日にリマインドして」といったタスクを設定でき、指定時刻になると自律的にプロンプトを実行し結果を通知します。

Deep Research（ディープリサーチ）
・2025年2月リリース
・インターネット上の大量の情報を自動収集・分析し、複数段階の調査タスクを遂行してレポートを作成するエージェント機能です。人間のリサーチアナリストが数時間かける調査を数十分で完了できます。

gpt-oss（オープンウェイト）
・2025年8月リリース
・ローカルで動作するApache2.0ライセンスのオープンソースAIモデル。
・120bがo4-mini並、20bがo3-mini並のスペック。

ChatGPT統合機能

Browsing（ブラウジング機能）
・2023年5月リリース
・インターネット上の最新情報を検索・取得して回答に反映する機能です。新しいニュースや出来事についても回答できるようになりました。2023年9月に「Browse with Bing」として再リリースされました。

Plugins（プラグイン機能）
・2023年5月リリース
・外部のサービスやデータベースと連携する追加機能をChatGPTに組み込める拡張機能です。OpenAIが提供した公式プラグイン（BrowsingやCode Interpreterなど）に加え、サードパーティ企業が提供する何百ものプラグイン（例: レストラン予約のOpenTableや計算エンジンのWolframなど）が利用可能でした。

Record（録音・文字起こし機能）
・2023年6月リリース
・音声の録音、文字起こし、要約、アクションアイテム抽出、共有までを自動で行うAI録音サポート機能です。

Code Interpreter（コードインタープリタ）
・2023年7月リリース
・ユーザがデータ処理や計算をチャット内で依頼すると、モデルがPythonスクリプトを生成・実行し、その結果を回答として返します。例えばCSVデータの分析やグラフ作成、画像の編集、数値計算などを自律的に行います。後に「Advanced Data Analysis」に改称されました。

Voice（音声会話機能）
・2023年9月リリース
・ユーザがマイクから話しかけると音声認識（Whisper）でテキスト化され、それに対する応答を音声合成で返します。2024年にはGPT-4ベースの高度音声モード（Advanced Voice）も登場し、より自然で表現力豊かな音声応答が可能になりました。

Vision（画像理解機能）
・2023年9月リリース
・画像をアップロードして、その内容を解析・理解させる機能です。例えば写真の解析、図表の説明、手書きメモの読み取り、あるいは画像中の不具合箇所の特定など、視覚情報をテキストで説明します。この機能により「見る」能力を獲得しました。

Memory（メモリー機能）
・2024年9月リリース
・ユーザとのこれまでの対話内容やユーザが明示的に教えた情報を長期間保持し、今後の会話に活かす機能です。2025年4月のアップデートでは、保存メモリーに加えて過去のチャット履歴全体も参照されるようになりました。

Agent（エージェント機能）
・2025年7月リリース
・OperatorとDeep Researchを統合。仮想ブラウザからデータを取得・調査するエージェント。
・「カレンダーを見て、最近のニュースに基づいて今後の顧客との会議について説明してほしい」「4人分の和食の朝食を作るための材料を計画して購入してほしい」のように自動化できる。

まとめ

この記事はDeep Researchを元に書いてます。かなり手直ししてるけど。

最近のサービスでは画像生成が素晴らしいね。動画生成はまだいまいち。そろそろエージェントAIで凄いの来るかな。

Wi-Fi7ルーターAmazon eero7を買う

2025年7月22日技術系神代クロ

Amazon eero 7を導入しました。

Amazonプライムデーにて12%offです。

一緒にプラネックスのスイッチングハブFX2G-05EM2も21%offで買ってます。

スペック

無線： Wi-Fi 7 (最大1.8Gbps)
有線：2.5Gbps x2 (最大2.3Gbps)

ウチにWi-Fi7対応の機器ないけどねｗ　ローカル環境を1Gbpsから2.5Gbpsにしたかったので、ついでにWi-Fi7付きのにしました。そのうち役立つでしょう。

初期設定

既存のルーター外してeero7繋いだら完了、と思ったんだけどなぜか認識しない。色々試したけどうまく行かず、仕方ないので既存のルーターにeero7をアクセスポイントとして繋いで使ってました。

ただこれだと一部機器が繋がらなかったり、速度でなかったりして不便です。なので後日改めて繋ぎ直したら今度は正常に認識したよ。

最初のは何だったのか…

ともかく機器のネットワーク設定を変更していきます。たくさんあるので大変です。デフォルトゲートウェイのIPアドレス後から変更したせいで手間取ったり、AlexaとSwitchBotの設定方法忘れてたり。

まあ少しずつ設定してくか。

使用感

WANは1Gbpsなのでインターネットの速度は変わりません。LANはちゃんと2.5Gbpsになってました。

NASの読み込みが格段に速くなっていて良い感じ。今まで待たされることが多くてストレスだったんだよね。

PICO4からVirtual Desktopでアクセスすると前と同じ1200Mbpsでした。チャンネルとか正しく設定すればもっと速くなるらしいけど、実質400～500Mbpsとのことなのでひとまずそのままでいいか。たまにある遅延が無くなってると良いな。

まとめ

初期設定で手間取ったけど、LANが速くなって良い感じです。

とりあえず設置はできたけど、部屋の中の配置や片付けがまだ残ってて面倒だ…

2ベイNAS(UGREEN DXP2800)を買う

2025年7月20日技術系神代クロ

UGREEN NASync DXP2800を導入しました。

AmazonプライムデーにてNAS19%off、HDD14%offで購入です。

選定理由

今まで使ってたNASが5年以上経ち、読み込みも遅いので買い替えたかった。

最初はSynologyにするつもりでしたが、HDD自社製品縛りにしたり、CPUを前機種と同じ7年前のまま出してきたりと、やる気なさそうだったので止めました。

そんな訳で出たばかりで勢いのあるUGREENのNASに決定です。

スペック

CPU：Intel N100 (3.4GHz)
メモリ：8 GB
ネットワーク：2.5GbE
ストレージ：WD Red Plus(6TB)x2

前のと比べてCPU約20倍、メモリ16倍となりました。ほぼミニPCだね。

ネットワーク速度は変わらず。てゆうか今考えると5年前に2.5GbEだったの凄いな。LAN環境を最近ようやく2.5GbEにしたところだよ。

ストレージは1.5倍にした。信頼のWestern Digitalです。

初期設定

設定画面がPCのデスクトップみたいなWeb UIで凝ってるね。動きもサクサクで良い。

RAID1で組んでます。今まで1ベイだったのでこれで安心。

データ2.2TBをコピーするのに17時間かかりました。およそ300Mbpsなのでこれが上限値かな。

「最初に個人フォルダを作りましょう」というので作ってその中にデータを入れたんだけど、これだとSMBでごみ箱機能が使えないのに気づく。罠かよｗ　共有フォルダに移動させたらちゃんとごみ箱使えるようになりました。

デフォでリモートアクセス許可になってて驚いた。実際にURL叩いたらアクセス可能だったし。もちろんパスワード認証あるから不正アクセスはされないけど、怖いのでoffにしておきました。そのうちセキュリティ強化したら使うかも。

使用感

まだインデックスやサムネイル作成のタスクが動いていて、CPUを常時30%くらい使用してます。そのせいかちょっと重い気がするけど、そのうち解消されるはず。

(追記)サムネイル作成完了まで4日かかった。ずっとCPU温度70度くらいあって心配したよ。今は40度あたりまで落ちた。気持ち速くなった気がする。

今まで通りSMBでエクスプローラーからのアクセスは問題なく使えてます。Web UIも試したけど、ビューワーが備わってるし環境依存しないので、場合によってはこっちの方が便利かもね。

アプリセンターにはEXCEL等のドキュメント編集アプリやFirefoxなんかもあって、リモートで作業できそうでした。

あとDockerは使うつもりです。メモリは十分あるので常駐させて簡単な作業を自動化させたい。

まとめ

Web UIあるから簡単だろうと思ったのに、わからないことが多くてChatGPTに聞きながらいじってました。初期設定が済んだら問題なく使えてます。

Gemini CLI ためしてみた

2025年6月26日技術系神代クロ

Gemini CLI 来たので早速セットアップしてみました。

プレビュー版の条件は以下の通りです。
・Gemini 2.5 Pro
・1日1,000リクエストまで
・100万トークン

最新Gemini Proが無料でほぼ無制限に使えるとかもう無敵だよね。実際にはもっと早くレート制限来るみたいだけど。

Windows11ターミナル

まずはnode.jsインストールして再起動。

> winget install OpenJS.NodeJS.LTS

バージョン確認。

> node -v

Gemini CLIインストール。

> npm install -g @google/gemini-cli

あとは以下で実行できます。最初はGoogleアカウントでログインとかの初期設定があります。

> gemini

インストールに失敗する場合は以下実行してやり直し。

> Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass -Force

WSL2

$ curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash

$ nvm install --lts

$ npm install -g @google/gemini-cli

Windows11ターミナルと同じく以下で実行できます。簡単だね。

$ gemini

ためしてみた

シェルなのに日本語で入力するの違和感あるなｗ　Googleなので検索もできる。

テキストファイル作らせて、ファイル名変更したり中身書き換えさせたりは問題なくできました。コーディングやれるんだから当然できることだけど。ファイル名一括置換とかも出来そうだ。Gitも認識できました。

キャラ設定投げてなりきりチャットも出来たｗ

まとめ

簡単インストールだし、チャットできるしファイル操作もできるし良い感じです。

コーディングの実務が出来るかどうかはまだわかりません。ネット見るといまいちらしいけど。

Stability Matrix + ComfyUI + Wan2.1 でローカル動画生成

2025年6月14日技術系神代クロ

RTX5070TiでStability Matrixを使い画像生成(Stable Diffusion WebUI Forge)出来ました。

せっかくなので動画生成AIもやるかと調べると、Wan2.1もStability Matrixで使えるとのこと。早速試してみました。

設定方法

簡単に書くと、
・Stability MatrixのパッケージからComfyUIをインストール
・ComfyUIのワークフロー＞テンプレートを参照＞ビデオからWan用テンプレート選択
・必要なモデルが提示されるのでダウンロード
・ノードで画像指定して実行するボタン押す

これで生成できました。

今の設定だとwebpファイルで出力されるけど、webp面倒くさいね…

Photoshopに拡張機能入れてwebpを開き、レイヤーをフレームに変換して、タイムラインで時間調整して、mp4に書き出してようやく利用できるようになった。

たぶんComfyUIから直接mp4にする方法もあるはず？

生成された動画

できたものがこちらです。素材画像もAI生成してます。狐巫女さんがすごく自然な動きをして可愛い。

ComfyUI + Wan2.1 でローカル動画生成AI使えるようになった。まだ設定とかさっぱりだけど。狐巫女 pic.twitter.com/ZTQJ8P5qOi
— 神代クロ (@yagasuri) June 13, 2025

以下はちょっと不自然な動きのメイドさん。

他にも幾つか生成したけどいまいちな出来…　やっぱりプロンプトや設定ちゃんと書かないとダメか。まあWebの動画生成サービスでも失敗作多いのでそういうものかもしれないけど。

まとめ

動画生成の環境構築までは簡単にできました。ここから意図した自然な動きをさせようとすると難しそうです。

【解決済】NASが遅いのWindows11のせいだった

2025年6月11日技術系神代クロ

前からずっとNASへのアクセスが遅く、そろそろ買い替えかなあと思っていました。ディレクトリ移動する時5秒くらい固まるんだよね。

原因判明

改めてネットでNASについて調べていたところ、SMB ファイル転送速度の低下という記事を見つけました。

Windows11(24H2以降)はSMBの署名や圧縮がデフォになるため、転送速度が遅くなるとのことです。

…原因これじゃね？

設定変更

ターミナル(管理者)で実行します。

SMB署名無効化

reg add "HKLM\SYSTEM\CurrentControlSet\Services\LanmanWorkstation\Parameters" /v RequireSecuritySignature /t REG_DWORD /d 0 /f

reg add "HKLM\SYSTEM\CurrentControlSet\Services\LanmanServer\Parameters" /v RequireSecuritySignature /t REG_DWORD /d 0 /f

帯域制限解除

Set-SmbClientConfiguration -RequireSecuritySignature $false -EnableLargeMtu $true

Set-SmbClientConfiguration -EnableBandwidthThrottling $false

QUIC接続無効化

Set-SmbClientConfiguration -EnableSMBQUIC $false

SMB圧縮無効化

Set-SmbClientConfiguration -RequestCompression $false

Set-SmbClientConfiguration -DisableCompression $false

サービス再起動

Restart-Service lanmanworkstation

Restart-Service lanmanserver

設定が反映されたか確認

Get-SmbClientConfiguration

結果

設定後エクスプローラーでNASに接続したところ驚くほど速くなりました。今までの苦労は何だったんだってくらいサクサクになった。

さすがにローカルHDD程ではないけど、これなら不満ないしNAS買い替える必要もないな。

Synology NASキット 2ベイ DS725+

ちなみに買い替え候補はこちらでした。先月発売したばかりの新機種です。

本体8.6万＋HDD2台5.2万＝13.8万円

せっかくなのでお高いやつを買うつもりでした。

まとめ

Windows11が原因なのでもしNAS買い替えても遅いままだったし、気づいてよかったです。余計な出費もせずに済んだ。

ほんとゲイツは余計なことする。

GeminiとGemmaシリーズの特徴まとめてみた

2025年6月8日技術系神代クロ

バージョンがちょっとわかりにくいのでまとめてみました。

Geminiシリーズ

Google DeepMindが開発する最先端の大規模AIモデル群です。

多モーダルな大規模言語モデル（LLM）であり、自然言語処理はもちろん、画像や音声など複数モーダルの入力・出力を扱えるのが特徴です。

バージョン	リリース日	主な特徴
Gemini 1.0	2023年12月	・Ultra/Pro/Nanoの3構成・多モーダル対応（テキスト・画像・音声・動画）・32Kトークンの長文コンテキスト
Gemini 1.5	2024年2月（限定公開）	・Mixture-of-Experts（MoE）導入・最大100万トークンの超長コンテキスト・Pro（大規模版）とFlash（蒸留軽量版）の2構成
Gemini 2.0 Flash	2025年1月	・マルチモーダルLive API導入・ネイティブ画像生成・音声出力・外部ツール連携（検索・計算機能）
Gemini 2.0 Pro	2025年2月	・高性能モデル・リアルタイム音声・映像対応継続・エージェンティック機能強化
Gemini 2.0 Flash-Lite	2025年2月	・低コスト版
Gemini 2.5 Pro	2025年6月	・Deep Thinkモード導入・ネイティブ音声応答・安全性強化
Gemini 2.5 Flash	2025年6月	・軽量高速版・Deep Think一部対応・応答速度最適化
Gemini 2.5 Flash-Lite	2025年7月	・低コスト版
Gemini 2.5 Deep Think	2025年7月	・並列思考技術・国際数学オリンピック金メダル相当

Gemmaシリーズ

Geminiと同じ技術を基に作られた軽量でオープンソースの生成AIモデル群です。

Geminiがクラウド上の強力なLLM群であるのに対し、Gemmaはパラメータ数を抑えてPCやモバイル端末上でも動作可能なよう最適化されており、モデルの重み（学習済みパラメータ）は無償・オープンライセンスで公開されています

バージョン	リリース日	主な特徴
Gemma 1	2024年2月	・オープンソース (2B/7B) ・テキスト専用・商用利用可
Gemma 2	2024年6月	・大規模化 (9B/27B) ・高速推論対応・オープンライセンス
Gemma 3	2025年3月	・マルチモーダル・マルチリンガル対応・1B/4B/12B/27Bサイズ・128Kトークン長
Gemma 3n	2025年6月	・モバイル最適化・PLE技術で低メモリ・5B/8B相当