「AI」カテゴリーアーカイブ

Gemini CLI ためしてみた

Gemini CLI 来たので早速セットアップしてみました。

プレビュー版の条件は以下の通りです。
・Gemini 2.5 Pro
・1日1,000リクエストまで
・100万トークン

最新Gemini Proが無料でほぼ無制限に使えるとかもう無敵だよね。実際にはもっと早くレート制限来るみたいだけど。

Windows11ターミナル

まずはnode.jsインストールして再起動。

> winget install OpenJS.NodeJS.LTS

バージョン確認。

> node -v

Gemini CLIインストール。

> npm install -g @google/gemini-cli

あとは以下で実行できます。最初はGoogleアカウントでログインとかの初期設定があります。

> gemini

インストールに失敗する場合は以下実行してやり直し。

> Set-ExecutionPolicy -Scope Process -ExecutionPolicy Bypass -Force

WSL2

$ curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.7/install.sh | bash
$ nvm install --lts
$ npm install -g @google/gemini-cli

Windows11ターミナルと同じく以下で実行できます。簡単だね。

$ gemini

ためしてみた

シェルなのに日本語で入力するの違和感あるなw Googleなので検索もできる。

テキストファイル作らせて、ファイル名変更したり中身書き換えさせたりは問題なくできました。コーディングやれるんだから当然できることだけど。ファイル名一括置換とかも出来そうだ。Gitも認識できました。

キャラ設定投げてなりきりチャットも出来たw

まとめ

簡単インストールだし、チャットできるしファイル操作もできるし良い感じです。

コーディングの実務が出来るかどうかはまだわかりません。ネット見るといまいちらしいけど。

GeminiとGemmaシリーズの特徴まとめてみた

Stability Matrix + ComfyUI + Wan2.1 でローカル動画生成

RTX5070TiでStability Matrixを使い画像生成(Stable Diffusion WebUI Forge)出来ました。

せっかくなので動画生成AIもやるかと調べると、Wan2.1もStability Matrixで使えるとのこと。早速試してみました。

設定方法

簡単に書くと、
・Stability MatrixのパッケージからComfyUIをインストール
・ComfyUIのワークフロー>テンプレートを参照>ビデオからWan用テンプレート選択
・必要なモデルが提示されるのでダウンロード
・ノードで画像指定して実行するボタン押す

これで生成できました。

今の設定だとwebpファイルで出力されるけど、webp面倒くさいね…

Photoshopに拡張機能入れてwebpを開き、レイヤーをフレームに変換して、タイムラインで時間調整して、mp4に書き出してようやく利用できるようになった。

たぶんComfyUIから直接mp4にする方法もあるはず?

生成された動画

できたものがこちらです。素材画像もAI生成してます。狐巫女さんがすごく自然な動きをして可愛い。

以下はちょっと不自然な動きのメイドさん。

他にも幾つか生成したけどいまいちな出来… やっぱりプロンプトや設定ちゃんと書かないとダメか。まあWebの動画生成サービスでも失敗作多いのでそういうものかもしれないけど。

まとめ

動画生成の環境構築までは簡単にできました。ここから意図した自然な動きをさせようとすると難しそうです。

【スマホAI】Google AI Edge Galleryためしてみた

Googleが密かに開発しているスマホLLMクライアント、Google AI Edge Galleryをためしてみました。

まだストアにはなく、GitHubからAndroidアプリをダウンロードできます。

初期設定

アプリ起動したらリリースしたばかりのGemma-3nがあったのでためしたかったんだけど、なぜかHugging Faceにログインしないとダウンロードできないみたい。

そんな訳で、まずはログイン不要のQwen2.5-1.5Bをためします。このモデルちょっと古いけどね。

Hugging Face経由しなくてもモデル使えるのかな?

使ってみた

アプリには3つのメニューがありました。

Ask Image
たぶん画像解析。Gemma-3nないので使えず。

Prompt Lab
ラボ。テキストをフォーマルやフレンドリー調に書き換えたり、コーディングしたり。でも英語しか出力しないっぽいので今は使わないかな。

AI Chat
よくあるチャットAIです。以下はこれを使った動作です。

実際のやり取りは画像の通り。モデル名や日付がおかしいのはデフォなので気にしない。

4年前のスマホなのに2.6秒で回答するのは素直に凄い。

問題は次の回答。ちょっと壊れてるんだよね。これはスマホのせいなのかモデルのせいなのか。あと長文だから出力に30秒以上かかった。

油断すると回答が英語になっちゃうし、原因わからないけど不安定だな。

まとめ

まだ不安定だけど楽しみな技術です。

ネット不要でスタンドアローンで動くから、いよいよSFに出てくる人工知能って感じだし。

GeminiとGemmaシリーズの特徴まとめてみた

【ローカルAI】LM StudioでGemma3を動かしてみた

PC新しくしたのでローカルAIやってみました。

動かすのはLLM(大規模言語モデル)、つまりテキスト生成AIです。

ツール選定

まずはPCスペックの確認。それなりに良いやつなので問題ないはず。
CPU:Core Ultra7 265KF
RAM:32GB
GPU:RTX5070Ti (VRAM 16GB)

次はクライアント。LM Studioを使うことにしました。一番有名っぽいので。

最後はモデル。無難にGoogleのGemma3にしました。

初期設定

LM Studioをインストールして起動。モデルもこのクライアントからダウンロード出来るので、すぐ使用できるようになりました。簡単すぎて驚いた。

画像生成AIは設定面倒なのに、LLMはこんな簡単に出来るんだね。

動かしてみた

Gemma-3-12B。テキスト投げたら一瞬で返答が来る。これは良いね。モデルサイズ8.15GBでVRAMに丸ごと乗るから軽い。

Gemma-3-27B。モデルサイズ16.43GBでVRAMに乗り切らず結構重たい。

ちなみに12B, 27Bというのはそれぞれパラメータ数が120億, 270億という意味です。そして12Bが速度と精度のバランスが取れたモデルとのこと。

この2モデル試していましたが、正直あまり性能差は感じられませんでした。「JavaScriptでテトリス作って」と指示したら、どちらも動かないコード出してきたし。

ずんだもんの画像見せたら「星街すいかさんです!」と自信満々に答えられて吹いた。

誰だよw

調べたら12BがGPT-3.5くらい、27BがGPT-4くらいの性能とのことでした。なるほど、2年以上前のChatGPTと考えれば納得だ。

ともかく動くようになったので、なりきりチャットとかさせてみようかなw あと外部ツールから呼び出したり出来るのかな? 色々いじってみよう。

まとめ

ちょっとした会話なら問題ないけど、知識が必要なことは厳しいなあと思いました。ローカルで動くこと自体は凄いんだけどね。

そのうち他のモデルも試してみます。

数日使ってみて

12Bで近所の公園について質問したら正しい返答が来て驚いた。たった8GBなのにそんなローカルな情報まで網羅してるのか。デタラメも多いけどね(汗)

12Bと27Bでは日本語の表現が段違いだった。しかし27BはVRAM16GBだと200~300トークンまでしか対応できないらしい。試した限りでは2000トークンくらいで同じ返答繰り返すようになり、まともに動作しなくなる。残念…

APIはOpenAI準拠で使えました。既にLLM+画像生成AI+音声生成AIを繋ぎ合わせてる人とかいたけど、いろんなことが出来そうだ。

他のモデルもためしてみたけど、今のところGemma3が一番しっくり来るな。Qwen3は推論内容が見えて楽しいんだけど、見当違いの返答が多くて。

GeminiとGemmaシリーズの特徴まとめてみた

ChatGPT-4oの画像生成で巫女さん描かせてみた

ChatGPT-4oで画像生成できるようになったので、巫女さんを描かせてみました。

これは細かい指示なしの一発画像なので、ちょっと身体のバランスが悪いかな? でも可愛く描けてる。

座らせてみた。

袖のマークはたぶん千早の模様だろうな。

刀を握らせてみた。

最初上の画像のキャラそのままだったんだけど、変な形の刀持ってたので何度か描き直させたら、ちょっとキャラ変わっちゃった。


4コマ漫画を描かせてみた。

特にネタは指定しなかったんだけど、なぜかメイドさんが巫女さんに昼寝を促す内容に。しかも3コマ漫画だw

少し漢字が怪しいけど日本語書けてるな。

話題のジブリ風。

それっぽい。

最後はソシャゲ風にしてもらった。

このゴテゴテ感。確かにソシャゲだw

まとめ

AIの画像生成って絵柄やポーズが毎回変わるのが普通だったけど、ある程度保持したまま生成できるようになって良い。

しかも「リボンつけて」とか「足袋はかせて」という細かい指示にもちゃんと対応する。素晴らしい。

ChatGPT各バージョンの特徴まとめてみた

Cursor使い始めた。エージェント機能便利すぎる

知人から「Cursor使ったら開発効率2倍になった」と聞いたので、2倍は言いすぎだろうと思いつつ試してみました。

結論から言うと、確かにこれは2倍になるわ。

今までのAI利用

ChatGPTにコードの雛形を書かせたりエラー内容を調べさせています。
そしてGithub Copilotでコード補完しつつ自分で書いていく、みたいに使ってました。

これだとほんとに補助程度しかなく、ほぼ自分で考えてコーディングする必要がありました。ググるのが多少減るくらいの効果です。

Cursor使う

VSCodeクローンでVSCodeから設定引き継げるので、すんなり始められました。

Cursorは他社のAIモデルを使ってコーディングを助けてくれる仕組みです。

AIモデル選択はとりあえずAutoにしてるけど、Claude 3.5 SonnetやGPT-4oが使われてるみたい。界隈ではGemini 2.5 Proが使えるようになったと話題になってるね。

使い始めてすぐ気づいたのはAIが優秀なこと。これはエージェント機能が使われていて、プロジェクト全体を見回して自動でコーディングしたり不具合見つけたりしてくれます。これが物凄く便利です。

エージェント機能実例

「トップページの表示が遅いので速くして」ってチャットに書き込みました。
すると…

トップページのパフォーマンス問題について調査させていただきます。

Nuxt.jsプロジェクトのようですね。トップページのコードを確認します。

トップページのパフォーマンス問題について、以下の改善点が見つかりました

改善案を実装させていただきます

凄すぎない? 自動でコード書き換えて高速化しちゃったよ。

追加でDBのインデックス張る作業もしてもらいました。そっちも自動でDockerコンテナ調べてDBにログイン、テーブル構造確認して最適なインデックスを出してきたよ。素晴らしい。

このプロジェクトはNuxt.js+TypeScriptで書かれていて、あんまり詳しくない物だったので大いに助かりました。

たまにsudoし忘れたり、ディレクトリ変更しないで実行しようとしてやり直してるのが面白い。ローカルでミスる分には問題ないし、むしろ可愛げがあってよろしいw

制限のためProに課金

最初はトライアルで高速プレミアムリクエストが150回あったんだけど、3日で使い切ってしまいました。無料版だと低速で50回しか使えないので、実質Pro版しか選択肢ないね。

そんな訳でProに課金しました。Proでも高速500回しか使えないけど、効率的な使い方がわかってきたし、低速であれば無制限らしいので何とかなるでしょう。

ちなみにトライアル使い切ったタイミングでCursorのサービスがダウンしたので、何か制限食らったのかと焦ったよw

まとめ

エージェント機能が素晴らしすぎる。今までとは全く違う手法になっていくね。開発効率は間違いなく上がる。

そのうちCopilotとかも追いついてくるだろうけど、それはそれで楽しみです。

OpenAIの「deep research」が優秀すぎて驚いた【新規事業アイデア】

2月26日にChatGPT Plus会員でも「deep research」が使えるようになりました。

ただし1ヶ月に10回だけどね。

1.新規ビジネスの案出し

まず最初に新規ビジネスについて質問してみました。自分のキャリアを簡単に説明して、今後どんなことやればいいかって感じの内容ね。そしたら予算や事業分野など幾つかの質問が来たので回答し、待つこと10分。

およそ18000文字のテキストが返ってきました。原稿用紙45枚分。いきなり長文が来て驚いた。

内容はビジネスアイデアが5つ、それぞれの市場や将来性、収益化モデルなどの説明。そして事業をスムーズに立ち上げるためのコンセプトや集客方法、継続化についてなどが書かれていました。

これは凄い。なんとなく質問しただけなのにここまで詳細なレポートを出してくるとは。

2.絞り込んでさらに質問

上記で出てきたビジネスアイデアの1つについて、もっと詳細に聞いてみました。ターゲット層や使用する技術など幾つかの質問が来たので回答して待つ。

今度は40000文字、原稿用紙100枚分のテキストが返ってきました。なんか笑えてきた。たった2回の質問だけでビジネス書1冊分くらいのボリュームだよ。

2回目は事業を絞って具体的に聞いたからボリュームが増えたのかな。

内容は競合相手の調査結果からはじまり、差別化や運営戦略、必要なライセンスやロードマップまで詳細に出してきました。凄すぎてクラクラする。

一通り読んだら今すぐ新規ビジネス立ち上げられそうな気がしてきたよ。

まとめ

使う前はググれば同じことできるじゃん、って思ってました。でもこのボリュームだと何十時間も調査する必要があるため現実的には無理だね。そもそもその分野に詳しくないと調査すら出来ないし。

もちろん内容を鵜呑みにはできないけど、これはかなり有益なサービスだと思いました。

ChatGPT各バージョンの特徴まとめてみた