このページの本文へ

遠藤諭のプログラミング+日記 第193回

知らないと損するレベル! 「どこでもLLM」シリーズ

IME感覚で生成AIを使う――今度は無料の「どこでもGemini」

2025年06月20日 09時00分更新

文● 遠藤諭(角川アスキー総合研究所)

  • この記事をはてなブックマークに追加
  • 本文印刷

「どこでもGPT」から「どこでもGemini」へ――無料で使えるGemini APIを活用

 私は「どこでもGPT」という便利なツールを開発し、日々活用している。このツールは、パソコン上のほぼすべてのアプリケーションで生成AIを呼び出すことができる。

 具体的には、Gmail、Word、PowerPoint、Slack、LINEなど、文字を入力・編集するあらゆる場面で活用できる。使い方は簡単で、テキストを範囲選択して「Ctrl-Win-o」キーを押すだけ。そして「読みやすく」「丁寧に」といったプロンプトを入力すると、選択した文章を自動的に書き換えてくれる。

 以下は、本来AIエディタではない「サクラエディタ」で使っているところだ。

サクラエディタで、範囲指定してCtrl-Win-oで呼び出してプロンプトを入力したところ。

テキストの書き換え案をポップアップしてきた。「読みやすく整理して」に反応してかマークダウンになっている。

「はい」を選んで書き換えられたところ。「いいえ」では反映せず。「キャンセル」では、元のテキストを残して書き換え案を追加するようになっている。

書き換えられた結果をマークダウンビュアで表示したところ。

 この種の作業、文書全体をまるまるChatGPTなりにアップロードするなり貼り付ければいいでしょうと思われるかもしれない。しかし、インタビューのまとめにしろ文体の整理にしろ、範囲選択しながらやるほうが結果的に効率がよい。文書まるごとだと、出来上がったものを見て「元はどの部分だったんだっけ?」などと行ったり来たりになるからだ。

 さて、前回の「どこでもGPT」の記事を書いた際には「サポートは基本的に行わない」と説明したのだが、「グーグルのGemini APIには無料枠があるので、それを使ったバージョンを作ってほしい」という要望が寄せられた。

 これは重要な指摘だった。前回紹介したOpenAIのChatGPT APIは有料サービスのみだが、GeminiのAPIには無料で使える枠が用意されている。これを活用すれば、「どこでもGPT」を誰でも気軽に使えるようになるはずだ。

 実際にGeminiのAPI料金表レート制限を確認してみると、無料枠は予想以上に充実している。1回、1分、1日あたりのトークン制限も十分な量が設定されており、テキストの書き換えツールとして使う分には全く問題ない。

 そこで私は、この無料枠を活用した新バージョン「どこでもGemini」を開発した。利用を開始するには、どこでもGeminiのリポジトリからファイルをダウンロードし、適当なフォルダに展開するだけでよい。

どこでもGeminiのリポジトリへアクセス、リリースをクリック。

DokodemoGemini.zipをクリックしてダウンロード。

 ただし、無料といってもAPIキーは取得する必要がある。Google AI Studioにアクセスして、画面上部にある「Get API key」ボタンを押し、次に「APIキーを作成」から取得する。

GeminiのAPIキーの取得のためにGoogle AI Studioにアクセスしたところ。画面上にカギのマークのついたボタンがある。

 このようにして、取得したGeminiのAPIキーを環境変数「GEMINI_API_KEY」に設定する。環境設定の方法はWindowsの設定から検索して行ってほしい。

 これで、さきほど展開した「どこでもGemini」のフォルダの中から「DokodemoGeminiahk.exe」を実行する。必要に応じてWindowsならスタートアップに登録しておけば、パソコンを起動するだけで、いつでも「どこでもGemini」が使える状態となる。

 「どこでもGemini」は、範囲選択して「Ctrl-Win-o」で呼び出するようになっている(ショートカットが「どこでもGPT」と同じなので注意)。以下は、「どこでもGPT」をサクラエディタで使っている動画である。

 ここで1つ重要な点に触れておく必要がある。Gemini APIの無料枠には、レスポンス速度の面で課題がある。「どこでもGPT」では3〜4秒で返答が得られるのに対し、「どこでもGemini」では倍近い時間がかかることもある。「どこでもGPT」で使用するOpenAIの従量課金は1日数円程度と少額であることも付け加えておきたい。

 一方で、言語モデルごとに生成される内容には特徴があり、Gemini APIも高い実力を持っている。私が1980年代に『月刊アスキー』で連載していた「近代プログラマの夕」の単行本から、第1章の冒頭を「どこでもGemini」で処理したのが上記の動画だった。具体的なGemini APIの出力例を紹介したい。まず、元の原稿は以下の通りだ(まだ20代の私が書いた原稿だ)。

 コンピュータの誤りの原因をバグという。プログラマの天敵といえば、なんといってもこのバグである。バグが天敵なのだから、プログラマもなんらかのバグということになるのか?

 あるいはまた、バグは“発見”されることで、いくばくかの“かわいらしさ”を持っている場合がある。最初は、“悪戯”の痕跡が発見され、次にバグの本人(?)が発見されることが多い。発見されたときに食事中であったり、セッセと活動中に「おいおい」と声を掛けると、ヒッと肩をすくめながら振り返ることもある。

 実は、バグは、ほかならぬプログラマ自身によって無意識のうちに生み出されたもので、プログラマにとっては、プログラマの分身ともいえなくもない。

 「どこでもGemini」で、これに「格調の高い、硬めの文体で」とした結果が以下だ。

 計算機システムにおける誤動作の原因は、通例「バグ」と称される。プログラマにとって、このバグこそが最大の障害であり、謂わば宿敵と認識されてきた。かかる観点に立てば、バグを宿敵と見做す以上、プログラマ自身もまた、或る種のバグとして認識されるべきなのか、という哲学的問いが提起される。

 しかしながら、バグは「発見」という段階において、一見して不合理ながらも、ある種の示唆を含有することがある。当初は、表面的な異常現象としてその痕跡が露呈し、次いで、その根源たる不具合本体が特定されるに至るのが常である。この特定作業においては、往々にして、開発者の予測を超えた複雑な論理構造や、思わぬ盲点が顕在化することとなる。

 畢竟、バグとは、他ならぬプログラマ自身が、往々にして無意識のうちに生成した産物である。故に、それはプログラマの分身、あるいは精神的投影と解釈することも不可能ではない。

 これは、自分ではなかなか書けないがいい感じの文章になった。次に、「ギャル文体で」としたのが次の例だ。

 計算機システムがなんか変な動きするのってさ、だいたい「バグ」って言われてんじゃん? プログラマーからしたら、マジこのバグが超ムカつくラスボスって感じじゃん? ってか、ずーっとライバル視されてきたわけ。

 そう考えるとさ、バグを敵認定してるってことは、プログラマー自身もなんかバグみたいな存在ってことなのかなー?って、なんか深くない? エモい。

 でもね? バグって、見つけた時って、え?なんで?って意味不明なのに、なんかヒントくれたりする時あんのよ。最初はさ、なんか変な挙動だけバレて、それで「あれ?」ってなって、やっとホントの原因がわかる、ってのが普通じゃん?

 で、その原因探る時って、マジで予想外の超複雑なロジックとか、全然気づかなかったヤバい見落としとかがバレちゃったりするわけ。

 結局さ、バグって、まじでプログラマー自身が、ぶっちゃけ無意識で作っちゃったヤツなんだよね。だから、それってプログラマーのアバター?っていうか、心の叫びみたいなもんって解釈もできなくなくなくない? え、ヤバい。

 1980年代後半の深夜の月刊アスキー編集部。宮野くん(その後の月刊アスキーの副編集長、週刊アスキーの編集長)、塩田紳二氏、そして私は、その日も始まったばかりで楽しいパソコン通信(アスキーネット)をやりまくっていた。チャットルームには、古谷徹氏が自作MSX用パソコン通信ソフトで入ってきたりして「飛馬よ」などというと「父ちゃん、おれは野球ロボットじゃない」などと返してくれていた。

 その頃、宮野が作った通信ソフトに、なんでもギャルことばにして返すというものがあって。どんな発言に対しても、ちょっと語尾をギャル風にするだけで、あとは「えーっ、ウッソー、かわいい」としか返さない。

 その時代に比べると、さすが生成AIである。このあたりは、時代と共に体験した者にしか分からない感動かもしれない。

Macの場合とWindows 11のこれからの動き

 本題の「どこでもGemini」に話を戻そう。

 「どこでもGemini」の配布パッケージは、Windows 11向けにAutoHotKeyを使って開発されている。Mac版については、AutoHotKeyの代替として別のスニペットツールを使用する必要があるため、Pythonで書かれた処理本体のコードをどこでもGeminiのリポジトリで公開している。

 プログラミングに慣れた方であれば、このコードを使って比較的容易に環境を構築できるだろう。ただし、一般のユーザーにとってはハードルが高いかもしれない。そのため、Macユーザー向けに、より簡単に導入できるパッケージを今後開発するつもりではいる。

 前回も触れたとおり、アップルのApple Intelligenceの「作文ツール」は、同じものではないが「どこでもGPT」や「どこでもGemini」とよく似た使い勝手となっている。それは、もうほんの少し拡張してやるだけで、「どこでもGPT」や「どこでもGemini」(「どこでもLLMシリーズ」と呼ぶことにしよう)とほとんど同じものになる。

 このようなMac側の動きを見ると、Windows 11のCopilot+ PCチームも、同様の「どこでもLLM」機能の開発に着手しているかもしれない。

「どこでもGPT」と「どこでもGemini」で何が変わるか?

 私は普段からWindows 11の標準音声入力機能を活用している。「Win-h」というショートカットキーで簡単に起動でき、思いついたことを自由に話しかけて文字入力できる便利な機能だ。これまでは、音声入力した文章を手作業で修正して使っていた。

 ところが、「どこでもGPT」と「どこでもGemini」を導入してからは、音声入力で作成した荒い文章を、ワンタッチできれいな文章に整形できるようになった。私は頻繁に使うプロンプトを「どこでもPrompt」に登録して活用している。

 この組み合わせにより、音声入力の実用性は格段に向上した。ただし、音声入力はまだ使用環境による制約も多く、誰もが気軽に使える状況にはない。一方で、パソコン作業の大半を占めるテキスト入力や編集について、「すべて生成AIに任せよう」という考え方も出てきており、実際にそれを実践し始めている人もいる。

 今後どのような方向に進んでいくのか。文章を書くこと自体に喜びを感じる私としては、人間とAIの最適なバランスポイントを探っていきたいと考えている。


●「どこでもGemini」
https://github.com/hortense667/DokodemoGemini

●「どこでもGPT」
https://github.com/hortense667/DokodemoGPT02

●「どこでもプロンプト」
https://github.com/hortense667/DokodemoPrompt

 

遠藤諭(えんどうさとし)

 株式会社角川アスキー総合研究所 主席研究員。プログラマを経て1985年に株式会社アスキー入社。月刊アスキー編集長、株式会社アスキー取締役などを経て、2013年より現職。角川アスキー総研では、スマートフォンとネットの時代の人々のライフスタイルに関して、調査・コンサルティングを行っている。「AMSCLS」(LHAで全面的に使われている)や「親指ぴゅん」(親指シフトキーボードエミュレーター)などフリーソフトウェアの作者でもある。趣味は、カレーと錯視と文具作り。2018、2019年に日本基礎心理学会の「錯視・錯聴コンテスト」で2年連続入賞。その錯視を利用したアニメーションフローティングペンを作っている。著書に、『計算機屋かく戦えり』(アスキー)、『頭のいい人が変えた10の世界 NHK ITホワイトボックス』(共著、講談社)など。

Twitter:@hortense667

カテゴリートップへ

この連載の記事
ピックアップ