Azure OpenAIに単体テストのテストコードを生成させたい。《精度向上編》

2023年07月13日 10時00分更新

文● 須山颯己／FIXER

　本記事はFIXERが提供する「cloud.config Tech Blog」に掲載された「【進化をこえる進化】体感しろ❕　これが単体テストだ❕」を再編集したものです。

　皆さん、こんにちわ。

　切り絵に限界を感じて、刺繡に手を出し始めたスヤマサツキです。

　前回のブログから約1週間しか経っていませんが精度が上がりました！

　うれしい。けど1本目投稿する前に上がってほしかった。

　精度がいい感じになってきたので、ここら辺で一発、精度検証といきましょう。

プロンプトver2（究極のアイドル）

前回からの変更点（共通）

　step by stepで実行してください

　この1文を入れるだけでテストコードだけではなくテストコードの実装の仕方まで教えてくれます。たまに。

　人格設定

　これは他のチームからのアドバイスで追加しました。

　テストシナリオ

　ちょっとだけ実務を意識しました。

検証方法

・python、C#、JavaScriptの単体テストのテストコードを生成する。

・単体テストを行う関数は3言語共通として「指定された範囲の整数乱数を生成する関数」である。以下に関数を提示する。

・検証内容は前回のプロンプトと今回のプロンプトの計6つを使い、それぞれで生成を行う。各検証内容ごとでfor文を用いて20回テストコードを生成。生成されたコードのままローカルで単体テストを実際に行う。この作業を5回繰り返し計100回テストコードを生成し精度を確かめる。

・今回検証において、生成されたテストコードは正しいが関数にmaxよりminの値の方が大きい場合にValueErrorを行う機能がないなどの関数としての不備によりテストが失敗している場合は単体テストを行う関数を作成した開発者の落ち度であるものとしテストコードとして正しいという判断をしている。

検証結果

　検証結果はこちらです。

　今回のこの結果は検証内容をふまえて、生成されたコードがテストコードとして使えると判断した数である。詳細は後述

1.python編

　pythonだけで変えたことはありませんが、精度は上がりました。

　ただし、98個すべてが期待通りだったかと言われればそうではありませんでした。何個かはimportせずにテストコードにそのまま単体テストを行いたい関数を記述する方法が生成されました。実際に単体テストを行ったところ成功していたため、今回は、OKとしました。

2.C#編

　C#だけで変えたところと言えば、classごと最初に挿入することでusing定義をOpenAIにさせやすくしました。

　結果として精度が上がったので良かったです。

3.JavaScript編

　正直、こいつが問題児すぎる。プロンプトを改良しても結局requireを使う。一応拡張子を変更すればrequireは使えるのですが…（今回の場合「MyMath.js」を「MyMath.ⅽjs」に変更）でも拡張子変えるのは違うじゃないですか。なのでrequireを使わないような形にしようとしていたのですが、現在はここまでが限界でした。

　※単体テストを行う環境によってrequire使える使えないがあるかも？

4.共通編

　共通して変わったことでいうと、テストシナリオを指定することで生成されたテストコードのテスト内容が制限できているということです。前回までだとテスト内容が1個の時もあるし5,6個の時もあるような状況でしたがそれが改善され、開発者が行いたいテスト内容が生成できることが確認できました。

試行回数600回で気が付いたこと

1.たぶん100%の精度は無理

　前回とver2の間でかなりプロンプトの内容は変えました。ですがどうしてもrequireを使ったりするんですよね。

　ですが、人間の手が加われば話は別‼

　本当にこれなんですよね。

・「const assert = require('assert');」→「import assert from 'assert'」に変更
・「import add from './MyMath';」→「import add from './MyMath.js';」に変更

　などなどほんの少し変えるだけでテストコードとして成り立つものが多すぎる。

　~~特にJavaScript、お前だぞ。~~

　上記のような簡単な修正が許されるなら、ver2に関しては最低85%の精度は保証します。

2.Assert文は間違えていない

　皆さん、お気付きかもしれませんが私が単体テストのテストコード自動生成において一番苦しめられているのはusing,importの定義周りなんです。テスト内容が書かれているAssert文に関しては何も問題はないのです。しいて言うなら例外処理のテスト内容をしっかりプロンプトで説明しないと期待通りにテストコードが出力されないくらい。この程度です。それ以外は本当に問題ありません。