ChatGPTと文字起こし
ChatGPTとは
ChatGPTとは、OpenAIが開発した自然言語処理モデルの一つです。ユーザーが質問を投げかけると、人間のように自然な会話を行うチャットサービスが提供されています。幅広いあらゆる分野の質問に対して、不自然さが全く感じられない詳細な回答をすぐに生成するため注目を集めました。
※ただし文章としては一見自然に見えるというだけで、その内容については事実とは異なることもあり、その点は指摘されています。
使い方も簡単で、Webブラウザ上からChatGPTとチャット形式で対話するだけで、回答や情報の提供を受けることができます。またスマホ用としてiOSアプリも登場しており、テキストベースの入力のみでなく、OpenAIが開発したWhisperという音声認識システムが使用されており、音声による入力も可能となっています。
図1は実際に、ChatGPTで、「ChatGPTとは」と質問した際の回答になります。
ChatGPTという名前は、「Chat」(会話)と「GPT」(Generative Pre-trained Transformer)の略称です。直訳すると「生成可能な事前学習済み変換器」となりますが、余計に分かりにくくなっています。意訳するなら「トランスレーター手法を用いて事前に大量のテキストから学習をした生成系AI」という感じです。
ChatGPTの特徴
ChatGPTの大きな特徴としては、自然言語処理が優れているところです。自然言語情報を解析し、文法や意味だけでなく文脈も理解したうえで、必要な情報を抽出し、適切な応答を行います。また自然な対話だけでなく、ソースコードの生成や表の作成、関数の作成、翻訳、メールやマニュアルの作成など、色々な作業を行うことができます。
ChatGPTの実用例
ソースコード生成
図2はChatGPTに「Pythonで100までの素数を表示するコードを書いてください。」と入力した場合の出力となります。
ソースコードを出力するだけではなく、そのテストコードを作成する、コメントを追加するなども可能です。プログラミングに対して全くの初心者の方が、ソースコードが書けるようになるというのは難しいかもしれませんが、ある程度の知識のある方が、今まで触ったことのない言語でコーディングする等には便利そうです。
文章生成
また、文書作成も簡単に実行できます。図3は、「お客様に文字起こしサービスをご案内する文章を作成してください。」と入力した場合の返信内容となります。
「尊敬するお客様、」など若干おかしい記述がありますが、「文字起こしサービス」という言葉だけでここまで文章を作成してくれます。ある程度修正を加えればそのまま使える案内になっているのではないでしょうか。
文章校正
作成した文章の校正も可能です(図4)。
「懐石技術」や「熟練ライダー」など間違った単語を使用した文章を入力していますが、正しい言葉に直されています。
文章の校正では、誤字・脱字なども修正されます。文字起こしを行った文章を校正する際にも利用ができそうですし、他に長文要約なども得意な作業になります。
ただしChatGPTに校正をそのまま実行させると、上記のように文章の冗長性や表現の調整までされてしまうことがあります。 特に人間同士のリアルタイムの会話だと、冗長性のある発言もあれば、言い間違いや言い淀み、あるいは長文になると意味は通じるけど文法的には間違っている文章をしゃべっているということはよくあります。
実際の文字起こしの際も、言い直しや言い間違い、「えー」「あのー」などのフィラーワードもそのまま書き起こす「素起こし」、フィラーなどは取り除いて可読性を上げた「ケバ取り」、文章自体を整える「整文」という形式で、例えば裁判での証拠や会議の議事録などの用途に応じて使い分けて対応しています。
そのため敢えて「素起こし」で作成していてもChatGPTに校正を依頼すると「整文」的に修正されてしまうこともあるので注意が必要です。
※コツは必要ですが、ChatGPTへの依頼内容、方法を工夫することで誤字や脱字のチェック程度だけで抑えてもらうことも可能です。
文字起こしへの活用方法
ChatGPTの機能や実例を紹介してきましたが、ChatGPTはあくまでもテキストが主体のため、単独で文字起こし作業を代行することはできません。冒頭でも紹介したように「Whisper」のような別の音声認識システムを利用する必要があります。
Whisperとは
ChatGPTと同じくOpenAIが開発したWhisperは、音声データを入力データとして受け取り、解析し、その結果をテキストデータに変換する音声認識モデルです。
OpenAIの公式サイトでは、以下のように紹介されています。
「Whisperは、ウェブから収集された多言語でのマルチタスクの教師付きデータを含む、合計680,000時間の大規模で多様なデータセットで訓練された自動音声認識(ASR)システムです。この広範なトレーニングにより、Whisperはアクセント、背景雑音、専門用語に対する堅牢性が向上しています。さらに、複数の言語での音声テキスト変換や、それらの言語から英語への翻訳もサポートしています。我々はモデルと推論コードをオープンソース化し、実用的なアプリケーションの構築や堅牢な音声処理のさらなる研究の基盤として提供しています。」
※ChatGPTで英文を日本語訳しています。
なおChatGPTは、Webブラウザからアクセスしたり、iOSアプリから直接使用できたりと利用方法が簡単でしたが、WhisperはAPIのみの提供となっているため、利用するには、プログラム言語から読み出したり、「Google Colab」などのクラウド上の実行環境を使用する必要があり、ChatGPTや他の音声認識アプリと比べると、利用するのに若干敷居が高いものとなっています。
また、ほかのAI音声認識でも同様ですが、自動音声認識での文字起こしは、句読点が入らない、複数人の対話だと発言者の区別がつけられないなど、非常に不自然なまるでお経のような文章が生成されることがよくあります。
ChatGPTとWhisperの組み合わせ
そこで自然な言語生成に長けたChatGPTの出番となります。Whisperによって文字起こしされた分かりにくい文章を丸ごと渡して、誤記の訂正や句読点の適切な挿入などを依頼すると、可読性のあがった文章に生成しなおしてもらえます。
ChatGPTも中核のプログラムはAPIとして公開されているので、WhisperのAPIと組み合わせて、フロントエンド部分だけ作成し、中身はAPIに投げかけるだけの簡易的なプログラムで自動音声認識アプリも作成できます。なおその際にも実際のプログラムは大部分をChatGPTに生成させることが可能です。
Whisperでの文字認識の実例
Whisperを使用した文字起こしでは、Webから収集されたデータでトレーニングされているため、一般的な会話や話題に対して高い正答率を示します。しかし、医療用語や大学の講義などの特定の専門用語やテクニカルな話題に対しては正答率が低下する傾向があるようです。
※専門用語に関しては、AIに特定の学習データを追加することで改善することはできるそうです。
非常に音質が良い場合は、Whisperを含め、他のAI音声認識でも文字起こしの正答率は悪くないため、自動文字起こしが難しい「音質が悪いデ ータ」「環境音などのノイズが大きい音声データ」を使って文字起こしをした結果を比較してみます。
文字起こし比較テスト1(ノイズが多く音質が悪いデータ)
-
Whisperによる文字起こし
おはようございます。
以前コマックを破ってから、調子があまり良くない。 -
データグリーンによる文字起こし
ご無沙汰しております。
以前鼓膜を破ってから、調子があまり良くないので。
音質が悪いためはっきりと聞き取りできませんが、人の耳で聞くと、「ご無沙汰しております」と聞きとることができました。「コマック」に関しては、「ま」と「く」の間にノイズが入っていたため、Whisperは誤った認識をしているようです。
文字起こし比較テスト2(飲食店など周囲の環境音が大きいデータ)
-
Whisperによる文字起こし
誰も一人で来てねえだろうみたいなのリーダーも -
データグリーンによる文字起こし
誰もほめてくれないだろみたいなノリになって
周囲の声が大きく「ほめてくれない」「ノリになって」が聞き取りにくい状態。人の耳では聞き取りできましたが、Whisperでは誤認識しています。
このように音質の良くないデータ、ノイズ・環境音が混じってるデータをAI音声認識を利用して自動文字起こしをしても、不十分な品質になります。やはり経験をつんだ人間の確認、修正作業が必須となります。
またChatGPTによる補正があるにしても、例えば一般化されていない専門用語や最新のニュース用語などになると対応できません。
- ちなみにChatGPTは2021年9月時点までのデータで学習をしていたので、2021年10月以降の事件や出来事は把握していません。例えば現在の日本の総理大臣が岸田首相であることや最新の三冠王がヤクルトの村上宗隆選手であることも知りません(2023年7月現在)。
- ただし拡張プラグイン等を使用することで最新データにアクセスさせることは可能です。
文字起こしの精度を向上させるためには、専門知識やコンテキストを適切に扱うことも重要です。高度な音声認識技術を備えていても、専門的な話題においては人間の知識との組み合わせが必要となります。
精度の高い音声・動画データの文字起こしが必要な時
データグリーンなら
データグリーンでは、音声データの解析技術と熟練ライターの豊富な経験・ノウハウを組み合わせた「精度の高い文字起こし」を提供しております。AI音声認識(ChatGPTとWhisperの組み合わせ等)では対応できない音質の悪いデータ、専門性の高い音声等、長時間の文字起こしにも低価格、年中無休で対応可能です。プライバシーマークおよび情報セキュリティマネジメントシステムの国際規格「ISO27001(ISMS)」の認証も取得しておりますので、秘匿性、機密性の高い音声データの文字起こし、テープ起こしもおまかせください。