ChatGPTと文字起こし

ChatGPTと文字起こし

ChatGPTと文字起こし


ChatGPTとは

ChatGPTとは、OpenAIが開発した自然言語処理モデルの一つです。ユーザーが質問を投げかけると、人間のように自然な会話を行うチャットサービスが提供されています。幅広いあらゆる分野の質問に対して、不自然さが全く感じられない詳細な回答をすぐに生成するため注目を集めました。
※ただし文章としては一見自然に見えるというだけで、その内容については事実とは異なることもあり、その点は指摘されています。

使い方も簡単で、Webブラウザ上からChatGPTとチャット形式で対話するだけで、回答や情報の提供を受けることができます。またスマホ用としてiOSアプリも登場しており、テキストベースの入力のみでなく、OpenAIが開発したWhisperという音声認識システムが使用されており、音声による入力も可能となっています。

図1は実際に、ChatGPTで、「ChatGPTとは」と質問した際の回答になります。

ChatGPTで、「ChatGPTとは」と質問した際の回答の画面。回答:ChatGPTとは、OpenAIが開発した自然言語処理モデルの一つです。GPTは「Generative Pre -trained Transformer」の略であり、Transformerと呼ばれるニューラルネットワークアーキテクチャを使用しています。ChatGPTは、テキストベースの対話システムを構築するために設計されており、ユーザーとの対話や質問応答を行うことができます。大量のテキストデータを学習し、その文脈やパターンを理解することで、自然な応答を生成することができます。ChatGPTは、一般的な会話の流れや文脈を把握することができますが、その応答は学習データに基づいて生成されるため、情報の正確性や最新性を保証するわけではありません。また、Chat GPTはAIモデルであり、一部の文脈やニュアンスを誤解することがあるかもしれません。ChatGPTは、チャットポットや仮想アシスタントとして利用されることがあります。一般的な質問への回答や情報の提供、サポートの提供など、さまざまな対話ベースのタスクに使用することができます。ただし、重要な意思決定や専門的な助言を求める場合は、ChatGPTだけに依存せず、信頼できる情報源や専門家の助言を参考にすることが重要です。
図1 質問

ChatGPTという名前は、「Chat」(会話)と「GPT」(Generative Pre-trained Transformer)の略称です。直訳すると「生成可能な事前学習済み変換器」となりますが、余計に分かりにくくなっています。意訳するなら「トランスレーター手法を用いて事前に大量のテキストから学習をした生成系AI」という感じです。

ChatGPTの特徴

ChatGPTの大きな特徴としては、自然言語処理が優れているところです。自然言語情報を解析し、文法や意味だけでなく文脈も理解したうえで、必要な情報を抽出し、適切な応答を行います。また自然な対話だけでなく、ソースコードの生成や表の作成、関数の作成、翻訳、メールやマニュアルの作成など、色々な作業を行うことができます。

ChatGPTの実用例

ソースコード生成

図2はChatGPTに「Pythonで100までの素数を表示するコードを書いてください。」と入力した場合の出力となります。

ChatGPTで、「Pythonで100までの素数を表示するコードを書いてください。」と入力した際の出力画面。以下はPythonで100までの素数を表示するコードです。(Pythonのコードが記載されている。)このコードでは、'is_prime'という関数を定義しています。この関数は与えられた数が素数かどうかを判定します。その後、リスト内包表記を使って2から100までの数を順番に判定し、素数の場合にはリスト'primes'に追加しています。最後に'primes'を表示して素数のリストを出力しています。このコードを実行すると、1から100までの素数が表示されます。お試しください。
図2 ソースコード生成

ソースコードを出力するだけではなく、そのテストコードを作成する、コメントを追加するなども可能です。プログラミングに対して全くの初心者の方が、ソースコードが書けるようになるというのは難しいかもしれませんが、ある程度の知識のある方が、今まで触ったことのない言語でコーディングする等には便利そうです。

文章生成

また、文書作成も簡単に実行できます。図3は、「お客様に文字起こしサービスをご案内する文章を作成してください。」と入力した場合の返信内容となります。

ChatGPTで、「お客様に文字起こしサービスをご案内する文章を作成してください。」と入力した際の回答の返信画面。返信内容:お客様への文字起こしサービスのご案内文を作成いたします。件名:文字起こしサービスのご案内 尊敬するお客様、私たちの会社は、高品質で信頼性のある文字起こしサービスを提供しておりますことをご案内いたします。当社の文字起こしサービスは、音声やビデオのコンテンツを文字データに変換することで、重要な情報や会話を正確に文書化するお手伝いをいたします。私たちのサービスには以下の特徴がございます:1.高品質な文字起こし:熟練した専門スタッフによる丁寧な文字起こし作業を通じて、高精度かつ正確な結果をお約束いたします。2.多様なコンテンツ対応:音声ファイル、ビデオファイル、会話の録音、インタビュー、講演など、さまざまなコンテンツに対応しております。3.迅速な納品:お客様のスケジュールに合わせ、迅速な納品を心掛けております。短納期のリクエストにも柔軟に対応します。4.プライバシーと機密保持:お客様のデータのプライバシーと機密性を重視し、厳格なセキュリティ対策を実施しておりますので、安心してご利用いただけます。ご興味をお持ちいただいた場合、詳細なお見積りやご相談に応じるために、お手数ですが下記の連絡先までご連絡ください。
図3 文章生成

「尊敬するお客様、」など若干おかしい記述がありますが、「文字起こしサービス」という言葉だけでここまで文章を作成してくれます。ある程度修正を加えればそのまま使える案内になっているのではないでしょうか。

文章校正

作成した文章の校正も可能です(図4)。

ChatGPTで、「文章を校正してください。」と入力した際の画面。質問:以下の文章を校正してください。AIによる音声データの懐石技術と熟練ライダーの豊富な経験・ノウハウを組み合わせ、徹底した品質監理でお客様にご満足いただける「精度の高い文字起こしサービス」を提供します。回答:以下は、提供するサービスに関する文章の校正例です。「AIによる音声データの解析技術と熟練したライターの豊富な経験・ノウハウを組み合わせ、徹底した品質管理により、お客様に満足いただける高精度な文字起こしサービスを提供いたします。」変更点:・「懐石技術」を「解析技術」に修正しました。・精度の高い文字起こしサービス」を「高精度な文字起こしサービス」に変更し、冗長性を削減しました。・「ご満足いただける」を「満足いただける」に短縮しました。・文章の流れをよりスムーズにするため、表現を調整しました。 提供するサービスの内容と品質について、より明確かつ魅力的に伝えられるようになりました。
図4 文章校正

「懐石技術」や「熟練ライダー」など間違った単語を使用した文章を入力していますが、正しい言葉に直されています。

文章の校正では、誤字・脱字なども修正されます。文字起こしを行った文章を校正する際にも利用ができそうですし、他に長文要約なども得意な作業になります。

ただしChatGPTに校正をそのまま実行させると、上記のように文章の冗長性や表現の調整までされてしまうことがあります。 特に人間同士のリアルタイムの会話だと、冗長性のある発言もあれば、言い間違いや言い淀み、あるいは長文になると意味は通じるけど文法的には間違っている文章をしゃべっているということはよくあります。

実際の文字起こしの際も、言い直しや言い間違い、「えー」「あのー」などのフィラーワードもそのまま書き起こす「素起こし」、フィラーなどは取り除いて可読性を上げた「ケバ取り」、文章自体を整える「整文」という形式で、例えば裁判での証拠や会議の議事録などの用途に応じて使い分けて対応しています。

そのため敢えて「素起こし」で作成していてもChatGPTに校正を依頼すると「整文」的に修正されてしまうこともあるので注意が必要です。
※コツは必要ですが、ChatGPTへの依頼内容、方法を工夫することで誤字や脱字のチェック程度だけで抑えてもらうことも可能です。

文字起こしへの活用方法

ChatGPTの機能や実例を紹介してきましたが、ChatGPTはあくまでもテキストが主体のため、単独で文字起こし作業を代行することはできません。冒頭でも紹介したように「Whisper」のような別の音声認識システムを利用する必要があります。


Whisperとは

ChatGPTと同じくOpenAIが開発したWhisperは、音声データを入力データとして受け取り、解析し、その結果をテキストデータに変換する音声認識モデルです。

OpenAIの公式サイトでは、以下のように紹介されています。

「Whisperは、ウェブから収集された多言語でのマルチタスクの教師付きデータを含む、合計680,000時間の大規模で多様なデータセットで訓練された自動音声認識(ASR)システムです。この広範なトレーニングにより、Whisperはアクセント、背景雑音、専門用語に対する堅牢性が向上しています。さらに、複数の言語での音声テキスト変換や、それらの言語から英語への翻訳もサポートしています。我々はモデルと推論コードをオープンソース化し、実用的なアプリケーションの構築や堅牢な音声処理のさらなる研究の基盤として提供しています。」

※ChatGPTで英文を日本語訳しています。

なおChatGPTは、Webブラウザからアクセスしたり、iOSアプリから直接使用できたりと利用方法が簡単でしたが、WhisperはAPIのみの提供となっているため、利用するには、プログラム言語から読み出したり、「Google Colab」などのクラウド上の実行環境を使用する必要があり、ChatGPTや他の音声認識アプリと比べると、利用するのに若干敷居が高いものとなっています。

また、ほかのAI音声認識でも同様ですが、自動音声認識での文字起こしは、句読点が入らない、複数人の対話だと発言者の区別がつけられないなど、非常に不自然なまるでお経のような文章が生成されることがよくあります。

ChatGPTとWhisperの組み合わせ

そこで自然な言語生成に長けたChatGPTの出番となります。Whisperによって文字起こしされた分かりにくい文章を丸ごと渡して、誤記の訂正や句読点の適切な挿入などを依頼すると、可読性のあがった文章に生成しなおしてもらえます。

ChatGPTも中核のプログラムはAPIとして公開されているので、WhisperのAPIと組み合わせて、フロントエンド部分だけ作成し、中身はAPIに投げかけるだけの簡易的なプログラムで自動音声認識アプリも作成できます。なおその際にも実際のプログラムは大部分をChatGPTに生成させることが可能です。

Whisperでの文字認識の実例

Whisperを使用した文字起こしでは、Webから収集されたデータでトレーニングされているため、一般的な会話や話題に対して高い正答率を示します。しかし、医療用語や大学の講義などの特定の専門用語やテクニカルな話題に対しては正答率が低下する傾向があるようです。

※専門用語に関しては、AIに特定の学習データを追加することで改善することはできるそうです。

非常に音質が良い場合は、Whisperを含め、他のAI音声認識でも文字起こしの正答率は悪くないため、自動文字起こしが難しい「音質が悪いデ ータ」「環境音などのノイズが大きい音声データ」を使って文字起こしをした結果を比較してみます。

文字起こし比較テスト1(ノイズが多く音質が悪いデータ)
  • Whisperによる文字起こし
    おはようございます。
    以前コマックを破ってから、調子があまり良くない。
  • データグリーンによる文字起こし
    ご無沙汰しております。
    以前鼓膜を破ってから、調子があまり良くないので。

音質が悪いためはっきりと聞き取りできませんが、人の耳で聞くと、「ご無沙汰しております」と聞きとることができました。「コマック」に関しては、「ま」と「く」の間にノイズが入っていたため、Whisperは誤った認識をしているようです。

文字起こし比較テスト2(飲食店など周囲の環境音が大きいデータ)
  • Whisperによる文字起こし
    誰も一人で来てねえだろうみたいなのリーダーも
  • データグリーンによる文字起こし
    誰もほめてくれないだろみたいなノリになって

周囲の声が大きく「ほめてくれない」「ノリになって」が聞き取りにくい状態。人の耳では聞き取りできましたが、Whisperでは誤認識しています。

このように音質の良くないデータ、ノイズ・環境音が混じってるデータをAI音声認識を利用して自動文字起こしをしても、不十分な品質になります。やはり経験をつんだ人間の確認、修正作業が必須となります。

またChatGPTによる補正があるにしても、例えば一般化されていない専門用語や最新のニュース用語などになると対応できません。

  • ちなみにChatGPTは2021年9月時点までのデータで学習をしていたので、2021年10月以降の事件や出来事は把握していません。例えば現在の日本の総理大臣が岸田首相であることや最新の三冠王がヤクルトの村上宗隆選手であることも知りません(2023年7月現在)。
  • ただし拡張プラグイン等を使用することで最新データにアクセスさせることは可能です。

文字起こしの精度を向上させるためには、専門知識やコンテキストを適切に扱うことも重要です。高度な音声認識技術を備えていても、専門的な話題においては人間の知識との組み合わせが必要となります。

精度の高い音声・動画データの文字起こしが必要な時

データグリーンなら

データグリーンでは、音声データの解析技術と熟練ライターの豊富な経験・ノウハウを組み合わせた「精度の高い文字起こし」を提供しております。AI音声認識(ChatGPTとWhisperの組み合わせ等)では対応できない音質の悪いデータ、専門性の高い音声等、長時間の文字起こしにも低価格、年中無休で対応可能です。プライバシーマークおよび情報セキュリティマネジメントシステムの国際規格「ISO27001(ISMS)」の認証も取得しておりますので、秘匿性、機密性の高い音声データの文字起こし、テープ起こしもおまかせください。

お電話からお問い合わせ

0570-550-729

年中無休

平日
9時〜18時
土日祝
9時〜13時

※年末年始、GW、お盆期間は休業

Webからの
お問い合わせ・無料お見積り

広告ムービー