形態素解析に役立つ文字起こし
人間が情報を伝えたり、コミュニケーションを取ったりするために用いられる言語を自然言語といい、日常会話やメール、テレビ、SNS、本などでさまざまな形式で表現されています。特に日本語は、文法上の制約が少なく、言葉の組み合わせや文脈によって意味が変わったり、同じ言葉でも異なる解釈が生じたりすることがあるため、言葉の分割や情報処理の難易度は非常に高いとされていました。
しかし、近年、言語処理に対する技術、方法の進化で、コンピュータや人工知能(AI)が人間の自然言語を理解し、音声認識や自動要約、言語翻訳、チャットボット、質問応答システム、感情分析などさまざまな分野で活用されています。そういった自然言語処理にはいくつか手法があり、そのなかで最も基礎的な技術である「形態素解析」について解説します。
形態素解析とは
日頃使っている言葉(自然言語)を「形態素」(=言語において最小の意味を持つ単位)に分割し、単語や助詞、助動詞、名詞などの品詞の判別を行う手法のことです。
例)「私は駅で友人を待っている」
-
形態素まで分割
「私・は・駅・で・友人・を・待って・いる」 -
分割した形態素の品詞を分類
私 は 駅 で 友人 を 待って(待つ) いる 名詞 助詞 名詞 助詞 名詞 助詞 動詞 接尾辞 私 名詞 は 助詞 駅 名詞 で 助詞 友人 名詞 を 助詞 待って(待つ) 動詞 いる 接尾辞
このように形態素に分割し、品詞や活用形などの情報の付与を行います。
※なお品詞の分類については、実際はさらにもっと細かく分けられます。例えば名詞は「普通名詞」「地名」「人名」など数多くありますし、上記例には含まれていませんが特殊記号や未定義語(若者言葉や専門用語や略語など)も存在しています。
要素まで分解するので「待っている」を「待つ」+「いる」にまで分割をしてしまうのが少し難しいところかもしれません。
英語でも同様に「I have a pen」は「I」+「have」+「a」+「pen」となり、進行形や過去形が含まれたら「have」+「~ing」だったり、複数形は「pen」+「~s」のように分けられます。英語に限らずアルファベット圏は単語の間に空白がつくので、分割工程は単語の変化を把握するだけで対応可能でした。
ところが日本語のような言語はそうはいきません。例えば「青い表紙の古い本」は日本語特有の曖昧文章ですが、この文章だけでは解釈が複数成立します。英語では例えば「Old book with blue cover」なら1パターンですが、日本語の文法では「古い本」「古い表紙」「青い本」「青い表紙」どの組み合わせもあり得てしまうので、形態素に分けて解析するだけではコンピュータも戸惑ってしまいます。
そのため事前に膨大な辞書を人手で作成し、さらに解析のアルゴリズムも工夫した手法が使われていました。しかしこの方法では未知語や専門用語には対応しづらい、ルールの作成や解析に時間がかかるという欠点があり、現在は、大量の言語を学習し、確率モデルを構築する統計的な手法や深層ニューラルネットワークを活用して文書の特徴を自動的に学習するディープラーニングがよく利用され、高品質な形態素解析が実現されています。
APIやツールも公開されており、無料で試すこともできますので興味のある方は確認されてみてください。
形態素解析の実用例
形態素に分割したデータはさまざまな分野で活用されています。
- 機械翻訳 各単語に対して品詞を付与したあと翻訳の対象となる言語に変換することでより正確な翻訳結果を得ることが可能です。
-
情報検索・検索エンジン
検索クエリやウェブページの文書を適切に分割し、キーワードの抽出や検索結果の精度を向上させます。
例)
「天神でランチ」 ↓ 分割
「天神」 「で」 「ランチ」 ↓ 品詞・活用を決定し不要部分を除外
「天神」 「ランチ」 -
文章要約
大量の文章から要点を抽出して簡潔にまとめることで重要なキーワードや句を抽出することが可能です。
自然言語処理の分野はスマートスピーカーにも使われています。 -
感情分析
ユーザーの感情や評判に関連するキーワードを抽出することが可能です。
文字起こしでは敢えて一般利用目的に「ケバ取り」ではなく、「素起こし」で依頼されることが多いケースで、例えば相手側の反応を逐一確認したい人事面談やあるいは裁判などの証拠での使用目的になります。
上記以外にも無意味なワード(「は」「で」「を」などの助詞)を精査することで、固有名詞や特定の言語のみに絞り込むことができ、トレンド分析や企業マーケティング、スパムメールの検出など幅広く活用されており、今後もさらなる応用が期待されます。
文字起こしと形態素解析
形態素解析を行うには、元になるテキストデータを生成しておく必要があります。インタビューや面談、グループワーク、講演会などの音声データをテキスト化する作業、それが文字起こしになります。
高品質な解析をおこなうためにテキスト化をおこなう際は以下の点が重要です。
-
正確な文字の記録
文字起こしを行う際は、できるだけ正確に音声の内容を文字として記録することが重要です。日本語には多数の同音異義語が存在するため、漢字の誤変換や誤認識などで違った意味合いとなります。
例)
- 「終了」と「修了」
- 「送る」と「贈る」
- 「現状」と「原状」
- 「保険」と「保健」
など
- 句読点や区切りの追加 音声データには、話者のイントネーションや言葉の節目が明確でない場合があります。文字起こしの過程で、句読点や文の区切りを適切に追加することで、文脈の理解に役立ちます。
- 話者の識別 複数の人物が会話をしている場合、話者の識別をすることが重要です。発話情報を適切に記録することで、各発話者の文を区別しやすくなります。
- 音声の補足情報の記録 音声データに含まれる環境音や特定の音の説明、音声の感情表現などの補足情報を記録することも役立ちます。音声の特徴や文脈をより正確に把握することができます。
近年になってAIが高精度の音声認識技術を持つようになり、簡単かつ短時間で音声データを文字に起こすことが可能となりました。
しかし、残念ながらまだかなり限定された条件下でしか実用はされていません。上記に記載した点や複雑な専門用語、複数話者の同時発話、ノイズ交じりの音声などについてはまだまだ人間の手による校正や修正が必要です。形態素解析のみならず、さまざまな解析、研究などに文字起こしデータを活用するためには正確な文字起こしが重要となります。
音声・動画データの文字起こしが必要な時
データグリーンなら
データグリーンでは、さまざまな解析に役立つよう、表記ゆれのチェック、漢字やアルファベットへのルビの付与、特殊フォーマット(お客様指定フォーマット)での納品など使用目的に合わせた文字起こしも柔軟に対応をおこなっております。