同音異義語と文字起こし
ややこしい同音異義語 ~説明読みについて
2023年夏ころ、とあるVTuberが化学を「ばけがく」と読んだところ炎上するという事件がありました。学生時代の理科の選択などの雑談中の発言に「ばけがく!?」「うそやろ?」のようなヒンシュクを買っていました。
とあるサッカー選手が「清々しい」を「キヨキヨしい」と読んだ件と同じようにちょっと常識のない誤読として扱われてしまったようです。おそらく「ばけがく」に耳馴染みがない若い視聴者層が多かったために騒ぎになってしまったと思われます。
もちろん化学は「カガク」と読むのが正しい読み方ですが、「科学」との混同を避けて敢えて伝わりやすいように「バケガク」と読む言い方が一般的にあります。同種の事例では例えば「私立」と「市立」も本来は両方とも「シリツ」ですが「ワタクシリツ」と「イチリツ」のように読み替えられることがよくあります。
これが”説明読み”とされる読み方です。
日本語は同音異義語が多いことが有名です。ただ通常は「ハシのハシをハシる」と言われても「橋の端を走る」と意味や文意、アクセントなどからスムーズに頭の中で変換ができます。
しかし「化学」と「科学」のようにほぼ同じ文脈・用途で使われる単語同士で音やアクセントも同じ場合は困ったことになります。
例えば下記の文章は同じ音声から起こした文章としては、両方とも成立してしまうのでその判別は非常に困難です。
- 子供が通っている学校は私立で、将来は化学者を目指しています。
- 子供が通っている学校は市立で、将来は科学者を目指しています。
そのため説明読みとして敢えて辞書とは違う読み方が広まっているわけです。
音読みと訓読み
音読みとは、中国の発音をもとにした読みで、音だけでは意味がわからないものが特徴になり、一方、訓読みは漢字の意味を表す和語(大和言葉)読みで、音だけで意味がわかるものが多くなります。
例えば「草」は音読みが「ソウ」で訓読みが「クサ」です。「草」を中国語の発音で無理やり表記すると「ツァォ」で確かに「ソウ」と聞こえないことはありません。
「草原」は「ソウゲン」とも「クサハラ」とも読めますし、本来の意味も辞書によってはこの両者に明確な違いはつけられていません。しかし雰囲気として、ソウゲンはモンゴルの大草原などをイメージするのに対し、クサハラは近所の公園などを思い浮かべる人は多いでしょう。
こういった柔軟に読み方をあてて対応するというスタイルが、説明読みが利用されやすい土壌になっていると思われます。
この説明読みの方が一般化し、今ではそう読むのが当たり前になっている言葉もあります。例えば「生肉」は本来「せいにく」ですが、「精肉」と紛らわしく現代では説明読みの「なまにく」の方が一般的です。
他にも「酒類」が「しゅるい」から(種類との混同をさけて)「さけるい」に、「型式」が「けいしき」から(形式との混同をさけて)「かたしき」など多数あります。
同様に将来的には「化学」は「ばけがく」に、「私立」は「わたくしりつ」に切り替わっていくかもしれません。
日本語の同音異義語
日本語に同音異義語が多いことについては、母音が少ないからと説明されていることが多いようですが、実は正確な説明ではありません。日本語の母音・子音の数は世界の各言語と比較すると実は平均的です。少ないのは音節の方になります。
日本語の発音は(ンとッを除いて)母音で終わるというルールがあり、音としては「ア、イ、ウ、エ、オ」のように母音だけか、あるいは子音+母音、例えば「カ、サ、タ、ナ、ハ、マ、ヤ、ラ、ワ」でできています。この制限により音節が限定されているわけです。
例えば英語のstrikeは日本語で発音すると「ス/ト/ラ/イ/ク」と5音節できっちりとした音になりますが、ネイティブな英語では、まずライの部分は二重母音なので/ai/で一つの母音となり、他は子音なので1音節になります。頭の「ス」も末尾の「ク」の部分も(英語話者は聞き取れますが)はっきりとした音では聞こえません。
このような違いから、日本語の音節は100個前後とされていますが、英語は3000以上から、一説によると数万はあるとされています。
この音節の少なさと、さらに音読みと訓読みで一つの字に複数の読み方(音)をつけてしまうなど、言葉に対してよく言えば柔軟性が高い(あるいは節操が無い)ため、特に明治初頭のころ、西洋から入ってきた新しい学問や概念に対して、漢字の意味から当て字をしていったことから、同音異義語が大量発生したとされています。
化学と科学の発音
なお明治期の日本語はもう少し母音があったという説もあります。化学は「クヮガク」で、科学は「カガク」だったという説です。
実は「chemistry」が「化学」と訳されたのは1861年で、「science」が「科学」とされたのは1874年です。先に生まれた化学の方が肩身が狭くなっているのは面白いですが、翻訳された当時は両立が許されていたことから、「化学」と「科学」には発音に明確な違いが認められていたのかもしれません。
紛らわしさを生みやすい日本語の発音
他に日本語の音の特性としては連母音・長母音の発音の変化もあります。これは「多い(ooi)」や「遠い(tooi)」のような母音が続くと発音としては「オーイ」「トーイ」のように母音がくっついて長音化してしまうことを言います。また「ん」も日本語には実は6種類も発音があります(ちなみに英語は1種類です)。
これらの発音は日本人の耳では無意識のうちに聞き分けているのですが、AIを利用した音声認識による文字起こしでは、これらが影響しあうと区別がつきにくくなるケースがあります。
AI文字起こしでの実例では下記のようなケースがあります。
↓
所有している調整権(チョウセイケン)
末尾の「イケ」と「ケン」は全く違う音のはずですが、しっかりと発音をしないと「イ・イケ」が「イケ」になってしまい、末尾の「ン」の発音も(前の母音が「え」段の場合)弱くなってしまう特性があるため、AIでは判定がぶれてしまうようです。
言われてみれば、そうとも聞こえる一文ですが、前後の文脈からすると池の話をしているのでそちらに引っ張られることは殆どありません。最新のAI文字起こしも同様に前後の文脈や構造を利用して単語のガイドをしているのですが、上記の例ではおそらく「所有」という単語から「権利」の方に引っ張られた可能性が高いと思われます。
誤判定が起きやすい言葉
同音異義語の判別は人にとってもそうですが、AIにとってはもっと困る対応です。もちろん最近のAI文字起こしならひと昔前のとは異なり、例えば「サバイバル」を「鯖威張る」にしてしまうような、ただ同音というだけの唐突な誤判別はなかなか発生しませんが、実際のAI文字起こし時の実例から誤判定が起きた言葉を集めてみました。
限りなく同音、もしくは韻を踏んでいる言葉
- 経緯 → 敬意
- 人工 → 人口
- 天才 → 繊細
- 答え → 個体
- 思念 → 使命
- 本当 → 本能
- 下車 → 月謝
- 業務過多 → 業務方
- 微々たる → ビビった
音が近いだけで説明読みが必要とされないような言葉でも、AIにはまだ区別が難しいようです。逆に人による文字起こし作業では変換ミスとして発生することはあっても、通常はこういう間違いは起きません。
一昔前の誤変換タイプ
- 起承転結 → 気象転結
- お財布 → 長財布
最近のAI文字起こしでは存在しない単語への誤判定は「なかなか発生しない」はずですが、上記はおそらく文脈や文構造の影響から発生したのではと思われます。
同音の単語がある固有名詞、特に地名や人名など
- 志木市 → 色紙など
- 加納 → 可能など
固有名詞は文脈に依存せずに使われることがあるので、誤判定されるケースが多いようです。
地名の場合でも人の手による文字起こしでは参考資料や開催が〇〇県などのメタ情報を参考にすることができるため容易に対応できますが、AI文字起こしでは唐突に挟まれる馴染みのない固有名詞はカタカナで記述されることもよくあります。
そもそも漢字の使い分けが難しい言葉
- 変える / 替える / 代える / 換える
- 聞く / 聴く / 訊く
- 効く / 利く
- 沸く / 湧く
- 貼る / 張る
これらは人も混同していることが多い言葉で、文字起こしする人の国語力が問われる事例です。学校教育や受験などにおいてもよく確認されるところでもあり、将来的にはこの分野に特化したAIの方が人より得意になるかもしれません。
データグリーンでは、さまざまな分野の知識を得たライターにより書き起こしを行っております。AIでは対応が難しい例文にあげたような同音異義語の混在した発言でも問題なく文字起こしを行うことが可能です。
しかし言葉によっては、その前後の文脈だけでなく、テーマや議題、過去の発言までさかのぼらないと判断がつかないケースもあり、やはり同音異義語は文字起こしの世界においては天敵と呼べる存在と言えます。
そういった場合でも提供いただく資料によって文字起こしの品質は向上しますし、コスト面の減少にもつながります。議題やレジュメ、発言者の氏名などご提供可能な資料がある場合はお申し込みの際にご相談ください。
データグリーンなら
音声認識を利用した文字起こしで対応ができない場合、あるいはもっと精度の高い音声・動画データの文字起こしが必要な時はデータグリーンのサービスをご利用ください。音声データの解析技術と熟練ライターの豊富な経験・ノウハウを組み合わせた「精度の高い文字起こし、テープ起こし」をご提供できます。音質が悪いデータや長時間の文字起こしにも低価格、年中無休で対応しておりますので、週末のご依頼でも土日や祝日の納品が可能です。また、プライバシーマークおよび情報セキュリティマネジメントシステムの国際規格「ISO27001(ISMS)」の認証も取得しておりますので、秘匿性、機密性の高い音声データの文字起こし、テープ起こしもおまかせください。