方言と文字起こし
はじめに
インタビュー、講演、面談、裁判用、議事録、研究データなど文字起こしの使用用途は様々ありますが、用途によっては発言のニュアンスを加味した文字起こしが必要となるケースがあります。
録音環境(雑音が入らないようにする、発言が被らないようにする、マイクとの距離を近づけるなど)に気を付けることで、ある程度精度の高い文字起こしが可能ですが、発言者が方言で話している場合はどうでしょう。
ケバ取りや素起こしはAIでは上手く認識しない上に誤変換も多く、整文は方言を標準語に言い換える手間がかかるため、方言を正確に理解して編集する必要があります。
方言とは
方言は、地域や集団、世代間などで多様化する傾向があり、変化しやすいものとされています。聞き覚えがなくともニュアンスでなんとなく聞き取れる方言もあれば、理解することが難しい方言もあります。
日本全国、各県にそれぞれの方言があると思いがちですが、実は全てが方言というわけではなく、大半が訛りや〇〇弁と呼ばれるものです。方言の違いを体系的にまとめた「方言区画論」によれば日本における方言は16種類に分けられています。
なかでも方言の残存率がもっとも高いのは沖縄県です。沖縄の歴史、琉球王国の経緯から当然のことかもしれません。また残存率のトップ10を九州と東北が独占しています。地理的に中央より遠く隔たっているため、固有の方言を残しやすく標準語が浸透しにくいという理由が考えられます。なお、北海道は距離が離れているにも関わらず、本州の人が多く移住したため標準語に比較的近いとされています。
過去には方言を撲滅するような動きもあり、消滅の危機にある方言もありますが、方言は自己表現の手段であるといわれ、近年は地域おこしの道具として使われるなど価値が見直されつつあります。
難解な方言
東北方言(津軽弁)
青森県の津軽地方で話される方言は、発音やイントネーション、用法が特有とされ、AIもお手上げの最も難解な方言と称されます。
「痒い、下さい、食べろ」これらを津軽弁では「け」の一文字だけで表します。そのほか「おいしい」→「め」、「あなた」→「な」、「私」→「わ」、「これを食え」→「か、け」など、単語と一文が極めて短いのが特徴です。理由の一つとしては、厳しい寒さのなかでなんとか口数を少なくしたいという人々の工夫から言葉の単語が短くなったとされています。
標準語 | 津軽弁 |
---|---|
A:どこに行くの? | A:どさ? |
B:温泉に行きます | B:ゆさ |
A:じゃあね | A:へばなー |
琉球方言
鹿児島県の奄美諸島から台湾に近い与那国島に至る島々で使われている琉球方言は、島ごとに大きく異なり、多様性は本土方言に類を見ません。
一度は耳にしたことがあるフレーズとして「ようこそ」→「めんそーれ」、「こんにちは」→「はいさい(はいたい)」、「どうにかなるさ」→「なんくるないさ」など語尾を伸ばして上げる独特なイントネーションがのんびりとした印象を与える方言です。現在一般的に話される琉球方言は、標準語が混ざり合って、比較的聞き取りやすくなっています。
標準語 | 沖縄方言 |
---|---|
A:これは何ですか? | A:クレーヌー ヤイビーガー? |
B:サーターアンダギーです | B:サーターアンダギー ヤイビーン |
A:おいしいですね | A:マーサイビーンヤ |
誤解されやすい方言
方言には耳慣れた言葉が異なる意味をもつ場合もあります。会話は一見成り立っているように思えても、少し食い違っているような気がする。そんな経験をしたことはないでしょうか? 誤解されやすい方言を紹介します
こわい | 濃い(長野県) 恥ずかしい、心配な(岐阜県) 疲れてきつい(北海道) |
---|---|
えらい | つらい、苦しい、大変な(静岡県) 疲れる、大変な(愛知県、広島県) |
かじる | 痒いところをかく(山梨県、静岡県) |
だいじ | 大丈夫、心配がない(茨城県、栃木県) |
せこい | 腹がいっぱいで苦しい(広島県、徳島県) |
ぶさいく | 不器用(島根県) |
なおす | しまう、片づける(近畿、九州) |
今から来る | 今から行く(九州・沖縄) |
また、これは方言ではありませんが、商品名や製品名、虫や遊びの名称も地域によって呼び方が変わるものがたくさんあります。
絆創膏 | サビオ、カットバン、バンドエイド、リバテープ、キズバン |
---|---|
今川焼き | 大判焼き、回転焼き、二重焼き |
模造紙 | B紙、大伴紙、広用紙 |
かたつむり | でんでん虫、マイマイ、チンナン |
ケイドロ、ドロケイ、助け鬼 | どろじゅん、ぬすたん、悪漢探偵、兎と狼 |
他に数え歌(どちらにしようかな、天の神様の言う通り…)やじゃんけんの掛け声など、実は自分が当たり前にこう言い方だと思っているものが、引っ越しや進学・就職などをきっかけとして、別の地域では全く別の言われ方をされていたことに気付くこともあります。
最後に
日本全国さまざまな方言があり、標準語を話していると思われている東京都の中でも、地域によって少しずつイントネーションや発声法、アクセントが違います。イントネーションを解析して方言を認識する高性能なAIもありますが、うまく認識せず誤変換となるケースも多く、修正や確認に時間がかかります。
データグリーンでは方言が飛び交う会話でも熟練ライターの豊富な経験・ノウハウを組み合わせた精度の高い文字起こし、書き起こしが可能です。
また、音質が悪いデータや長時間の文字起こしにも低価格、年中無休で対応しておりますので、週末のご依頼でも土日や祝日の納品が可能です。文字起こし、テープ起こしのことならお気軽にご相談ください。