「スマホの声は本人の声ではない」というのは本当か?実は本当なんです!!

フォローする



スマホの声

NHK総合テレビの人気番組「チコちゃんに叱られる!」(毎週金曜日: 19:57~20:42)では、「キム兄」こと木村祐一さんの声を「チコちゃん」の声に変えていますね。チコちゃんの声は完全に女の子の声になっています。

チコ7ちゃんに叱られる

なお「チコちゃんに叱られる!が大人気?喝 ボーっと生きてんじゃねーよ!」という記事も書いていますので、ぜひご覧ください。

昔のテレビでは、出演者の一人に「ヘリウムガス」を吸わせて、アヒルのような甲高い変な声を出させることが時々ありましたね。

ところで身近な日常のスマホのやり取りでも、相手の声が本人の声と違うように感じた方は多いと思います。

「スマホの声は本人の声ではない」というのは本当なのでしょうか?実は本当なんです!!

そこで今回は、スマホの声の仕組みについてわかりやすくご紹介したいと思います。

1.スマホから聞こえる声は本当の声ではない

電話から聞こえる通話相手の声は、実際の声とは違います。「違う人の声」です。

では「違う人の声」とは一体誰の声なのでしょうか?

電話で聞こえてくる声は「コードブックに載っている声の合成音」なのです。

「コードブック」とは「電話の声の辞書のようなもの」です。

そこにあらかじめ登録されている約2,000~2,500種類の声の中から、話している人の声に最も近い声を選び出し、通話相手へ送っているのです。

一人の相手の声を数千種類以上に分けてアナログ音声をデジタル信号に変換しています。

2.「コードブック」によって違う人の声を使う理由

電話から聞こえてくる声が違う人の声である事はわかりましたが、なぜそのままの声を伝えないのでしょうか?

それは、携帯電話などの通話機器が世界中に凄いスピードで広まってしまったためなのです。

音声の波形を分析し、そのデータを完全に再現することは難しく、そのままの音声を伝えようとすれば、通信量が膨大になってしまいます。

世界中の人の声をそのまま再現して伝えようとすれば通信がパンクしてしまうため、コードブックに載っている声から選ぶといった技術が採用されているのです。

3.電話の声を変換する「CELP」という技術

電話の声を変換して相手に伝えるシステムのことを「CELP」といいます。

CELPの機能は、声の特徴を除いた音声をデータに変換し、データ量を小さくします。

ただ、これだけでは誰が話しているのか分からなくなってしまいます。そこでCELPでは声の特徴である音の見本がついている「コードブック(音の辞書)」を使用します。

コードブックには数千種類以上の音が登録されているので、そのコードブックの中から話し手の声の特徴に最も近い音を選びます。

つまり、データ量を小さくした声から、コードブックに載っている話し手に一番近い声を選び出し、通話相手へ伝えているのです。

そして、コードブックの番号と音韻情報だけを電波に乗せて送ります。最後に受信した相手が音韻情報とコードブックの番号をもとに音声を合成して「声」を再生する仕組みになっています。

ですから、電話から聞こえてくる声は、相手の声ではなく、「コードブックに載っている声優の声」とも言えると思います。

親兄弟などは声が似ていてよく電話で間違えてしまうことがありますね。それはもしかすると、CELPによってコードブックから同じ種類の声が選ばれているからなのかもしれません。

4.通話の際の音声符号化の3つの方式

通話の際の音声符号化には、3つの方式があります。

(1)波形符号化方式

電話の声

まず、「波形符号化方式」。これは固定電話に使われている方法で、声の波形をほぼそのまま届けています。アナログの波形をデジタルの波形にしただけです。ここではわかりやすいように「波形そのまま方式」と呼びましょうか。この方式を使った場合には「本人の声をそのまま届けている」と言えます。

(2)分析合成符号化方式

電話の声

次に「分析合成符号化方式」は、人の発声器官をモデル化した方法です。人が話した声を、喉や口などがどのような形になっているかという声道を再現する「フィルタ」の情報と、声帯がどのように振動しているかという「音源」の情報に分解して伝送し、それらの情報をもとにあらためて音声を合成します。

伝送するデータの量をかなり抑えられる方法ですが、相手に聞こえる声はロボットの声のようになるので、ここでは「ロボット方式」としておきましょう。この方式は「話した内容がわかれば十分」という目的に適しているので、たとえば軍事用途などに使われたりします。

(3)ハイブリッド符号化方式

電話の声

電話の声

そして最後に紹介する「ハイブリッド符号化方式」が今の多くのスマホに使われている合成音声の仕組みです。話した声を「フィルタ」と「音源」に分解するのは「ロボット方式」と同じですが、それをあらためて音声として組み立てる際に「コードブック」という、いわば“音の辞書”のようなものを参照します。

そこで「固定コードブック」から本人の声に近く聴こえる音声コードを探し、声色に合わせて一瞬にして音声をつくります。また、「適応コードブック」という直前につくられた音声コードをメモ書きしたような辞書も使って、効率よく選ばれます。「波形そのまま方式」と「ロボット方式」の長所を兼ね揃えているので、いわば「良いトコどり方式」というわけです。