Fieldrecordingのための音響学習

第1回:音の基礎理解に続き、第2回となる本記事では、録音と信号処理についての理解として、録音機材の特性と録音時の注意点、そしてデジタル音声処理の初歩を体系的にまとめます。

マイクの種類と選び方

マイクの方式と種類

音を信号に変えるマイクにはいくつかの方式・種類があります。代表的な方式としてコンデンサーマイクとダイナミックマイクがあります。それぞれの違いは下記通り。

  • コンデンサーマイク
    高い感度と広い周波数応答を持つ。
    繊細なサウンドや微細なディテールを捉えるのに適している。
    電源供給が必要なため、バッテリー駆動可能なモデルが便利。
    繊細な設計にて湿気等に弱く取り扱いに注意が必要。
  • ダイナミックマイク
    高い耐久性とハンドリングノイズの抑制が特徴。
    高音質であるが、コンデンサーマイクほど広い周波数応答を持たない。
    高音圧縮に強く、風や雨などの外部ノイズにも頑強。

フィールドレコーディングの現場では繊細な音を録音することが多々あり、主にコンデンサーマイクが使用されています。

また、マイクの種類には、一般的な空気振動を信号に変えるエアマイクや水中や固体などの信号を信号に変えるハイドロフォン・コンタクトマイクなど様々なマイクがあります。

マイクの指向性(Polar Pattern)

マイクには指向性の種類があり、一般的なものとして、無指向性カーディオイドスーパーカーディオイド双指向性などがあります。これらは録音対象や環境に応じて使い分けを行います。

  • 無指向性(Omnidirectional)
    360度全方向の音を均一に収録。
    自然な環境音の録音に適している。
  • カーディオイド(Cardioid)
    前方への指向性が強く、背後からのノイズを最小限に抑える。
    環境音を絞り込み狙った音を捉える。
  • スーパーカーディオイド(Supercardioid)
    カーディオイドよりさらに指向性が強いマイク。
    収音角度が狭く周囲環境ノイズを入れず特定の音を収録する。
  • 双指向性(Bidirectional)
    前後の指向性があり、サウンドが前後から来る場面に有効。
    ダイアログや特定の音源に焦点を当てるのに適している。

実験
複数のマイクで同一環境を録音し、周波数特性やノイズ耐性を比較してみましょう。音の立体感や空気感の違いに注目すると面白い発見があります。

サンプリング周波数とビット深度の理解

録音された音はアナログ信号を信号としてサンプリング(標本化)してデジタルに変換されたものです。このとき重要な2つの指標にサンプリング周波数ビット深度があります。

サンプリング周波数(Sampling Rate)

サンプリング周波数(サンプリングレート)とは、「1秒間に実行する標本化処理の回数」です。周波数単位なので表記はHz(ヘルツ)で表します。一般的にCDの音質は44.1kHzとされ、こられは1秒間に44,100回測定します。

サンプリング周波数において、ある帯域のアナログ信号をデジタル信号に正確に変換する場合、2倍以上のサンプリング周波数が必要になります。これをナイキストの定理(標本化定理)と言います。

フィールドレコーディングでは録音デバイスにてサンプリングレートを設定します。設定数値は、録音後の用途により決定しますが、特に目的がない場合は、96kHzや192kHzなどハイレゾと言われる高いサンプリングレートにて録音するのちの用途での自由度が増します。サンプル数が多くなることはデータが大きくなることにもなるので注意が必要です。

  • 単位はHz。CD音質は44.1kHz(1秒間に44,100回測定)。
  • 人間の可聴範囲(〜20kHz)を正確に記録するためには、この倍の周波数が必要(ナイキストの定理)。

ビット深度(Bit Depth)

ビット深度とは、1サンプルあたりの情報量になります。ビット数が大きいほど、微細な音を捉え、歪みによるノイズを抑えた忠実な録音が可能になります。ビット深度は音の解像度は関係はありません。

ビット深度と関係の深いアナログ指標にダイナミックスレンジがあります。ダイナミックスレンジとは、システムが扱える信号の最大値と最小値の比率です。

ビット深度がダイナミックレンジに影響する仕組みは、ビット深度は、デジタル信号が表現できる分解能を決定します。より多くのビット数を使用すると、信号の振幅をより細かい段階で表現できるため、結果としてダイナミックレンジが広がります

  • 8ビット: 約 20×log10​(28)≈48 dB
  • 16ビット: 約 20×log10​(216)≈96 dB (CDの標準)
  • 24ビット: 約 20×log10​(224)≈144 dB
  • 32ビット float (浮動小数点): 理論上、非常に広いダイナミックレンジを持ちます。固定小数点とは異なる表現方法のため、単純な計算はできませんが、クリッピングを起こしにくく、後処理の自由度が高いのが特徴です。

ビット深度が高いほど、より広いダイナミックレンジを表現できる可能性が高まります。ですが、ステムのノイズフロア(扱える最小レベル)や飽和レベル(扱える最大レベル)といった他の要素もダイナミックレンジに影響を与えるため、ビット深度だけでダイナミックレンジが決まるわけではありません

たとえ高いビット深度を持っていても、実際に記録・再生される信号の幅(ダイナミックレンジ)が狭ければ、その能力を十分に活かすことはできません。そのため、ビット深度は、ダイナミックレンジを表現するための「器の細かさ」のようなものと考えることができます。

一般的なフィールドレコーディングのビットレートは24bitや32bit floatを使用します。最近の録音デバイスで一般的に使用できるようになった32bit floatですが、これはfloatの名前通り小数点以下のまでの非常に細かい分割を行います。

この内容については、別の記事「フィールドレコーディング入門|32bit float レコーディング」にてまとめています。

  • 1サンプルあたりの振幅の分解能を示す。16bitなら2¹⁶段階。
  • 音のダイナミックレンジに関係し、環境音では24bitや32bit floatが推奨される。

サンプリング周波数とビット深度についてまとめると、サンプリングレートが高ければ高いほど、音の周波数成分を高精度に記録でき、ビット深度が高ければ高いほど、音圧の高低をより繊細に表現できるということです。

環境音の理解とマイク配置(一般的なマイキングテクニック)

  • 環境の特性に合わせたマイクの配置
    開けたフィールドでは広範囲に配置することで全体の音を捉え自然な音を録音します、また、密集した森林や都市の場合には特定の方向に重点を置くと不要なノイズを抑えることができます。
  • マイクの高さや角度の選定による影響
    マイクの高さを地面近くに配置すると、地鳴りや動物の足音など、低音域のサウンドを効果的に捉えます。逆に、高い位置でのマイキングは風の音や高音域のサウンドに適しています。

ステレオ録音は基本的に2本のマイクの間隔を開けます。録音する内容にもよりますが、通常、録音対象から数m離れた位置に設置します。

  • A-B方式
    最も基本的な方式。2本の無指向性マイクを平行に並べ録音することで、左右に届く音に時間差を作りステレオ感を作り出します。マイクを等間隔で配置するため、相互の干渉が比較的少なく、広い音場を捉えることができます。
  • X-Y方式
    主に2本の単一指向性マイクを利用し、互いに90度の角度で同じ位置に重なり合うように配置します。音の位置の正確さが高まり、音場が広がりすぎず、音を自然に捉えることができます。ステレオイメージがクリアで鮮明な音となります。
  • ORTF方式/NOS方式
    2本の単一指向性マイクを使用。ORTF方式はマイク間を17cm・角度を外側へ110度、NOS方式はマイク間を30cm・角度を外側へ90度音で配置します。音場をリアルに再現することに優れ、音量・ステレオ感の両方を得ることができます。ORFT方式はフランス放送協会、NOS方式はオランダ放送協会が考案。

実験
同じ音を「44.1kHz / 16bit」と「96kHz / 24bit」で録音して比較。高サンプルレートでの音場の広がりや微細な変化を体感できます。

ゲイン設計とノイズ管理

フィールドレコーディングでは、入力される録音レベルの調整を行います。適切な録音レベルの設定は、音の質を左右します。録音レベルが低すぎるとノイズが増え、高すぎるとクリップしてしまいます。

理想的なレベル設計

理想的な録音レベルは、音のピークが-6〜-12dBFSに収まるように調整します。フィールドレコーディングでは、突発的なレベルを考慮し、-12dBFSに触れるくらいで録音します。

  • ピークが-6〜-12dBFSに収まるようにする。
  • ダイナミックレンジの広い環境ではマージンを多めに確保しておく。

ノイズの管理

フィールドレコーディングにおいてノイズはつきものです。特に風はマイクにとって天敵になります。そのほか地面からくるノイズなどあらゆるノイズを軽減するために、ウィンドージャマーやプロテクター、ショックマウントなどを使用します。

また、電子機器や電波を発している環境下では電磁波によるノイズが発生します。フィールドレコーディングにおいて、完全にノイズをなくすことは不可能です。録音の際は、モニタリングしながら録音でのノイズ管理を行うとともに、ノイズ自体を楽しむことも大事な要素となります。

  • 風ノイズや振動ノイズはウィンドジャマーやショックマウントで回避。
  • 録音時にモニターイヤホンで常に確認し、「耳」と「メーター」の両方で判断する。

サンプリング理論とエイリアシング

サンプリング理論(Sampling Theory)

サンプリング理論は、アナログ信号(連続的な波形)をデジタル信号(離散的なデータ)に変換する際の理論的な基盤です。

アナログ信号をデジタル化するには、一定の時間間隔でその信号の値を「サンプル(標本)」として取得します。このとき、どのくらいの頻度(=サンプリングレート)でサンプルを取るかが重要です。

ナイキスト定理(Nyquist Theorem)によれば、あるアナログ信号を完全に復元可能な形でサンプリングするには、信号内で最も高い周波数成分の2倍以上のサンプリングレートが必要です。

例えば、人間の可聴域の上限が約20kHzだとすれば、それを正しく記録するには少なくとも40kHz以上のサンプリングレートが必要になります。一般的な録音ではCD音質(44.1kHz)などに合わせ、44.1kHzや48kHzがよく使用されています。

エイリアシング(Aliasing)

エイリアシングとは、サンプリング周波数が不十分な場合に発生する「周波数の誤認識(折り返し誤差)」です。

サンプリングレートがナイキスト周波数を下回っていると、本来の高周波成分が誤って低い周波数成分として記録されてしまうことがあります。これにより、本来存在しない「ノイズ」や「異なる音色」が混入し、音が濁ったり、歪んで聞こえたりする原因となります。

通常、録音機器にはアンチエイリアシング・フィルター(anti-aliasing filter)が内蔵されており、サンプリング前にナイキスト周波数を超える成分を除去します。これにより、エイリアシングを防ぎ、正確なデジタル変換が可能になります。

フィールドレコーディングにおける実践的な注意点

項目ポイント
サンプリングレートの選定44.1kHz以上を推奨。自然音の高周波成分(鳥の鳴き声、虫の羽音など)を捉えるには96kHz以上も有効。
ハイレゾ録音192kHzなどの高サンプリングレートは、可聴域外の空気感・空間情報を含む素材として価値がある。
機材選びレコーダーやマイクが適切な周波数特性とフィルタリングを備えているか確認する。
後処理時のダウンサンプリング編集や書き出し時にサンプリングレートを下げるときは、リサンプリング処理(補間・フィルター)を正しく行うこと。

デジタルフィルタとEQの仕組み

デジタルフィルタEQ(イコライザー)は、録音された音を加工・最適化するためのツールです。これらは音の周波数成分を制御し、目的に応じて強調・除去するために使用されます。

デジタルフィルタ(Digital Filter)

デジタルフィルタは、デジタル信号処理(DSP)によって、特定の周波数帯域を通過させたり遮断したりする処理です。主なフィルターは下記通り。

フィルタの種類機能用途の例
ローパスフィルタ(LPF)指定したカットオフ周波数より高い周波数を減衰高周波ノイズの除去、風切り音の軽減
ハイパスフィルタ(HPF)指定したカットオフ周波数より低い周波数を減衰マイクの近接効果・低域ノイズ(交通、風)の除去
バンドパスフィルタ(BPF)特定の周波数帯域のみを通す鳥の鳴き声など、狙った音だけを強調
バンドストップ(ノッチ)フィルタ特定の周波数帯域を除去ハムノイズ(50Hz/60Hz)などの除去

FIRとIIRフィルタ

FIR(Finite Impulse Response)フィルタと IIR(Infinite Impulse Response)フィルタは、デジタルフィルタの2つの基本的な形式です。それぞれに特徴・利点・欠点があり、用途に応じて使い分けられます。

  • FIR(有限インパルス応答):安定で高精度。線形位相を保つ。
  • IIR(無限インパルス応答):効率が良く、アナログ回路に近い振る舞い。
項目FIRフィルタIIRフィルタ
安定性常に安定不安定になる可能性あり
位相特性線形位相が可能(波形の歪みなし)位相歪みを伴うことがある
フィードバックなし(出力は入力のみに依存)あり(出力に過去の出力も含む)
計算量多い(高コスト)少ない(効率的)
実装の容易さ容易安定化や設計に注意が必要
用途高品質が求められる音響・画像処理などリアルタイム処理、制御システムなど
目的推奨フィルタ理由
録音後の音の整形やクリーンな編集FIR波形を変えずに特定の周波数を除去したい場合に有利(例:鳥の声をきれいに取り出す)
リアルタイム処理(ライブノイズ除去、録音中モニター)IIR処理が軽く、即時反応が必要な用途に向いている

EQ(Equalizer)

EQ(イコライザー)は、音の周波数帯を自由にブースト(増幅)したりカット(減衰)したりできるツールで、デジタルフィルタの一種です。主なEQの種類は以下。

タイプ特徴用途
パラメトリックEQ周波数・帯域幅・ゲインを自由に設定可能精密な音作りや不要音の除去
グラフィックEQあらかじめ決められた周波数帯を固定スライダーで調整ライブ音響や簡易調整に便利
シェルビングEQ(Low/High Shelf)指定周波数以下(または以上)を一括ブースト/カット空気感(高域)や重低音(低域)の調整

フィールドレコーディングではシチュエーションや録音対象によって様々なノイズがあるため、その使用を考え設定を行います。

シチュエーション使用するEQ/フィルタ理由
風の音が入った音源ハイパスフィルタ低域の風ノイズをカット(例:80〜150Hz以下)
鳥の鳴き声だけを抽出したいバンドパス or パラメトリックEQ周囲のノイズを抑えて鳥の声を強調
遠くの車の重低音が響くローパスやEQで低域をカット音場のクリア化
電磁ノイズが乗っているノッチフィルタで特定の周波数を除去50Hz/60Hzなどのハムノイズ対応

実験
オーディオ編集ソフトやプログラムツールProcessingやopenFrameworksなどで実装し、フィルタを使って、特定の帯域のみ抽出、音の構造を視覚的に観察します。

実験

  • マイク比較録音:同一環境下で複数マイクを録音し、波形・スペクトルを比較。
  • ゲイン設定テスト:自然音/都市音の異なる環境での最適レベル調整を試す。
  • 簡易DSPコード:ProcessingやopenFrameworksでリアルタイムフィルタ処理を実装。
  • 音声編集ソフト + スペクトラム表示:録音素材を分析し、周波数帯ごとの特徴を掴む。

録音の「判断力」は知識と経験のハイブリッド

録音機材やデジタル信号処理の仕組みを理解することで、「なぜこの設定にしたのか」「なぜこのマイクを使ったのか」に明確な根拠を持つ録音判断ができるようになります。

BGD_SOUNDS on bandcamp

BGD_SOUNDSでは、bandcamp上にて、安価で利用できる膨大な著作権フリーのサウンドライブラリーを目指して日々様々な音源ライブラリーを増やしています。音源のほとんどは、192kHzの32bitの高音質にて録音。音楽制作や映像制作など用途に合わせて利用可能です。また、Sound visualization Penplot artも定期的に販売しています。

BGD_CLUB(月額サブスクリプション)も低価格から始めており、すべてのライブラリーにアクセスし自由にダウンロードすることも可能です。

Link / BGD_SOUNDS on bandcamp

関連記事 ► Field recordingのための音響学習/第1回:音の基礎理解

Sound Learning for Field Recording-header1