X



音声処理ソフトを作りたいんだけどプログラミングに詳しい人助けて
■ このスレッドは過去ログ倉庫に格納されています
0001以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:03:52.527ID:TWnRhne10USO
wavファイルの音声データってどういう形で収納されてるの?
wavファイルのフォーマットは出てくるんだけど肝心の音声データの部分は波形データが収納されてるくらいの説明しかでてこなくて
波形データがどういうものなのかがよくわからなかった
0002以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:05:34.321ID:0wKDTBVs0USO
サンプリングとか量子化ビット数とか調べろ
0003以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:05:50.182ID:EaOzrXZm0USO
最も単純な形式だから時刻と音の強さの配列じゃないの
0006以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:06:27.360ID:0wKDTBVs0USO
あとステレオだと1サンプルずつ左右交互に配置される
0007以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:06:55.982ID:dxp/8KfT0USO
そのレベルはさすがに自力で探せたり理解できないと無理だろ
本一冊分のノウハウをスレで説明するとか不可能だろうし
0008以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:07:29.042ID:TWnRhne10USO
>>4
>波形情報を格納するチャンクである。

波形情報がどういう形で収納されてるのかが知りたいんだよ
0009以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:10:00.847ID:+rWBbMVP0USO
超早口で入ってるからゆっくり再生使え
0010京都が読めない
垢版 |
2022/04/01(金) 02:10:38.552ID:+VjAbcFG0USO
>>8
違ったかごめん、なんかフィーリエ変換とかで調べたら出てこないか?根本的には違うかもだけど。
0011以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:11:18.701ID:TWnRhne10USO
>>7
そこまで難しい話じゃないだろ
どうやって記述してるかってだけの話
0012以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:12:05.673ID:TWnRhne10USO
>>10
なんでここでフーリエ変換が出てくるのかがわからない
別にピッチ検出しようとしてるわけではないんだが
0013京都が読めない
垢版 |
2022/04/01(金) 02:13:09.150ID:+VjAbcFG0USO
>>11
だったら普通に数字だけだと思うけど、前音声のデータをそのまま書き換えれるソフトが有ったんだけどそれは数字いじってた。
これもまた違うかもだけど...
0014以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:14:47.374ID:TWnRhne10USO
>>13
そりゃ数字に決まってるだろ
0015以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:16:36.200ID:dxp/8KfT0USO
>>11
フォーマットが分からないだけなら、プログラムに詳しい人に助けを求めることないじゃん
きっとフォーマットが分かったら、次はこれが分からないから教えろって延々続くんじゃないの?
0016以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:17:30.372ID:TWnRhne10USO
>>15
続かないよ?
0017京都が読めない
垢版 |
2022/04/01(金) 02:18:54.741ID:+VjAbcFG0USO
これはちょっと俺には何が知りたいのかわからんかった。
わかるんだけどわからん、すまない..
0018以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:19:29.176ID:0wKDTBVs0USO
詳しい人助けて(俺の代わりに作って)って意味だと解釈した
やる気ないなら糞して寝ろ
0019以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:20:13.931ID:TWnRhne10USO
>>18
なんでそんなわけのわからん解釈をするのか・・・
0020以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:23:38.934ID:qLOx7+100USO
煽るわけじゃないけど、これ読んで理解できないならいろいろアレだぞ


PCMであれば、8ビット長または16ビット長
ステレオであれば、L R L R L R … の順で交互に時間順に記録
16ビットの数値は、リトルエンディアン
データ
8ビットPCMは、unsigned char (0 〜 255、無音は 128)
16ビットPCMは、signed short (-32768 〜 +32767、無音は 0)
0021以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:25:49.624ID:TWnRhne10USO
>>20
お前が俺の質問の意味を理解できてないってことはわかった
0022以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:26:37.101ID:dxp/8KfT0USO
>>16
普通にググって一番頭くらいに出てきたこのサイトで十分な気がする
この内容のどこが分からないか?ってことすら言えてない時点で
お前ら全部説明しろ、って言ってるんじゃないかと思うんだが?

https://www.youfit.co.jp/archives/1418
0023以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:26:51.307ID:qLOx7+100USO
>>21
いや、、、、あの、、、バカ?
音ってそもそも波形でしかないのよ
波でしかないの
わかる?
0024以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:27:52.161ID:TWnRhne10USO
>>22
それはwavファイルのフォーマットだろ
俺が聞いてるのはwavファイルの中の波形データのフォーマットなんだよ
0025以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:28:32.953ID:S+RgchOc0USO
1が阿呆すぎて辛い
0026以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:28:55.211ID:IASVpX4e0USO
バカだこいつw
波形データにフォーマットもクソもねえよ
音そのものが波形なんだよバーカ
0027以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:29:42.464ID:S+RgchOc0USO
画像がRGBの各ピクセルの羅列だってのは知ってますか
0028以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:30:12.667ID:TWnRhne10USO
>>26
PCで処理するのに音がそのまま保存されるわけねえだろ
全部数字に変換されてるんだよ
0029以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:30:38.613ID:TWnRhne10USO
>>27
知ってるけど
0030以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:31:24.241ID:dxp/8KfT0USO
>>24
> データ * 波形データを格納。リニアPCMの場合は時間順に格納される。
> ステレオは左→右→左→右…のように格納される。
> 8ビットの場合は符号無し整数 (0 ? 255)、16ビットの場合は符号付き整数 (-32768 ? 32767) で表わす。
0031以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:32:12.159ID:dxp/8KfT0USO
>>24 続き
って書いてあるけど?
0032以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:32:22.148ID:qLOx7+100USO
>>28
音がそのまま保存されてる
と思っていい

例外としてADPCMとかあるが頭の悪い1はそれは考えなくていい
0034以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:32:48.007ID:TWnRhne10USO
>>30
8ビットの場合は符号無し整数、16ビットの場合は符号付き整数でどういうフォーマットで表されてるのかを聞いてるんだよ
0035以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:33:17.284ID:pngZWMd7HUSO
>>22のとおりだろ
データ*
波形データを格納。リニアPCMの場合は時間順に格納される。ステレオは左→右→左→右…のように格納される。8ビットの場合は符号無し整数 (0 – 255)、16ビットの場合は符号付き整数 (-32768 – 32767) で表わす。
0036以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:33:30.180ID:J6qULIar0USO
ある周波数ほにゃららHZのデータを仕込むときには具体的にどういうバイナリをデータチャンクに入れるのかみたいなのが知りたいんだろ?
0037以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:33:32.369ID:qLOx7+100USO
>>34
それはC言語の基本中の基本だな
死ね
0038京都が読めない
垢版 |
2022/04/01(金) 02:33:45.328ID:+VjAbcFG0USO
テキストファイルみたいになってると思ってるってこと?
0039以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:33:59.186ID:S+RgchOc0USO
瞬間瞬間の圧力の数値を並べただけのものがいわゆる波形データなので画像の1ピクセルに相当するのは一つのFloat値かShort値
フォーマットもクソもないただの配列
数値が並んでるだけ
解釈すべき速度だけがサンプリングレートとして別に記録されてる

これで分からなければ無理
0040以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:34:33.056ID:TWnRhne10USO
>>32
バカは黙ってろよ
そのまま保存されてねえんだよ
0041以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:35:40.534ID:TWnRhne10USO
>>37
日本語わからないの?
符号無し整数、符号付き整数とはなんなのかじゃなくて
符号無し整数、符号付き整数を使ってどうやって記述してるのかを聞いてるんだぞ
0042以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:35:57.589ID:S+RgchOc0USO
強いて言うならバイナリ状態の配列
cならfreadとかで読め
0043以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:36:45.534ID:0wKDTBVs0USO
言ったろ
こいつ学ぶ気なんかさらさらないよ
0045以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:37:16.540ID:TWnRhne10USO
>>38
なってないファイルがあるとしたらそれは量子コンピュータだからノーベル賞貰えるぞ

>>39
その数値の単位は?
0046以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:37:36.623ID:dxp/8KfT0USO
>>34
どういうフォーマットってWAVなんだからそのままだろw

そもそも >>22 くらい詳しく書いてあって、自分の知りたいことだけが抜け落ちてるって発想がおかしい
自分の理解がそこの説明に追いついてないだけってのがオチだろ
0047以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:38:36.338ID:TWnRhne10USO
>>46
バカは黙っててよ
自分が説明できない質問されたからって発狂すんな
0048以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:38:39.712ID:S+RgchOc0USO
あの
まずお前はプログラム上でバイナリファイル開いたことすらないだろ
そっからやり直して
普通は出てこないような阿呆な質問してるから
0050以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:39:30.696ID:Rq0t9yWpdUSO
そもそもどんな音声処理したいのか
0051以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:39:34.929ID:TWnRhne10USO
>>49
聞いてるのはデータ型じゃなくてフォーマットなんだが
0052以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:40:18.727ID:TWnRhne10USO
>>50
それを書いたら俺の質問に答えずに勝手に「俺が変わりに作ってやる」とか言い出して俺が作りたいものと違うもの作って押し付けてくるやつが出てきそう
0053以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:41:26.623ID:dxp/8KfT0USO
>>47
馬鹿なのはお前だ
例えば、16bit48KHzで1秒のWAVなら、データ部は16ビットのデータが48000個並んでるだけだ
それを理解できないならそもそも >>22 のサイトの説明が理解できてないだけ
0055以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:44:20.289ID:TWnRhne10USO
>>53
その16ビットのデータの中身を聞いてるんだよ
何回言えばわかるんだよ

>>54
聞いてるのは扱い方じゃなくて中身なんだが
0056以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:44:27.637ID:Rq0t9yWpdUSO
>>52
作るわけないだろキチガイか?
0057以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:44:28.470ID:S+RgchOc0USO
強いて言うなら
何らかのセンサーで測定できる負の圧力の最大値をshort型の負の最大値
正の圧力の最大値をshort型の正の最大値に対応させた仮の単位
ということになる

例えば各最大値を交互に取るような波形を再生すると爆音が鳴って死ぬ

これでわかるか?
0058以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:46:45.759ID:dxp/8KfT0USO
>>55
中身って何を聞いてるの?ちゃんと正しく質問しろよ

WAVがどういうフォーマットなのか理解してれば、1サンプルの音声データは1つの値があるだけなのくらい分かるだろ?
0059以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:47:27.304ID:TWnRhne10USO
>>58
その1つの値が何を意味しているのか
0060以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:47:31.821ID:S+RgchOc0USO
多分何デシベルとかいう実際の単位に対応した値が入ってると思い込んでたんだろ?
頼むそうであってくれ
0061以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:48:49.115ID:S+RgchOc0USO
>>59
それなら>>57が全てだからちゃんと読んでくれ
0062以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:50:00.017ID:TWnRhne10USO
>>61
圧力が時系列順に入ってて
圧力の単位はセンサーによって変わる
ってこと?
0064以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:50:43.444ID:S+RgchOc0USO
>>62
そうだよ
0065以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:51:16.674ID:TWnRhne10USO
>>64
ありがとうございました
0066以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:51:43.367ID:K8wJZ3bx0USO
求めてる答えは知ってるがお前の態度が気に食わない
0067以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:51:47.975ID:pngZWMd7HUSO
>>55
音が波形データってことは知ってる?
10,256,257,258みたいな

で、リニアPCM16bitならそのそれぞれの数値が16bitずつリトルエンディアンでデータ部に入ってるんだよ
10,256, 257, 258は16進数でそれぞれ
0x000a, 0x0100, 0x0101, 0x0102
これらがそれぞれリトルエンディアンで格納されてるから、8bitずつ書くと、
0a 00 00 10 01 01 02 01
0068以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:52:03.592ID:dxp/8KfT0USO
>>59
最終的にはスピーカーに出力される電圧値になるだけ

そもそもWAV以前に音声周りで当たり前のことが分かってなくね?
分かったら次が質問されるとか言った俺の憶測以前に、
そもそも何が分かってないのかが芋ずる式に出てくるだけじゃね?
0069以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:52:52.285ID:rFbwG8kj0USO
そういうライブラリ使えよ
ずいぶん昔にDirectSound使って波形編集アプリ作ったわ
もう忘れたがな
0070以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:54:34.442ID:S+RgchOc0USO
疎密波の概念とかサンプリング定理とか
講義で聞くと要らんだろそこの説明とか思ってたけど
要るやつには要るんだな
0071以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 02:57:54.053ID:dxp/8KfT0USO
本当に >>57 の説明を読んで >>62 で理解したのか怪しいと思うが強制的に終わらせた感w
0072以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:00:35.570ID:Rq0t9yWpdUSO
wavであればアナログ信号がそのまま入ってるとかいう意味不明なこと思ってそうだよな
0073以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:05:01.288ID:TWnRhne10USO
>>71
最初から俺が知りたかったのはこれなんだが
お前は質問の意図を未だに理解できてないんだな
0074以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:06:08.264ID:TWnRhne10USO
>>72
間逆なんだが
どういう数字に変換されて入ってるのかを聞いてるのに
そのまま入ってるってしつこくお前らが言ってきてたんだが
0075以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:06:16.406ID:dxp/8KfT0USO
>>73
俺が言ってるのは、それが分かってないなら質問の仕方が悪い
それだけ
0076以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:08:05.015ID:Rq0t9yWpdUSO
>>74
で、どう言う数字が入ってるの?
0077以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:10:00.637ID:dxp/8KfT0USO
音声ってものは電気的には時間とともに変化する電圧の値でしかない
それを一定の周波数でサンプルするってことは1個ずつは電圧に応じたただの1つの値でしかない

これはフォーマットの問題じゃなくて音声データのしくみそのものの話だから
フォーマットに絡める限り出てくる答えじゃない
0078以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:11:03.503ID:TWnRhne10USO
質問の意図を理解できてなくてずれたことをグダグダ言ってたくせに
解決後もぐだぐだと管巻いてる奴みっともなさすぎ
0079以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:12:57.556ID:TWnRhne10USO
>>77
だから>>1でフォーマットの中身の音声データの中身を聞いたじゃん
0080以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:13:30.188ID:Rq0t9yWpdUSO
たとえばこの12時の時報のポッ、ポッ、ポッ、ポー↑
だとどんな感じの数字が入ってそうか予想はつくのか?
0081以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:19:14.279ID:dxp/8KfT0USO
>>79
>>1 はWAVファイルの〜って文で聞いてるじゃん

WAVファイルに限らず、音声とはそもそもどうやってデータにしてるのか?
って方向で、そもそもWAVが関係ないことを明言しないで通じるわけがない

WAVを例に話をするにしても >>30 の引用部分を自分で出して
その先の質問してればすんなり答え出てたろ
0082以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:20:18.886ID:S+RgchOc0USO
普通にやってたら疑問に思わないことだから
気持ちが先行して実力以上のことやろうとしちゃったんだろ
基礎って大事なんだなって
0083以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:22:41.574ID:S+RgchOc0USO
しかし画像のピクセルの輝度については自然に最小値から最大値までの線形って解釈してるはずなのに
音波に関して何らかの単位に沿ってるはずって思い込んだのは何でなんだろな
0084以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:24:11.656ID:dxp/8KfT0USO
>>82
多分WAVデータを編集アプリとかで見れば、波形がすぐに表示されるし
その波形の時間軸を伸ばしてサンプルレートで見れば1ドットが1サンプルに対応してるってのは
普通見れば判ると思うんだよね

それを判ってないってことが普通の人間には簡単に理解できない
0085以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:24:16.620ID:Rq0t9yWpdUSO
"16ビットの方"の軸にしか注意を向けてないし理解できてないんだろうな
0086以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:38:29.715ID:+RdEqXtH0USO
質問の仕方が糞すぎて草
0087以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 03:45:06.259ID:eI8vYWA50USO
データヘッダーの構造やチャンク構造の話じゃないの?
0089以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 04:40:33.127ID:o1+guU+u0USO
>>87
オーディオ情報のデジタル表現の話らしいよ

俺たちはデルタシグマの話でもしようず
0090以下、5ちゃんねるからVIPがお送りします
垢版 |
2022/04/01(金) 05:19:49.232ID:50s/5hvk0USO
近年稀に見るVIPらしき良スレだと思いましたw
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況