]> Gitweb @ Texas Instruments - Open Source Git Repositories - git.TI.com/gitweb - processor-sdk/kaldi.git/blob - egs/wsj/s5/utils/data/resample_data_dir.sh
[src,egs,scripts] Cosmetic and other minor fixes, some required for segmentation...
[processor-sdk/kaldi.git] / egs / wsj / s5 / utils / data / resample_data_dir.sh
1 #! /bin/bash
3 # Copyright 2016  Vimal Manohar
4 # Apache 2.0.
6 if [ $# -ne 2 ]; then
7   echo "This script adds a sox line in wav.scp to resample the audio at a "
8   echo "different sampling-rate"
9   echo "Usage: $0 <frequency> <data-dir>"
10   echo " e.g.: $0 8000 data/dev"
11   exit 1
12 fi
14 freq=$1
15 dir=$2
17 sox=`which sox` || { echo "Could not find sox in PATH"; exit 1; }
19 if [ -f $dir/feats.scp ]; then
20   mkdir -p $dir/.backup
21   mv $dir/feats.scp $dir/.backup/
22   if [ -f $dir/cmvn.scp ]; then
23     mv $dir/cmvn.scp $dir/.backup/
24   fi
25   echo "$0: feats.scp already exists. Moving it to $dir/.backup"
26 fi
28 mv $dir/wav.scp $dir/wav.scp.tmp
29 cat $dir/wav.scp.tmp | python -c "import sys
30 for line in sys.stdin.readlines():
31   splits = line.strip().split()
32   if splits[-1] == '|':
33     out_line = line.strip() + ' $sox -t wav - -c 1 -b 16 -t wav - rate $freq |'
34   else:
35     out_line = 'cat {0} {1} | $sox -t wav - -c 1 -b 16 -t wav - rate $freq |'.format(splits[0], ' '.join(splits[1:]))
36   print (out_line)" > ${dir}/wav.scp
37 rm $dir/wav.scp.tmp