RubyGems - paddlec - Versions diffs - 0.0.1 - Mend

paddlec 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

checksums.yaml +7 -0
data/LICENSE +674 -0
data/README.md +56 -0
data/ext/libpaddlec/arithmetic.c +2486 -0
data/ext/libpaddlec/comparison.c +683 -0
data/ext/libpaddlec/complex.c +349 -0
data/ext/libpaddlec/delay.c +240 -0
data/ext/libpaddlec/fir_filter.c +724 -0
data/ext/libpaddlec/fir_filter_avx.c +2645 -0
data/ext/libpaddlec/fir_filter_neon.c +1767 -0
data/ext/libpaddlec/fir_filter_sse.c +1677 -0
data/ext/libpaddlec/libpaddlec.c +933 -0
data/ext/libpaddlec/libpaddlec.h +473 -0
data/ext/libpaddlec/math.c +563 -0
data/ext/libpaddlec/no_fast_math.c +955 -0
data/ext/libpaddlec/rounding.c +503 -0
data/ext/paddlec/complex_buffer.c +3555 -0
data/ext/paddlec/complex_buffer.h +28 -0
data/ext/paddlec/delay.c +214 -0
data/ext/paddlec/delay.h +29 -0
data/ext/paddlec/extconf.rb +106 -0
data/ext/paddlec/fir_filter.c +892 -0
data/ext/paddlec/fir_filter.h +28 -0
data/ext/paddlec/float_buffer.c +4770 -0
data/ext/paddlec/float_buffer.h +28 -0
data/ext/paddlec/paddlec.c +788 -0
data/ext/paddlec/paddlec.h +76 -0
data/ext/paddlec/pulseaudio.c +6767 -0
data/ext/paddlec/pulseaudio.h +30 -0
data/lib/paddlec.rb +26 -0
data/lib/paddlec/version.rb +3 -0
data/paddlec.gemspec +55 -0
data/samples/fmdemod.rb +121 -0
data/samples/fmdemod_chunk.rb +120 -0
data/samples/fmdemod_chunk_buffer.rb +144 -0
data/samples/stereo_chunk.rb +161 -0
metadata +99 -0

data/ext/libpaddlec/fir_filter_neon.c ADDED

@@ -0,0 +1,1767 @@
+/* Copyright (C) 2019 Théotime Bollengier <theotime.bollengier@gmail.com>
+ *
+ * This file is part of PaddleC
+ *
+ * PaddleC is free software: you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation, either version 3 of the License, or
+ * (at your option) any later version.
+ *
+ * PaddleC is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with PaddleC. If not, see <https://www.gnu.org/licenses/>.
+ */
+#include <arm_neon.h>
+void pdlc_fir_filter_inspect(pdlc_fir_filter_t* fir)
+{
+	size_t i, j;
+	printf("nb_coefs: %u, state_len: %u, coef_len: %u, index_mask: 0x%x, index: %u\n",
+			fir->nb_coefs, fir->state_len, fir->coef_len, fir->index_mask, fir->index);
+	printf("state:    [%.7g", fir->stater[0]);
+	for (i = 1; i < fir->state_len; i++)
+		printf(", %.7g", fir->stater[i]);
+	printf("]\n");
+	for (j = 0; j < 4; j++) {
+		printf("coefs: {%u}[%.7g", j, fir->coefs[j][0]);
+		for (i = 1; i < fir->coef_len; i++)
+			printf(", %.7g", fir->coefs[j][i]);
+		printf("]\n");
+	}
+}
+void pdlc_fir_filter_initialize(pdlc_fir_filter_t* fir, int order)
+{
+	int i, r;
+	if (fir->coefs) {
+		for (i = 0; i < 4; i++)
+			if (fir->coefs[i])
+				free(fir->coefs[i]);
+		free(fir->coefs);
+		fir->coefs = NULL;
+	}
+	if (fir->stater)
+		free(fir->stater);
+	fir->stater = NULL;
+	if (fir->statei)
+		free(fir->statei);
+	fir->statei = NULL;
+	fir->nb_coefs = 0;
+	fir->state_len = 0;
+	fir->coef_len = 0;
+	fir->index = 0;
+	fir->index_mask = 0;
+	fir->counter = 0;
+	fir->max_counter = 1;
+	if (order < 0)
+		return;
+	if (order > 67108863) {
+		fprintf(stderr, "ERROR: libpaddlec: Filter order cannot be greater than 67108864\n");
+		exit(EXIT_FAILURE);
+	}
+	fir->nb_coefs = (unsigned int)(order + 1);
+	fir->coef_len = ((fir->nb_coefs + 3 + 3) >> 2) << 2;
+	fir->state_len = (unsigned int)(pow(2.0, ceil(log2(fir->coef_len))));
+	fir->index = 0;
+	fir->index_mask = fir->state_len - 1;
+	fir->coefs = malloc(4*sizeof(float*));
+	if (fir->coefs == NULL) {
+		fprintf(stderr, "ERROR: libpaddlec: Cannot allocate %u bytes for FIR!\n", 4 * sizeof(float*));
+		exit(EXIT_FAILURE);
+	}
+	for (i = 0; i < 4; i++) {
+		r = posix_memalign((void**)&fir->coefs[i], sizeof(float32x4_t), fir->coef_len * sizeof(float));
+		if (r) {
+			fprintf(stderr, "ERROR: libpaddlec: Cannot allocate %u bytes for FIR!\n", fir->coef_len * sizeof(float));
+			exit(EXIT_FAILURE);
+		}
+	}
+	r = posix_memalign((void**)&fir->stater, sizeof(float32x4_t), fir->state_len * sizeof(float));
+	if (r) {
+		fprintf(stderr, "ERROR: libpaddlec: Cannot allocate %u bytes for FIR!\n", fir->state_len * sizeof(float));
+		exit(EXIT_FAILURE);
+	}
+	r = posix_memalign((void**)&fir->statei, sizeof(float32x4_t), fir->state_len * sizeof(float));
+	if (r) {
+		fprintf(stderr, "ERROR: libpaddlec: Cannot allocate %u bytes for FIR!\n", fir->state_len * sizeof(float));
+		exit(EXIT_FAILURE);
+	}
+	memset(fir->stater,   0, fir->state_len * sizeof(float));
+	memset(fir->statei,   0, fir->state_len * sizeof(float));
+	for (i = 0; i < 4; i++)
+		memset(fir->coefs[i], 0, fir->coef_len  * sizeof(float));
+}
+void pdlc_fir_filter_free(pdlc_fir_filter_t* fir)
+{
+	int i;
+	if (!fir)
+		return;
+	if (fir->coefs) {
+		for (i = 0; i < 4; i++)
+			if (fir->coefs[i])
+				free(fir->coefs[i]);
+		free(fir->coefs);
+	}
+	if (fir->stater)
+		free(fir->stater);
+	if (fir->statei)
+		free(fir->statei);
+	free(fir);
+}
+size_t pdlc_fir_filter_size(pdlc_fir_filter_t* fir)
+{
+	size_t res;
+	res  = sizeof(pdlc_fir_filter_t);
+	res += sizeof(float*)* 4;
+	res += sizeof(float) * fir->state_len * 2;
+	res += sizeof(float) * fir->coef_len * 4;
+	return res;
+}
+int pdlc_fir_filter_set_coef_at(pdlc_fir_filter_t* fir, int index, float  value)
+{
+	int i;
+	if (index < 0 || index >= (int)fir->nb_coefs)
+		return -1;
+	for (i = 0; i < 4; i++)
+		fir->coefs[i][(fir->nb_coefs - 1 - index + i) % fir->coef_len] = value;
+	return 0;
+}
+float pdlc_fir_filter_filter_float(pdlc_fir_filter_t* fir, float sample, float *delayed)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	const unsigned int middle_index = (start_index + nb_coefs / 2) & mask;
+	const unsigned int lensimd = fir->coef_len >> 2;
+	const unsigned int startsimd = start_index >> 2;
+	const unsigned int masksimd = mask >> 2;
+	unsigned int i, j;
+	register float32x4_t acc;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod;
+#endif
+	const float32x4_t *coefs = (float32x4_t*)fir->coefs[start_index & 3];
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	fir->stater[fir->index] = sample;
+	fir->index = (fir->index + 1) & mask;
+	if (delayed) {
+		if (nb_coefs & 1)
+			*delayed = fir->stater[middle_index];
+		else
+			*delayed = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+	}
+	acc  = vmovq_n_f32(0.0f);
+	j = startsimd;
+	for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+		prod = vmulq_f32(coefs[i], stater[j]);
+		acc  = vaddq_f32(acc, prod);
+#else
+		acc = vfmaq_f32(acc, coefs[i], stater[j]);
+#endif
+		j = (j+1) & masksimd;
+	}
+	return acc[0] + acc[1] + acc[2] + acc[3];
+}
+pdlc_complex_t pdlc_fir_filter_filter_complex(pdlc_fir_filter_t* fir, pdlc_complex_t sample, pdlc_complex_t *delayed)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	const unsigned int middle_index = (start_index + nb_coefs / 2) & mask;
+	const unsigned int lensimd = fir->coef_len >> 2;
+	const unsigned int startsimd = start_index >> 2;
+	const unsigned int masksimd = mask >> 2;
+	unsigned int i, j;
+	pdlc_complex_t res = {0.0f, 0.0f};
+	register float32x4_t accr, acci;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prodr, prodi;
+#endif
+	const float32x4_t *coefs = (float32x4_t*)fir->coefs[start_index & 3];
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	float32x4_t *statei = (float32x4_t*)fir->statei;
+	fir->stater[fir->index] = sample.real;
+	fir->statei[fir->index] = sample.imag;
+	fir->index = (fir->index + 1) & mask;
+	if (delayed) {
+		if (nb_coefs & 1) {
+			delayed->real = fir->stater[middle_index];
+			delayed->imag = fir->statei[middle_index];
+		}
+		else {
+			delayed->real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			delayed->imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+		}
+	}
+	accr = vmovq_n_f32(0.0f);
+	acci = vmovq_n_f32(0.0f);
+	j = startsimd;
+	for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+		prodr = vmulq_f32(coefs[i], stater[j]);
+		prodi = vmulq_f32(coefs[i], statei[j]);
+		accr  = vaddq_f32(accr, prodr);
+		acci  = vaddq_f32(acci, prodi);
+#else
+		accr = vfmaq_f32(accr, coefs[i], stater[j]);
+		acci = vfmaq_f32(acci, coefs[i], statei[j]);
+#endif
+		j = (j+1) & masksimd;
+	}
+	res.real = accr[0] + accr[1] + accr[2] + accr[3];
+	res.imag = acci[0] + acci[1] + acci[2] + acci[3];
+	return res;
+}
+pdlc_buffer_t* pdlc_fir_filter_filter_float_buffer(pdlc_fir_filter_t* fir, const pdlc_buffer_t *ifbuf, pdlc_buffer_t *ofbuf, pdlc_buffer_t *delayed)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const size_t ibuflen = ifbuf->length;
+	unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int middle_index;
+	unsigned int i, j;
+	size_t k;
+	register float32x4_t acc0, acc1, acc2, acc3;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0, prod1, prod2, prod3;
+#endif
+	register float32x4_t statereal;
+	const float32x4_t *coefs0, *coefs1, *coefs2, *coefs3;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	if (!ofbuf)
+		ofbuf = pdlc_buffer_new(ibuflen);
+	else if (ofbuf->length != ibuflen)
+		pdlc_buffer_resize(ofbuf, ibuflen, 0);
+	if (delayed) {
+		if (delayed->length != ibuflen)
+			pdlc_buffer_resize(delayed, ibuflen, 0);
+		middle_index = (start_index + nb_coefs / 2) & mask;
+		if (nb_coefs & 1) {
+			k = 0;
+			while ((start_index & 3) && k < ibuflen) {
+				fir->stater[fir->index] = ifbuf->data[k];
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], stater[j]);
+					acc0  = vaddq_f32(acc0, prod0);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			while (k + 4 <= ibuflen) {
+				fir->stater[ fir->index            ] = ifbuf->data[k + 0];
+				fir->stater[(fir->index + 1) & mask] = ifbuf->data[k + 1];
+				fir->stater[(fir->index + 2) & mask] = ifbuf->data[k + 2];
+				fir->stater[(fir->index + 3) & mask] = ifbuf->data[k + 3];
+				fir->index = (fir->index + 4) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+				coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+				coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+				coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				acc1 = vmovq_n_f32(0.0f);
+				acc2 = vmovq_n_f32(0.0f);
+				acc3 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+					statereal = stater[j];
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], statereal);
+					acc0  = vaddq_f32(acc0, prod0);
+					prod1 = vmulq_f32(coefs1[i], statereal);
+					acc1  = vaddq_f32(acc1, prod1);
+					prod2 = vmulq_f32(coefs2[i], statereal);
+					acc2  = vaddq_f32(acc2, prod2);
+					prod3 = vmulq_f32(coefs3[i], statereal);
+					acc3  = vaddq_f32(acc3, prod3);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+					acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+					acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+					acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k+0] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				ofbuf->data[k+1] = acc1[0] + acc1[1] + acc1[2] + acc1[3];
+				ofbuf->data[k+2] = acc2[0] + acc2[1] + acc2[2] + acc2[3];
+				ofbuf->data[k+3] = acc3[0] + acc3[1] + acc3[2] + acc3[3];
+				start_index = (start_index + 4) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			for (; k < ibuflen; k++) {
+				fir->stater[fir->index] = ifbuf->data[k];
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], stater[j]);
+					acc0  = vaddq_f32(acc0, prod0);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = fir->stater[middle_index];
+				middle_index = (middle_index + 1) & mask;
+			}
+		}
+		else {
+			k = 0;
+			while ((start_index & 3) && k < ibuflen) {
+				fir->stater[fir->index] = ifbuf->data[k];
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], stater[j]);
+					acc0  = vaddq_f32(acc0, prod0);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			while (k + 4 <= ibuflen) {
+				fir->stater[ fir->index            ] = ifbuf->data[k + 0];
+				fir->stater[(fir->index + 1) & mask] = ifbuf->data[k + 1];
+				fir->stater[(fir->index + 2) & mask] = ifbuf->data[k + 2];
+				fir->stater[(fir->index + 3) & mask] = ifbuf->data[k + 3];
+				fir->index = (fir->index + 4) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+				coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+				coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+				coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				acc1 = vmovq_n_f32(0.0f);
+				acc2 = vmovq_n_f32(0.0f);
+				acc3 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+					statereal = stater[j];
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], statereal);
+					acc0  = vaddq_f32(acc0, prod0);
+					prod1 = vmulq_f32(coefs1[i], statereal);
+					acc1  = vaddq_f32(acc1, prod1);
+					prod2 = vmulq_f32(coefs2[i], statereal);
+					acc2  = vaddq_f32(acc2, prod2);
+					prod3 = vmulq_f32(coefs3[i], statereal);
+					acc3  = vaddq_f32(acc3, prod3);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+					acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+					acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+					acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k+0] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				ofbuf->data[k+1] = acc1[0] + acc1[1] + acc1[2] + acc1[3];
+				ofbuf->data[k+2] = acc2[0] + acc2[1] + acc2[2] + acc2[3];
+				ofbuf->data[k+3] = acc3[0] + acc3[1] + acc3[2] + acc3[3];
+				start_index = (start_index + 4) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			for (; k < ibuflen; k++) {
+				fir->stater[fir->index] = ifbuf->data[k];
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0 = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0 = vmulq_f32(coefs0[i], stater[j]);
+					acc0  = vaddq_f32(acc0, prod0);
+#else
+					acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k] = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+			}
+		}
+	}
+	else {
+		k = 0;
+		while ((start_index & 3) && k < ibuflen) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			k++;
+		}
+		while (k + 4 <= ibuflen) {
+			fir->stater[ fir->index            ] = ifbuf->data[k + 0];
+			fir->stater[(fir->index + 1) & mask] = ifbuf->data[k + 1];
+			fir->stater[(fir->index + 2) & mask] = ifbuf->data[k + 2];
+			fir->stater[(fir->index + 3) & mask] = ifbuf->data[k + 3];
+			fir->index = (fir->index + 4) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+			coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+			coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+			coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			acc1 = vmovq_n_f32(0.0f);
+			acc2 = vmovq_n_f32(0.0f);
+			acc3 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+				statereal = stater[j];
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], statereal);
+				acc0  = vaddq_f32(acc0, prod0);
+				prod1 = vmulq_f32(coefs1[i], statereal);
+				acc1  = vaddq_f32(acc1, prod1);
+				prod2 = vmulq_f32(coefs2[i], statereal);
+				acc2  = vaddq_f32(acc2, prod2);
+				prod3 = vmulq_f32(coefs3[i], statereal);
+				acc3  = vaddq_f32(acc3, prod3);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+				acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+				acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+				acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ofbuf->data[k+0] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			ofbuf->data[k+1] = acc1[0] + acc1[1] + acc1[2] + acc1[3];
+			ofbuf->data[k+2] = acc2[0] + acc2[1] + acc2[2] + acc2[3];
+			ofbuf->data[k+3] = acc3[0] + acc3[1] + acc3[2] + acc3[3];
+			start_index = (start_index + 4) & mask;
+			startsimd = start_index >> 2;
+			k += 4;
+		}
+		for (; k < ibuflen; k++) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ofbuf->data[k] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+		}
+	}
+	return ofbuf;
+}
+pdlc_complex_buffer_t* pdlc_fir_filter_filter_complex_buffer(pdlc_fir_filter_t* fir, const pdlc_complex_buffer_t *icbuf, pdlc_complex_buffer_t *ocbuf, pdlc_complex_buffer_t *delayed)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const size_t ibuflen = icbuf->length;
+	unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int middle_index;
+	unsigned int i, j;
+	size_t k;
+	register float32x4_t acc0r, acc1r, acc2r, acc3r;
+	register float32x4_t acc0i, acc1i, acc2i, acc3i;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0r, prod1r, prod2r, prod3r;
+	register float32x4_t prod0i, prod1i, prod2i, prod3i;
+#endif
+	register float32x4_t statereal;
+	register float32x4_t stateimag;
+	const float32x4_t *coefs0, *coefs1, *coefs2, *coefs3;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	float32x4_t *statei = (float32x4_t*)fir->statei;
+	if (!ocbuf)
+		ocbuf = pdlc_complex_buffer_new(ibuflen);
+	else if (ocbuf->length != ibuflen)
+		pdlc_complex_buffer_resize(ocbuf, ibuflen, 0);
+	if (delayed) {
+		if (delayed->length != ibuflen)
+			pdlc_complex_buffer_resize(delayed, ibuflen, 0);
+		middle_index = (start_index + nb_coefs / 2) & mask;
+		if (nb_coefs & 1) {
+				//delayed->data[k] = fir->stater[middle_index];
+				//middle_index = (middle_index + 1) & mask;
+			k = 0;
+			while ((start_index & 3) && k < ibuflen) {
+				fir->stater[fir->index] = icbuf->data[k].real;
+				fir->statei[fir->index] = icbuf->data[k].imag;
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], stater[j]);
+					prod0i = vmulq_f32(coefs0[i], statei[j]);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			while (k + 4 <= ibuflen) {
+				fir->stater[ fir->index            ] = icbuf->data[k + 0].real;
+				fir->stater[(fir->index + 1) & mask] = icbuf->data[k + 1].real;
+				fir->stater[(fir->index + 2) & mask] = icbuf->data[k + 2].real;
+				fir->stater[(fir->index + 3) & mask] = icbuf->data[k + 3].real;
+				fir->statei[ fir->index            ] = icbuf->data[k + 0].imag;
+				fir->statei[(fir->index + 1) & mask] = icbuf->data[k + 1].imag;
+				fir->statei[(fir->index + 2) & mask] = icbuf->data[k + 2].imag;
+				fir->statei[(fir->index + 3) & mask] = icbuf->data[k + 3].imag;
+				fir->index = (fir->index + 4) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+				coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+				coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+				coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				acc1r = vmovq_n_f32(0.0f);
+				acc1i = vmovq_n_f32(0.0f);
+				acc2r = vmovq_n_f32(0.0f);
+				acc2i = vmovq_n_f32(0.0f);
+				acc3r = vmovq_n_f32(0.0f);
+				acc3i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+					statereal = stater[j];
+					stateimag = statei[j];
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], statereal);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					prod1r = vmulq_f32(coefs1[i], statereal);
+					acc1r  = vaddq_f32(acc1r, prod1r);
+					prod2r = vmulq_f32(coefs2[i], statereal);
+					acc2r  = vaddq_f32(acc2r, prod2r);
+					prod3r = vmulq_f32(coefs3[i], statereal);
+					acc3r  = vaddq_f32(acc3r, prod3r);
+					prod0i = vmulq_f32(coefs0[i], stateimag);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+					prod1i = vmulq_f32(coefs1[i], stateimag);
+					acc1i  = vaddq_f32(acc1i, prod1i);
+					prod2i = vmulq_f32(coefs2[i], stateimag);
+					acc2i  = vaddq_f32(acc2i, prod2i);
+					prod3i = vmulq_f32(coefs3[i], stateimag);
+					acc3i  = vaddq_f32(acc3i, prod3i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], statereal);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], stateimag);
+					acc1r = vfmaq_f32(acc1r, coefs1[i], statereal);
+					acc1i = vfmaq_f32(acc1i, coefs1[i], stateimag);
+					acc2r = vfmaq_f32(acc2r, coefs2[i], statereal);
+					acc2i = vfmaq_f32(acc2i, coefs2[i], stateimag);
+					acc3r = vfmaq_f32(acc3r, coefs3[i], statereal);
+					acc3i = vfmaq_f32(acc3i, coefs3[i], stateimag);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k+0].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k+0].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				ocbuf->data[k+1].real = acc1r[0] + acc1r[1] + acc1r[2] + acc1r[3];
+				ocbuf->data[k+1].imag = acc1i[0] + acc1i[1] + acc1i[2] + acc1i[3];
+				ocbuf->data[k+2].real = acc2r[0] + acc2r[1] + acc2r[2] + acc2r[3];
+				ocbuf->data[k+2].imag = acc2i[0] + acc2i[1] + acc2i[2] + acc2i[3];
+				ocbuf->data[k+3].real = acc3r[0] + acc3r[1] + acc3r[2] + acc3r[3];
+				ocbuf->data[k+3].imag = acc3i[0] + acc3i[1] + acc3i[2] + acc3i[3];
+				start_index = (start_index + 4) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			for (; k < ibuflen; k++) {
+				fir->stater[fir->index] = icbuf->data[k].real;
+				fir->statei[fir->index] = icbuf->data[k].imag;
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], stater[j]);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					prod0i = vmulq_f32(coefs0[i], statei[j]);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = fir->stater[middle_index];
+				delayed->data[k].imag = fir->statei[middle_index];
+				middle_index = (middle_index + 1) & mask;
+			}
+		}
+		else {
+			k = 0;
+			while ((start_index & 3) && k < ibuflen) {
+				fir->stater[fir->index] = icbuf->data[k].real;
+				fir->statei[fir->index] = icbuf->data[k].imag;
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], stater[j]);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					prod0i = vmulq_f32(coefs0[i], statei[j]);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			while (k + 4 <= ibuflen) {
+				fir->stater[ fir->index            ] = icbuf->data[k + 0].real;
+				fir->stater[(fir->index + 1) & mask] = icbuf->data[k + 1].real;
+				fir->stater[(fir->index + 2) & mask] = icbuf->data[k + 2].real;
+				fir->stater[(fir->index + 3) & mask] = icbuf->data[k + 3].real;
+				fir->statei[ fir->index            ] = icbuf->data[k + 0].imag;
+				fir->statei[(fir->index + 1) & mask] = icbuf->data[k + 1].imag;
+				fir->statei[(fir->index + 2) & mask] = icbuf->data[k + 2].imag;
+				fir->statei[(fir->index + 3) & mask] = icbuf->data[k + 3].imag;
+				fir->index = (fir->index + 4) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+				coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+				coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+				coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				acc1r = vmovq_n_f32(0.0f);
+				acc1i = vmovq_n_f32(0.0f);
+				acc2r = vmovq_n_f32(0.0f);
+				acc2i = vmovq_n_f32(0.0f);
+				acc3r = vmovq_n_f32(0.0f);
+				acc3i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+					statereal = stater[j];
+					stateimag = statei[j];
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], statereal);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					prod1r = vmulq_f32(coefs1[i], statereal);
+					acc1r  = vaddq_f32(acc1r, prod1r);
+					prod2r = vmulq_f32(coefs2[i], statereal);
+					acc2r  = vaddq_f32(acc2r, prod2r);
+					prod3r = vmulq_f32(coefs3[i], statereal);
+					acc3r  = vaddq_f32(acc3r, prod3r);
+					prod0i = vmulq_f32(coefs0[i], stateimag);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+					prod1i = vmulq_f32(coefs1[i], stateimag);
+					acc1i  = vaddq_f32(acc1i, prod1i);
+					prod2i = vmulq_f32(coefs2[i], stateimag);
+					acc2i  = vaddq_f32(acc2i, prod2i);
+					prod3i = vmulq_f32(coefs3[i], stateimag);
+					acc3i  = vaddq_f32(acc3i, prod3i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], statereal);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], stateimag);
+					acc1r = vfmaq_f32(acc1r, coefs1[i], statereal);
+					acc1i = vfmaq_f32(acc1i, coefs1[i], stateimag);
+					acc2r = vfmaq_f32(acc2r, coefs2[i], statereal);
+					acc2i = vfmaq_f32(acc2i, coefs2[i], stateimag);
+					acc3r = vfmaq_f32(acc3r, coefs3[i], statereal);
+					acc3i = vfmaq_f32(acc3i, coefs3[i], stateimag);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k+0].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k+0].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				ocbuf->data[k+1].real = acc1r[0] + acc1r[1] + acc1r[2] + acc1r[3];
+				ocbuf->data[k+1].imag = acc1i[0] + acc1i[1] + acc1i[2] + acc1i[3];
+				ocbuf->data[k+2].real = acc2r[0] + acc2r[1] + acc2r[2] + acc2r[3];
+				ocbuf->data[k+2].imag = acc2i[0] + acc2i[1] + acc2i[2] + acc2i[3];
+				ocbuf->data[k+3].real = acc3r[0] + acc3r[1] + acc3r[2] + acc3r[3];
+				ocbuf->data[k+3].imag = acc3i[0] + acc3i[1] + acc3i[2] + acc3i[3];
+				start_index = (start_index + 4) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+				k++;
+			}
+			for (; k < ibuflen; k++) {
+				fir->stater[fir->index] = icbuf->data[k].real;
+				fir->statei[fir->index] = icbuf->data[k].imag;
+				fir->index = (fir->index + 1) & mask;
+				coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+				acc0r = vmovq_n_f32(0.0f);
+				acc0i = vmovq_n_f32(0.0f);
+				j = startsimd;
+				for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+					prod0r = vmulq_f32(coefs0[i], stater[j]);
+					acc0r  = vaddq_f32(acc0r, prod0r);
+					prod0i = vmulq_f32(coefs0[i], statei[j]);
+					acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+					acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+					acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+					j = (j+1) & masksimd;
+				}
+				ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+				ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+				start_index = (start_index + 1) & mask;
+				startsimd = start_index >> 2;
+				delayed->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+				delayed->data[k].imag = (fir->statei[middle_index] + fir->statei[(middle_index - 1) & mask]) / 2.0f;
+				middle_index = (middle_index + 1) & mask;
+			}
+		}
+	}
+	else {
+		k = 0;
+		while ((start_index & 3) && k < ibuflen) {
+			fir->stater[fir->index] = icbuf->data[k].real;
+			fir->statei[fir->index] = icbuf->data[k].imag;
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0r = vmovq_n_f32(0.0f);
+			acc0i = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0r = vmulq_f32(coefs0[i], stater[j]);
+				acc0r  = vaddq_f32(acc0r, prod0r);
+				prod0i = vmulq_f32(coefs0[i], statei[j]);
+				acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+				acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+				acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+			ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			k++;
+		}
+		while (k + 4 <= ibuflen) {
+			fir->stater[ fir->index            ] = icbuf->data[k + 0].real;
+			fir->stater[(fir->index + 1) & mask] = icbuf->data[k + 1].real;
+			fir->stater[(fir->index + 2) & mask] = icbuf->data[k + 2].real;
+			fir->stater[(fir->index + 3) & mask] = icbuf->data[k + 3].real;
+			fir->statei[ fir->index            ] = icbuf->data[k + 0].imag;
+			fir->statei[(fir->index + 1) & mask] = icbuf->data[k + 1].imag;
+			fir->statei[(fir->index + 2) & mask] = icbuf->data[k + 2].imag;
+			fir->statei[(fir->index + 3) & mask] = icbuf->data[k + 3].imag;
+			fir->index = (fir->index + 4) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+			coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+			coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+			coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+			acc0r = vmovq_n_f32(0.0f);
+			acc0i = vmovq_n_f32(0.0f);
+			acc1r = vmovq_n_f32(0.0f);
+			acc1i = vmovq_n_f32(0.0f);
+			acc2r = vmovq_n_f32(0.0f);
+			acc2i = vmovq_n_f32(0.0f);
+			acc3r = vmovq_n_f32(0.0f);
+			acc3i = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+				statereal = stater[j];
+				stateimag = statei[j];
+#ifndef __FP_FAST_FMA
+				prod0r = vmulq_f32(coefs0[i], statereal);
+				acc0r  = vaddq_f32(acc0r, prod0r);
+				prod1r = vmulq_f32(coefs1[i], statereal);
+				acc1r  = vaddq_f32(acc1r, prod1r);
+				prod2r = vmulq_f32(coefs2[i], statereal);
+				acc2r  = vaddq_f32(acc2r, prod2r);
+				prod3r = vmulq_f32(coefs3[i], statereal);
+				acc3r  = vaddq_f32(acc3r, prod3r);
+				prod0i = vmulq_f32(coefs0[i], stateimag);
+				acc0i  = vaddq_f32(acc0i, prod0i);
+				prod1i = vmulq_f32(coefs1[i], stateimag);
+				acc1i  = vaddq_f32(acc1i, prod1i);
+				prod2i = vmulq_f32(coefs2[i], stateimag);
+				acc2i  = vaddq_f32(acc2i, prod2i);
+				prod3i = vmulq_f32(coefs3[i], stateimag);
+				acc3i  = vaddq_f32(acc3i, prod3i);
+#else
+				acc0r = vfmaq_f32(acc0r, coefs0[i], statereal);
+				acc0i = vfmaq_f32(acc0i, coefs0[i], stateimag);
+				acc1r = vfmaq_f32(acc1r, coefs1[i], statereal);
+				acc1i = vfmaq_f32(acc1i, coefs1[i], stateimag);
+				acc2r = vfmaq_f32(acc2r, coefs2[i], statereal);
+				acc2i = vfmaq_f32(acc2i, coefs2[i], stateimag);
+				acc3r = vfmaq_f32(acc3r, coefs3[i], statereal);
+				acc3i = vfmaq_f32(acc3i, coefs3[i], stateimag);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k+0].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+			ocbuf->data[k+0].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+			ocbuf->data[k+1].real = acc1r[0] + acc1r[1] + acc1r[2] + acc1r[3];
+			ocbuf->data[k+1].imag = acc1i[0] + acc1i[1] + acc1i[2] + acc1i[3];
+			ocbuf->data[k+2].real = acc2r[0] + acc2r[1] + acc2r[2] + acc2r[3];
+			ocbuf->data[k+2].imag = acc2i[0] + acc2i[1] + acc2i[2] + acc2i[3];
+			ocbuf->data[k+3].real = acc3r[0] + acc3r[1] + acc3r[2] + acc3r[3];
+			ocbuf->data[k+3].imag = acc3i[0] + acc3i[1] + acc3i[2] + acc3i[3];
+			start_index = (start_index + 4) & mask;
+			startsimd = start_index >> 2;
+			k += 4;
+		}
+		for (; k < ibuflen; k++) {
+			fir->stater[fir->index] = icbuf->data[k].real;
+			fir->statei[fir->index] = icbuf->data[k].imag;
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0r = vmovq_n_f32(0.0f);
+			acc0i = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0r = vmulq_f32(coefs0[i], stater[j]);
+				acc0r  = vaddq_f32(acc0r, prod0r);
+				prod0i = vmulq_f32(coefs0[i], statei[j]);
+				acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+				acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+				acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+			ocbuf->data[k].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+		}
+	}
+	return ocbuf;
+}
+pdlc_buffer_t* pdlc_fir_filter_interpolate_float_buffer(pdlc_fir_filter_t* fir, const pdlc_buffer_t *ifbuf, pdlc_buffer_t *ofbuf)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const size_t ibuflen = ifbuf->length;
+	const size_t obuflen = ibuflen*fir->max_counter;
+	const float ffactor = (float)(fir->max_counter);
+	const size_t mcounter = fir->max_counter;
+	unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int i, j;
+	size_t k = 0, l = 0;
+	register float32x4_t acc0, acc1, acc2, acc3;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0, prod1, prod2, prod3;
+#endif
+	register float32x4_t statereal;
+	const float32x4_t *coefs0, *coefs1, *coefs2, *coefs3;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	if (!ofbuf)
+		ofbuf = pdlc_buffer_new(obuflen);
+	else if (ofbuf->length != obuflen)
+		pdlc_buffer_resize(ofbuf, obuflen, 0);
+	while ((start_index & 3) && k < obuflen) {
+		if ((k % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+		acc0 = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+			prod0 = vmulq_f32(coefs0[i], stater[j]);
+			acc0  = vaddq_f32(acc0, prod0);
+#else
+			acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ofbuf->data[k] = (acc0[0] + acc0[1] + acc0[2] + acc0[3]) * ffactor;
+		start_index = (start_index + 1) & mask;
+		startsimd = start_index >> 2;
+		k++;
+	}
+	while (k + 4 <= obuflen) {
+		if (((k+0) % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		if (((k+1) % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		if (((k+2) % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		if (((k+3) % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+		coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+		coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+		coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+		acc0 = vmovq_n_f32(0.0f);
+		acc1 = vmovq_n_f32(0.0f);
+		acc2 = vmovq_n_f32(0.0f);
+		acc3 = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+			statereal = stater[j];
+#ifndef __FP_FAST_FMA
+			prod0 = vmulq_f32(coefs0[i], statereal);
+			acc0  = vaddq_f32(acc0, prod0);
+			prod1 = vmulq_f32(coefs1[i], statereal);
+			acc1  = vaddq_f32(acc1, prod1);
+			prod2 = vmulq_f32(coefs2[i], statereal);
+			acc2  = vaddq_f32(acc2, prod2);
+			prod3 = vmulq_f32(coefs3[i], statereal);
+			acc3  = vaddq_f32(acc3, prod3);
+#else
+			acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+			acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+			acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+			acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ofbuf->data[k+0] = (acc0[0] + acc0[1] + acc0[2] + acc0[3]) * ffactor;
+		ofbuf->data[k+1] = (acc1[0] + acc1[1] + acc1[2] + acc1[3]) * ffactor;
+		ofbuf->data[k+2] = (acc2[0] + acc2[1] + acc2[2] + acc2[3]) * ffactor;
+		ofbuf->data[k+3] = (acc3[0] + acc3[1] + acc3[2] + acc3[3]) * ffactor;
+		start_index = (start_index + 4) & mask;
+		startsimd = start_index >> 2;
+		k += 4;
+	}
+	for (; k < obuflen; k++) {
+		if ((k % mcounter) == 0)
+			fir->stater[fir->index] = ifbuf->data[l++];
+		else
+			fir->stater[fir->index] = 0.0f;
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+		acc0 = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+			prod0 = vmulq_f32(coefs0[i], stater[j]);
+			acc0  = vaddq_f32(acc0, prod0);
+#else
+			acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ofbuf->data[k] = (acc0[0] + acc0[1] + acc0[2] + acc0[3]) * ffactor;
+		start_index = (start_index + 1) & mask;
+		startsimd = start_index >> 2;
+	}
+	return ofbuf;
+}
+pdlc_complex_buffer_t* pdlc_fir_filter_interpolate_complex_buffer(pdlc_fir_filter_t* fir, const pdlc_complex_buffer_t *icbuf, pdlc_complex_buffer_t *ocbuf)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const size_t ibuflen = icbuf->length;
+	const size_t obuflen = ibuflen*fir->max_counter;
+	const float ffactor = (float)(fir->max_counter);
+	const size_t mcounter = fir->max_counter;
+	unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int i, j;
+	size_t k = 0, l = 0;
+	register float32x4_t acc0r, acc1r, acc2r, acc3r;
+	register float32x4_t acc0i, acc1i, acc2i, acc3i;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0r, prod1r, prod2r, prod3r;
+	register float32x4_t prod0i, prod1i, prod2i, prod3i;
+#endif
+	register float32x4_t statereal;
+	register float32x4_t stateimag;
+	const float32x4_t *coefs0, *coefs1, *coefs2, *coefs3;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	float32x4_t *statei = (float32x4_t*)fir->statei;
+	if (!ocbuf)
+		ocbuf = pdlc_complex_buffer_new(obuflen);
+	else if (ocbuf->length != obuflen)
+		pdlc_complex_buffer_resize(ocbuf, obuflen, 0);
+	while ((start_index & 3) && k < obuflen) {
+		if ((k % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+		acc0r = vmovq_n_f32(0.0f);
+		acc0i = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+			prod0r = vmulq_f32(coefs0[i], stater[j]);
+			acc0r  = vaddq_f32(acc0r, prod0r);
+			prod0i = vmulq_f32(coefs0[i], statei[j]);
+			acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+			acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+			acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ocbuf->data[k].real = (acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3]) * ffactor;
+		ocbuf->data[k].imag = (acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3]) * ffactor;
+		start_index = (start_index + 1) & mask;
+		startsimd = start_index >> 2;
+		k++;
+	}
+	while (k + 4 <= obuflen) {
+		if (((k+0) % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		if (((k+1) % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		if (((k+2) % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		if (((k+3) % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+		coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+		coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+		coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+		acc0r = vmovq_n_f32(0.0f);
+		acc0i = vmovq_n_f32(0.0f);
+		acc1r = vmovq_n_f32(0.0f);
+		acc1i = vmovq_n_f32(0.0f);
+		acc2r = vmovq_n_f32(0.0f);
+		acc2i = vmovq_n_f32(0.0f);
+		acc3r = vmovq_n_f32(0.0f);
+		acc3i = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+			statereal = stater[j];
+			stateimag = statei[j];
+#ifndef __FP_FAST_FMA
+			prod0r = vmulq_f32(coefs0[i], statereal);
+			acc0r  = vaddq_f32(acc0r, prod0r);
+			prod1r = vmulq_f32(coefs1[i], statereal);
+			acc1r  = vaddq_f32(acc1r, prod1r);
+			prod2r = vmulq_f32(coefs2[i], statereal);
+			acc2r  = vaddq_f32(acc2r, prod2r);
+			prod3r = vmulq_f32(coefs3[i], statereal);
+			acc3r  = vaddq_f32(acc3r, prod3r);
+			prod0i = vmulq_f32(coefs0[i], stateimag);
+			acc0i  = vaddq_f32(acc0i, prod0i);
+			prod1i = vmulq_f32(coefs1[i], stateimag);
+			acc1i  = vaddq_f32(acc1i, prod1i);
+			prod2i = vmulq_f32(coefs2[i], stateimag);
+			acc2i  = vaddq_f32(acc2i, prod2i);
+			prod3i = vmulq_f32(coefs3[i], stateimag);
+			acc3i  = vaddq_f32(acc3i, prod3i);
+#else
+			acc0r = vfmaq_f32(acc0r, coefs0[i], statereal);
+			acc0i = vfmaq_f32(acc0i, coefs0[i], stateimag);
+			acc1r = vfmaq_f32(acc1r, coefs1[i], statereal);
+			acc1i = vfmaq_f32(acc1i, coefs1[i], stateimag);
+			acc2r = vfmaq_f32(acc2r, coefs2[i], statereal);
+			acc2i = vfmaq_f32(acc2i, coefs2[i], stateimag);
+			acc3r = vfmaq_f32(acc3r, coefs3[i], statereal);
+			acc3i = vfmaq_f32(acc3i, coefs3[i], stateimag);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ocbuf->data[k+0].real = (acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3]) * ffactor;
+		ocbuf->data[k+0].imag = (acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3]) * ffactor;
+		ocbuf->data[k+1].real = (acc1r[0] + acc1r[1] + acc1r[2] + acc1r[3]) * ffactor;
+		ocbuf->data[k+1].imag = (acc1i[0] + acc1i[1] + acc1i[2] + acc1i[3]) * ffactor;
+		ocbuf->data[k+2].real = (acc2r[0] + acc2r[1] + acc2r[2] + acc2r[3]) * ffactor;
+		ocbuf->data[k+2].imag = (acc2i[0] + acc2i[1] + acc2i[2] + acc2i[3]) * ffactor;
+		ocbuf->data[k+3].real = (acc3r[0] + acc3r[1] + acc3r[2] + acc3r[3]) * ffactor;
+		ocbuf->data[k+3].imag = (acc3i[0] + acc3i[1] + acc3i[2] + acc3i[3]) * ffactor;
+		start_index = (start_index + 4) & mask;
+		startsimd = start_index >> 2;
+		k += 4;
+	}
+	for (; k < obuflen; k++) {
+		if ((k % mcounter) == 0) {
+			fir->stater[fir->index] = icbuf->data[l].real;
+			fir->statei[fir->index] = icbuf->data[l].imag;
+			l++;
+		}
+		else {
+			fir->stater[fir->index] = 0.0f;
+			fir->statei[fir->index] = 0.0f;
+		}
+		fir->index = (fir->index + 1) & mask;
+		coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+		acc0r = vmovq_n_f32(0.0f);
+		acc0i = vmovq_n_f32(0.0f);
+		j = startsimd;
+		for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+			prod0r = vmulq_f32(coefs0[i], stater[j]);
+			acc0r  = vaddq_f32(acc0r, prod0r);
+			prod0i = vmulq_f32(coefs0[i], statei[j]);
+			acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+			acc0r = vfmaq_f32(acc0r, coefs0[i], stater[j]);
+			acc0i = vfmaq_f32(acc0i, coefs0[i], statei[j]);
+#endif
+			j = (j+1) & masksimd;
+		}
+		ocbuf->data[k].real = (acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3]) * ffactor;
+		ocbuf->data[k].imag = (acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3]) * ffactor;
+		start_index = (start_index + 1) & mask;
+		startsimd = start_index >> 2;
+	}
+	return ocbuf;
+}
+pdlc_buffer_t* pdlc_fir_filter_decimate_float_buffer(pdlc_fir_filter_t* fir, const pdlc_buffer_t *ifbuf, pdlc_buffer_t *ofbuf)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const int mcounter = fir->max_counter;
+	const size_t ibuflen = ifbuf->length;
+	const size_t obuflen = (size_t)ceil(((double)ibuflen - (double)((mcounter - fir->counter) % mcounter)) / (double)mcounter);
+	unsigned int start_index = (flt_len + fir->index + fir->counter + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int i0, i1, j0, j1;
+	size_t k, l;
+	register float32x4_t acc0, acc1;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0, prod1;
+#endif
+	const float32x4_t *coefs;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	if (!ofbuf)
+		ofbuf = pdlc_buffer_new(obuflen);
+	else if (ofbuf->length != obuflen)
+		pdlc_buffer_resize(ofbuf, obuflen, 0);
+	for (k = 0, l = 0; k < ibuflen; k++) {
+		fir->stater[fir->index] = ifbuf->data[k];
+		fir->index = (fir->index + 1) & mask;
+		if (fir->counter == 0) {
+			coefs = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			acc1 = vmovq_n_f32(0.0f);
+			j0 = startsimd;
+			j1 = (startsimd+1) & masksimd;
+			i0 = 0;
+			i1 = 1;
+			while (i1 < lensimd) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs[i0], stater[j0]);
+				acc0  = vaddq_f32(acc0, prod0);
+				prod1 = vmulq_f32(coefs[i1], stater[j1]);
+				acc1  = vaddq_f32(acc1, prod1);
+#else
+				acc0 = vfmaq_f32(acc0, coefs[i0], stater[j0]);
+				acc1 = vfmaq_f32(acc1, coefs[i1], stater[j1]);
+#endif
+				i0 += 2;
+				i1 += 2;
+				j0 = (j0+2) & masksimd;
+				j1 = (j1+2) & masksimd;
+			}
+			while (i0 < lensimd) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs[i0], stater[j0]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs[i0], stater[j0]);
+#endif
+				i0 += 2;
+				j0 = (j0+2) & masksimd;
+			}
+			acc0 = vaddq_f32(acc0, acc1);
+			ofbuf->data[l++] = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + mcounter) & mask;
+			startsimd = start_index >> 2;
+		}
+		fir->counter = (fir->counter + 1) % mcounter;
+	}
+	return ofbuf;
+}
+pdlc_complex_buffer_t* pdlc_fir_filter_decimate_complex_buffer(pdlc_fir_filter_t* fir, const pdlc_complex_buffer_t *icbuf, pdlc_complex_buffer_t *ocbuf)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const int mcounter = fir->max_counter;
+	const size_t ibuflen = icbuf->length;
+	const size_t obuflen = (size_t)ceil(((double)ibuflen - (double)((mcounter - fir->counter) % mcounter)) / (double)mcounter);
+	unsigned int start_index = (flt_len + fir->index + fir->counter + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int i0, j0, i1, j1;
+	size_t k, l;
+	register float32x4_t acc0r, acc0i, acc1r, acc1i;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0r, prod0i, prod1r, prod1i;
+#endif
+	const float32x4_t *coefs;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	float32x4_t *statei = (float32x4_t*)fir->statei;
+	if (!ocbuf)
+		ocbuf = pdlc_complex_buffer_new(obuflen);
+	else if (ocbuf->length != obuflen)
+		pdlc_complex_buffer_resize(ocbuf, obuflen, 0);
+	for (k = 0, l = 0; k < ibuflen; k++) {
+		fir->stater[fir->index] = icbuf->data[k].real;
+		fir->statei[fir->index] = icbuf->data[k].imag;
+		fir->index = (fir->index + 1) & mask;
+		if (fir->counter == 0) {
+			coefs = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0r = vmovq_n_f32(0.0f);
+			acc0i = vmovq_n_f32(0.0f);
+			acc1r = vmovq_n_f32(0.0f);
+			acc1i = vmovq_n_f32(0.0f);
+			j0 = startsimd;
+			j1 = (startsimd+1) & masksimd;
+			i0 = 0;
+			i1 = 1;
+			while (i1 < lensimd) {
+#ifndef __FP_FAST_FMA
+				prod0r = vmulq_f32(coefs[i0], stater[j0]);
+				acc0r  = vaddq_f32(acc0r, prod0r);
+				prod0i = vmulq_f32(coefs[i0], statei[j0]);
+				acc0i  = vaddq_f32(acc0i, prod0i);
+				prod1r = vmulq_f32(coefs[i1], stater[j1]);
+				acc1r  = vaddq_f32(acc1r, prod1r);
+				prod1i = vmulq_f32(coefs[i1], statei[j1]);
+				acc1i  = vaddq_f32(acc1i, prod1i);
+#else
+				acc0r = vfmaq_f32(acc0r, coefs[i0], stater[j0]);
+				acc0i = vfmaq_f32(acc0i, coefs[i0], statei[j0]);
+				acc1r = vfmaq_f32(acc1r, coefs[i1], stater[j1]);
+				acc1i = vfmaq_f32(acc1i, coefs[i1], statei[j1]);
+#endif
+				i0 += 2;
+				i1 += 2;
+				j0 = (j0+2) & masksimd;
+				j1 = (j1+2) & masksimd;
+			}
+			while (i0 < lensimd) {
+#ifndef __FP_FAST_FMA
+				prod0r = vmulq_f32(coefs[i0], stater[j0]);
+				acc0r  = vaddq_f32(acc0r, prod0r);
+				prod0i = vmulq_f32(coefs[i0], statei[j0]);
+				acc0i  = vaddq_f32(acc0i, prod0i);
+#else
+				acc0r = vfmaq_f32(acc0r, coefs[i0], stater[j0]);
+				acc0i = vfmaq_f32(acc0i, coefs[i0], statei[j0]);
+#endif
+				i0 += 2;
+				j0 = (j0+2) & masksimd;
+			}
+			acc0r = vaddq_f32(acc0r, acc1r);
+			acc0i = vaddq_f32(acc0i, acc1i);
+			ocbuf->data[l].real = acc0r[0] + acc0r[1] + acc0r[2] + acc0r[3];
+			ocbuf->data[l].imag = acc0i[0] + acc0i[1] + acc0i[2] + acc0i[3];
+			l++;
+			start_index = (start_index + mcounter) & mask;
+			startsimd = start_index >> 2;
+		}
+		fir->counter = (fir->counter + 1) % mcounter;
+	}
+	return ocbuf;
+}
+pdlc_complex_buffer_t* pdlc_fir_filter_transform(pdlc_fir_filter_t* fir, const pdlc_buffer_t *ifbuf, pdlc_complex_buffer_t *ocbuf)
+{
+	const unsigned int nb_coefs = fir->nb_coefs;
+	const unsigned int flt_len  = fir->state_len;
+	const unsigned int mask = fir->index_mask;
+	const unsigned int lensimd  = fir->coef_len >> 2;
+	const unsigned int masksimd = mask >> 2;
+	const size_t ibuflen = ifbuf->length;
+	unsigned int start_index = (flt_len + fir->index + 1 - nb_coefs) & mask;
+	unsigned int startsimd = start_index >> 2;
+	unsigned int middle_index = (start_index + nb_coefs / 2) & mask;
+	unsigned int i, j;
+	size_t k = 0;
+	register float32x4_t acc0, acc1, acc2, acc3;
+#ifndef __FP_FAST_FMA
+	register float32x4_t prod0, prod1, prod2, prod3;
+#endif
+	register float32x4_t statereal;
+	const float32x4_t *coefs0, *coefs1, *coefs2, *coefs3;
+	float32x4_t *stater = (float32x4_t*)fir->stater;
+	if (!ocbuf)
+		ocbuf = pdlc_complex_buffer_new(ibuflen);
+	else if (ocbuf->length != ibuflen)
+		pdlc_complex_buffer_resize(ocbuf, ibuflen, 0);
+	if (nb_coefs & 1) {
+		while ((start_index & 3) && k < ibuflen) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+			k++;
+		}
+		while (k + 4 <= ibuflen) {
+			fir->stater[ fir->index            ] = ifbuf->data[k + 0];
+			fir->stater[(fir->index + 1) & mask] = ifbuf->data[k + 1];
+			fir->stater[(fir->index + 2) & mask] = ifbuf->data[k + 2];
+			fir->stater[(fir->index + 3) & mask] = ifbuf->data[k + 3];
+			fir->index = (fir->index + 4) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+			coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+			coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+			coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			acc1 = vmovq_n_f32(0.0f);
+			acc2 = vmovq_n_f32(0.0f);
+			acc3 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+				statereal = stater[j];
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], statereal);
+				acc0  = vaddq_f32(acc0, prod0);
+				prod1 = vmulq_f32(coefs1[i], statereal);
+				acc1  = vaddq_f32(acc1, prod1);
+				prod2 = vmulq_f32(coefs2[i], statereal);
+				acc2  = vaddq_f32(acc2, prod2);
+				prod3 = vmulq_f32(coefs3[i], statereal);
+				acc3  = vaddq_f32(acc3, prod3);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+				acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+				acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+				acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k+0].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			ocbuf->data[k+1].imag = acc1[0] + acc1[1] + acc1[2] + acc1[3];
+			ocbuf->data[k+2].imag = acc2[0] + acc2[1] + acc2[2] + acc2[3];
+			ocbuf->data[k+3].imag = acc3[0] + acc3[1] + acc3[2] + acc3[3];
+			start_index = (start_index + 4) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+			k++;
+		}
+		for (; k < ibuflen; k++) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = fir->stater[middle_index];
+			middle_index = (middle_index + 1) & mask;
+		}
+	}
+	else {
+		while ((start_index & 3) && k < ibuflen) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+			k++;
+		}
+		while (k + 4 <= ibuflen) {
+			fir->stater[ fir->index            ] = ifbuf->data[k + 0];
+			fir->stater[(fir->index + 1) & mask] = ifbuf->data[k + 1];
+			fir->stater[(fir->index + 2) & mask] = ifbuf->data[k + 2];
+			fir->stater[(fir->index + 3) & mask] = ifbuf->data[k + 3];
+			fir->index = (fir->index + 4) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[(start_index + 0) & 3];
+			coefs1 = (float32x4_t*)fir->coefs[(start_index + 1) & 3];
+			coefs2 = (float32x4_t*)fir->coefs[(start_index + 2) & 3];
+			coefs3 = (float32x4_t*)fir->coefs[(start_index + 3) & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			acc1 = vmovq_n_f32(0.0f);
+			acc2 = vmovq_n_f32(0.0f);
+			acc3 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+				statereal = stater[j];
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], statereal);
+				acc0  = vaddq_f32(acc0, prod0);
+				prod1 = vmulq_f32(coefs1[i], statereal);
+				acc1  = vaddq_f32(acc1, prod1);
+				prod2 = vmulq_f32(coefs2[i], statereal);
+				acc2  = vaddq_f32(acc2, prod2);
+				prod3 = vmulq_f32(coefs3[i], statereal);
+				acc3  = vaddq_f32(acc3, prod3);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], statereal);
+				acc1 = vfmaq_f32(acc1, coefs1[i], statereal);
+				acc2 = vfmaq_f32(acc2, coefs2[i], statereal);
+				acc3 = vfmaq_f32(acc3, coefs3[i], statereal);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k+0].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			ocbuf->data[k+1].imag = acc1[0] + acc1[1] + acc1[2] + acc1[3];
+			ocbuf->data[k+2].imag = acc2[0] + acc2[1] + acc2[2] + acc2[3];
+			ocbuf->data[k+3].imag = acc3[0] + acc3[1] + acc3[2] + acc3[3];
+			start_index = (start_index + 4) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+			k++;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+			k++;
+		}
+		for (; k < ibuflen; k++) {
+			fir->stater[fir->index] = ifbuf->data[k];
+			fir->index = (fir->index + 1) & mask;
+			coefs0 = (float32x4_t*)fir->coefs[start_index & 3];
+			acc0 = vmovq_n_f32(0.0f);
+			j = startsimd;
+			for (i = 0; i < lensimd; i++) {
+#ifndef __FP_FAST_FMA
+				prod0 = vmulq_f32(coefs0[i], stater[j]);
+				acc0  = vaddq_f32(acc0, prod0);
+#else
+				acc0 = vfmaq_f32(acc0, coefs0[i], stater[j]);
+#endif
+				j = (j+1) & masksimd;
+			}
+			ocbuf->data[k].imag = acc0[0] + acc0[1] + acc0[2] + acc0[3];
+			start_index = (start_index + 1) & mask;
+			startsimd = start_index >> 2;
+			ocbuf->data[k].real = (fir->stater[middle_index] + fir->stater[(middle_index - 1) & mask]) / 2.0f;
+			middle_index = (middle_index + 1) & mask;
+		}
+	}
+	return ocbuf;
+}