Gevallen

Neem Contact Met Ons Op

lilinchun@sztungwing.com

86-0755-28791270

Contact opnemen

Toepassing van deep learning modellen in geluidsherkenning

2022-09-10

De toepassing van deep learning-modellen in geluidsherkenning heeft een uitgebreid technisch kader gevormd.multi-scenario geluidskenmerken extractie en semantisch begrip door middel van end-to-end lerenDe volgende zijn de belangrijkste technische toepassingsrichtingen en typische modelarchitecturen:

1. Akoestische extractie

Optimalisatie van tijdfrequentieanalyse

Het gebruik van CNN's om automatisch lokale kenmerken (zoals harmonische structuur en formanten) te leren van mel-spectrogrammen, ter vervanging van traditionele handmatige kenmerkenengineering met behulp van MFCC's,Deze aanpak verbetert de classificatie nauwkeurigheid met 27% in lawaaierige omgevingen op de UrbanSound8K dataset.
Lichte modellen zoals MobileNetV3, met behulp van diepgaand te scheiden omwentelingen en PSA-aandachtsmodules, bereiken 100% top-5 vogelgeluidsherkenningsnauwkeurigheid met slechts 2,6M-parameters.

Verbeterde tijdreeksmodellering

De CRNN-hybride architectuur (CNN + BiLSTM) vangt tegelijkertijd de spectrale kenmerken en tijdsgebonden afhankelijkheden van geluidsgebeurtenissen vast, waardoor een F1-score van 92 wordt bereikt.3% voor het detecteren van plotselinge gebeurtenissen zoals het breken van glas.
Transformer gebruikt een zelf-aandachtsmechanisme om lange audio-sequenties te verwerken, met een nauwkeurigheid van meer dan 99% bij het classificeren van baby-schreeuwen voor honger en pijn.

II. Specifieke toepassingsscenarios

Toepassingsgebieden	Technische oplossingen	Prestatiemeters
Bewaking van de gezondheid van huisdieren	RNN-gebaseerd stememotie-analyse systeem, ondersteunt classificatie van meer dan 10 stemtypen
Slimme beveiliging van het huis	End-to-end abnormale geluidsdetectie met behulp van CNN+CTC	Responslatentie < 200 ms
Medische hulp en diagnose	Transfer Learning Voiceprint Model (bijv. Urbansound Architecture) voor pathologische hoestherkenning	AUC 0.98

III. Toonaangevende technologische doorbraken

Multimodal Fusion: gezamenlijke training van het YOLOv8-visueel model en het LSTM-audionetwerk analyseert tegelijkertijd de bewegingen van het kind en de huilfrequentie, waardoor vals positieve resultaten met 38% worden verminderd.
Lichtgewicht: chips zoals de WT2605A integreren DNN-afleidingsmotoren, waardoor het stroomverbruik van de spraakprintherkenningsmodule tot 15 mW wordt verlaagd.

(Opmerking: de referentienummers in de tabel zijn buiten de tabel aangegeven.)

NIEUWSGEGEVENS

Over Ons

Profiel van het bedrijf

Certificeringen

Nieuws

Neem contact met ons op