Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.83 Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας 3.1 Eισαγωγή Τα στάδια που προηγούνται της βασικής διαδικασίας αναγνώρισης, αναφέρονται σαν στάδια προεπεξεργασίας του σήµατος οµιλίας. Παραστατικά φαίνονται στην εικόνα 3.1 και περιλαµβάνουν τα εξής: µετατροπή του ακουστικού σήµατος σε ηλεκτρικό µε την χρήση κατάλληλου µικρόφωνου, ενίσχυση της στάθµης του ηλεκτρικού σήµατος που προέρχεται από το µικρόφωνο (προενισχυτής µικροφώνου), διέλευση του ακουστικού σήµατος από βαθυπερατό φίλτρο για αποκοπή των υψηλών συχνοτήτων του σήµατος και αποφυγή προβληµάτων φασµατικής αναδίπλωσης, µετατροπή του αναλογικού σήµατος σε ψηφιακό (A/D), χωρισµός του ψηφιακού σήµατος οµιλίας σε χρονικά πλαίσια µικρής χρονικής διάρκειας (πλαισιοποίηση) για να είναι δυνατή η χρήση µεθόδων ανάλυσης του σήµατος, επιδράσεων του ορθογωνίου παραθύρου που εφαρµόζεται κατά την πλαισιοποίηση, και τέλος, προέµφαση του ακουστικού σήµατος.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.84 Εικόνα 3.1: ιαδικασία προεπεξεργασίας του σήµατος οµιλίας. 3.2 Αναλογική Επεξεργασία Σκοπός του αναλογικού τµήµατος της βαθµίδας εξαγωγής παραµέτρων είναι η µετατροπή των ηχητικών κυµάτων σε ψηφιακό σήµα, ώστε να παρουσιάζει τη µικρότερη δυνατή παραµόρφωση στο εύρος ζώνης συχνοτήτων στο οποίο να γίνεται δειγµατοληψία. Οι συσκευές και οι βαβµίδες που πραγµατοποιούν αυτή την µετατροπή, περιγράφονται µε την σειρά που εµφανίζονται στην διαδικασία ψηφιοποίηση του σήµατος οµιλίας. 3.2.1 Μικρόφωνο Το µικρόφωνο αποτελεί την συσκευή που συνήθως παρεµβάλλει την µεγαλύτερη στάθµη παραµορφώσεων από όλες τις αναλογικές βαθµίδες επεξεργασίας. Η επιλογή του µικροφώνου θα πρέπει να γίνει µε τέτοιο τρόπο, ώστε να ελαχιστοποιηθούν αστάθµητοι παράγοντες που προκαλούν αλλοιώσεις στην ποιότητα του σήµατος οµιλίας. Οι πιο σηµαντικοί από τους παραπάνω παράγοντες είναι η µεταβαλλόµενη συµπεριφορά των οµιλητών η οποία είναι συνάρτηση της εξοικείωσης των οµιλητών µε το σύστηµα, και το περιβάλλον λειτουργίας. Αν τώρα θεωρήσουµε µικρή την εξοικείωση του χρήστη µε το σύστηµα και το περιβάλλον ηχογραφήσεων χαµηλής στάθµης θορύβου, τότε επιλέγεται ως κατάλληλο ένα µικρόφωνο χαµηλής ευαισθησίας (close talking) και µέσης κατευθυντικότητας. Τα πλεονεκτήµατα αυτών των µικροφώνων είναι η µεγάλη απόσβεση των αντηχήσεων και των θορύβων από µέση και µεγάλη απόσταση, η τοποθέτηση τους σε µια σταθερή απόσταση από το στόµα του οµιλητή και η ικανοποιητική απόσβεση του θορύβου της εκπνοής στα όρια απόστασης που έχει θέσει ο κατασκευαστής. Τέλος, σαν µειονέκτηµα µπορεί να αναφερθεί το γεγονός, ότι µε την µη καλή τοποθέτηση του µικροφώνου µπορεί να αυξηθεί η ισχύς της εκπνοής και των ήχων της κίνησης των χειλιών, θόρυβοι οι οποίοι λαµβάνουν χώρα κατά την προφορά των λέξεων.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.85 3.2.2 Ενισχυτής Χρησιµοποιείται για να ενισχύει το χαµηλής ισχύος µικροφωνικό ρεύµα σε µια στάθµη στην οποία ελαχιστοποιείται η παραµόρφωση που προσθέτει ο ηλεκτρονικός θόρυβος των κυκλωµάτων στις βαθµίδες αναλογικής επεξεργασίας που ακολουθούν. Οι περισσότεροι καλής ποιότητας γραµµικοί προενισχυτές του εµπορίου µπορούν να χρησιµοποιηθούν για την ενίσχυση του µικροφωνικού ρεύµατος, επειδή παρουσιάζουν συνήθως πολύ µικρή παραµόρφωση στις ακουστικές συχνότητες. 3.2.3 Κατωδιαβατό Φίλτρο Το φάσµα οµιλίας ενός µέσου άρρενα οµιλητή µε µήκος φωνητικού καναλιού περίπου 17 cm, περιέχει 3 4 συντονισµούς στην περιοχή των 200 3,200 Hz και 4-5 συντονισµούς στη περιοχή των 200-5,000 Hz. Σε µικρότερα φωνητικά κανάλια (παιδιά, γυναίκες) οι τρεις πρώτοι συντονισµοί εµφανίζονται στην περιοχή των 300-3,600 Hz. Έχει αποδειχτεί ότι το µεγαλύτερο ποσοστό ακουστικής πληροφορίας συγκεντρώνεται στην περιοχή των τριών πρώτων συντονισµών. Κατ αυτόν τον τρόπο περιορίζοντας το φάσµα του σήµατος οµιλίας στα 200-3600 Hz, οι σηµαντικότερες ακουστικές πληροφορίες µένουν σχεδόν ακέραιες, µε µόνο κόστος τη µείωση της ακουστικής ποιότητας (πιστότητας) του σήµατος. Με βάση το θεώρηµα δειγµατοληψίας Nyquist, η συχνότητα δειγµατοληψίας F s 8kHz µπορεί να εξασφαλίσει ικανοποιητική ψηφιοποίηση για το τµήµα αυτό του σήµατος οµιλίας. Πριν τη δειγµατοληψία θα πρέπει να γίνει περιορισµός του φάσµατος του αναλογικού σήµατος στην περιοχή 0-F s /2 Hz, για την αποφυγή της παραµόρφωσης φασµατικής αναδίπλωσης (aliasing). Αυτό εξασφαλίζεται µε την διέλευση του σήµατος οµιλίας από χαµηλοπερατό φίλτρο συχνότητας αποκοπής F s /2 Hz. Στην εικόνα 3.2 (α) βλέπουµε ότι το κατωδιαβατό φίλτρο περνάει συχνότητες µέχρι ενός ορίου ω 0 και στο (β) κυκλωµατικό διάγραµµα ενός στοιχειώδους Low Pass φίλτρου.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.86 Εικόνα 3.2: (α) Γραφική παράσταση µέτρου ενός ιδανικού κατωδιαβατού φίλτρου και (β) κυκλωµατικό διάγραµµα ενός στοιχειώδους Low Pass φίλτρου. Το φίλτρο θα πρέπει να επιλεγεί έτσι ώστε να παρουσιάζει στην ζώνη συχνοτήτων διέλευσης επίπεδο φάσµα, ενώ κοντά στην συχνότητα αποκοπής του θα πρέπει να έχει υψηλή απόσβεση, ώστε η συχνότητα δειγµατοληψίας να επιλεγεί όσο το δυνατόν πλησιέστερα στην συχνότητα αποκοπής. Με αυτό τον τρόπο µπορεί να ελαττωθεί σηµαντικά η συχνότητα δειγµατοληψίας µε άµεση συνέπεια την ελάττωση και του χρόνου απόκρισης των βαθµίδων ψηφιακής επεξεργασίας µιας και παρουσιάζεται χαµηλότερη πληροφοριακή ροή στην βαθµίδα ψηφιοποίησης. 3.2.4 Αναλογική Ψηφιακή Μετατροπή Όλα τα σήµατα που δηµιουργούνται από φυσικά αίτια είναι αναλογικά. Η ψηφιακή επεξεργασία αυτών των σηµάτων απαιτεί την προηγούµενη µετατροπή τους σε ακολουθίες αριθµών µιας συγκεκριµένης ακρίβειας µέσω µιας διαδικασίας µετατροπής αναλογικών σηµάτων σε ψηφιακά (analog to digital conversion) και η οποία µπορεί να θεωρηθεί σαν µια σειρά από δύο βήµατα: ειγµατοληψία (Sampling): Περιοδικά λαµβάνονται δείγµατα του αναλογικού σήµατος για να σχηµατισθεί µία ακολουθία αριθµών. Κβαντοποίηση (Quantization): Οι τιµές των δειγµάτων της ακολουθίας αντιστοιχούνται σε διακριτές τιµές ώστε να γίνει δυνατή η χρήση τους από το ψηφιακό σύστηµα, το οποίο έχει πεπερασµένο µήκος.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.87 Με τη δειγµατοληψία του αναλογικού σήµατος x(t) στα χρονικά διαστήµατα Τ(=1/Fs), δηµιουργείται το διακριτό σήµα s(nt). Συνήθως χρησιµοποιούνται κανονικοποιηµένα διαστήµατα (Τ=1), ώστε: sn ( ) = snt ( ) = xt ( ) t= nt (3.1) Για την παρουσίαση και επεξεργασία του διακριτού σήµατος χρησιµοποιείται ο µετασχηµατισµός z. Έτσι το διακριτό σήµα οµιλίας µετασχηµατισµένο κατά z, δίνεται από τη σχέση. n Sz ( ) = snz ( ) (3.2) n= όπου z (=exp(jθ)) µιγαδική µεταβλητή. Είναι γενικώς παραδεκτό ότι οι µετατροπείς αναλογικού σήµατος σε ψηφιακό µε 12 bits ακρίβεια ψηφιοποίησης είναι οι πλέον κατάλληλοι στην επεξεργασία οµιλίας, διότι συνδυάζει καλή διακριτότητα ψηφιοποίησης (χαµηλό σφάλµα κβαντισµού) και συνάµα χαµηλό κόστος. 3.3 Ψηφιακή Προεπεξεργασία Σήµατος Οµιλίας Σκοπός του ψηφιακού τµήµατος της βαθµίδας εξαγωγής παραµέτρων εíναι να προσδιορίσει το παραµετρικό διάνυσµα του πρότυπου του φωνήµατος που αναγνωρίζεται, απορρίπτοντας ταυτόχρονα τα σήµατα οµιλίας που προέρχονται από διάφορες διαταραχές του αναλογικού τµήµατος, από έλλειψη οµιλίας, από την παρουσία υψηλής στάθµης θορύβου, από τον κορεσµό του ψηφιοποιητή ή την χαµηλή στάθµη έντασης οµιλίας. Το τµήµα αυτό αποτελείται από τον προεπεξεργαστή, τον αλγόριθµο εντοπισµού των άκρων της οµιλίας και τον αναλυτή του σήµατος, ο οποίος προσδιορίζει τις παραµέτρους του µοντέλου παραγωγής οµιλίας. 3.3.1 Βραχύχρονη Ανάλυση Σήµατος Οµιλίας Ο ρυθµός µεταβολής της κυµατοµορφής του σήµατος οµιλίας είναι κατά πολύ µεγαλύτερος του ρυθµού άρθρωσης ενός οµιλητή. Για παράδειγµα, χρειάζονται περί τα 10,000 δείγµατα για να παραστήσουν µε ικανοποιητική πιστότητα ψηφιοποιηµένο τµήµα οµιλίας διάρκειας ενός δευτερολέπτου, που δεν περιέχει περισσότερους από δέκα φθόγγους. Σ' αυτή τη θεµελιώδη διαπίστωση, ότι δηλαδή τα χαρακτηριστικά της ανθρώπινης οµιλίας µεταβάλλονται σχετικά αργά στον χρόνο, στηρίζεται η αρχή της βραχύχρονης ανάλυσης. Στη βραχύχρονη ανάλυση, µικρά τµήµατα οµιλίας αποµονώνονται και υφίστανται επεξεργασία σαν να περιέχουν ήχο µε σταθερές ιδιότητες. Αυτά τα τµήµατα οµιλίας των Ν δειγµάτων θα αναφέρονται στη συνέχεια σαν πλαίσια οµιλίας. Η διαδικασία ανάλυσης πλαισίων

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.88 επαναλαµβάνεται περιοδικά και δίνει σαν αποτέλεσµα µια νέα χρονικά εξαρτηµένη ακολουθία παραµέτρων, ισοδύναµη της αρχικής παράστασης του εξεταζόµενου σήµατος. Το µήκος των πλαισίων που επιλέγεται πρέπει να είναι τέτοιο ώστε να περιέχει φωνητικά συµβάντα µε σχετικά σταθερές ιδιότητες. Η ανάδειξη µήκους πλαισίων καθορισµένης τιµής που να ανταποκρίνεται σε όλες τις περιπτώσεις φθόγγων θεωρείται µάλλον αδύνατη. Στον κανονικό λόγο, οι άηχοι ήχοι είναι πολύ µικρότερης χρονικής διάρκειας των ηχηρών ήχων, που η διάρκειά τους ξεπερνά τα 80msec. Αντίθετα οι στιγµιαίοι ήχοι δεν ξεπερνούν σε διάρκεια τα 10msec. Θεωρείται ικανοποιητικό το µήκος πλαισίου των 10 ως 30msec, που αποτελεί συµβιβασµό µεταξύ της επιθυµίας να υπάρχει σταθερή φασµατική εκτίµηση και του περιορισµού ανάδειξης των χρονικών µεταβολών του σήµατος (κατάλληλο µήκος πλαισίου µπορεί να θεωρηθούν τα 25.6 msec, δηλαδή τα Ν=256 διακριτά δείγµατα για τη συχνότητα δειγµατοληψίας των 10kHz). Οσον αφορά την τοποθέτηση των πλαισίων σε σχέση µε την περίοδο του ύψους φωνής (pitch), αυτό εξαρτάται από το είδος της ανάλυσης που ακολουθεί την προεπεξεργασία. Για ύψους σύγχρονη ανάλυση (Pitch synchronous analysis) [46], η τοποθέτηση των πλαισίων πρέπει να είναι µέσα στην θεµελιώδη περίοδο. Για ύψους ασύγχρονη ανάλυση (Pitch asynchronous analysis) η τοποθέτηση των πλαισίων µπορεί να είναι τυχαία. 3.3.2 Προέµφαση Για την εκτίµηση της συνάρτησης µεταφοράς του φωνητικού καναλιού, θα πρέπει, εκτός της εξοµάλυνσης του φάσµατος από τη διέγερση του υπογλωττικού συστήµατος, να εξουδετερωθεί και η επίδραση των πόλων της γλωττίδας και της χαρακτηριστικής ακτινοβολίας των χειλιών. Η εξοµοίωση της επίδρασης της χαρακτηριστικής ακτινοβολίας των χειλιών µε ένα µηδενικό (2.6), µπορεί να θεωρηθεί ότι απλοποιείται (σαν µια καλή προσέγγιση) µε έναν από τους δύο πόλους της συνάρτησης µεταφοράς της γλωττίδας (2.3), δεδοµένου ότι ο εκθέτης ct είναι γενικά πολύ µικρότερος της µονάδας. Όµως µένει η επίδραση του δεύτερου πόλου της συνάρτησης της γλωττίδας, που έχει σαν αποτέλεσµα την εξασθένηση της συνάρτησης µεταφοράς του φωνητικού καναλιού µε κλίση 6dB/οκτάβα. Σκοπός της προέµφασης των πλαισίων είναι η εξουδετέρωση της επίδρασης του ανεπιθύµητου πόλου. Αυτό επιτυγχάνεται µε τη διέλευση του σήµατος από ένα φίλτρο ενός µηδενικού, της µορφής [112], Pz ( ) 1 1 = µ z (3.3) Στο χρόνο, η προέµφαση πραγµατοποιείται από τη σχέση s'( n) = sn ( ) µ sn ( 1) (3.4)

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.89 Ο συντελεστής µo αναφέρεται στην κλίση της ενίσχυσης του φάσµατος. Η τιµή του κυµαίνεται µεταξύ 0<µ o <1 και εξαρτάται από το περιεχόµενο του πλαισίου οµιλίας. Για άηχους ήχους το µ o είναι αρκετά µικρότερο της µονάδας, ενώ για ηχηρούς ήχους, πολύ κοντά στη µονάδα. Πειραµατικά ο συντελεστής µo µπορεί να εκτιµηθεί γιά κάθε πλαίσιο φωνής από το λόγο των δύο πρώτων συντελεστών αυτοσυσχέτισης του σήµατος οµιλίας [41]. R(1) µ = (2.5) R(0) όπου R(0) ο µηδενικός συντελεστής αυτοσυσχέτισης που εκφράζει την ενέργεια του πλαισίου, R(1) ο πρώτος συντελεστής αυτοσυσχέτισης. Όπως δείχνεται στο Σχήµα 2.3, η επίδραση της προέµφασης στις συχνότητες των συντονισµών (συµπαγής γραµµή), βρέθηκε πειραµατικά να δηµιουργεί σ' αυτές µικρή µετατόπιση σε σχέση µε µηδενική προέµφαση (διακοπτόµενη γραµµή). Εικόνα 3.3: Εξοµαλυµένο ηχηρό πλαίσιο φωνής (/u/), (α) µε προέµφαση (µ o =0.93), (β) χωρίς προέµφαση (µ o =0). 3.3.3 Φίλτρο Παραθύρου Τα πλαίσια οµιλίας της βραχύχρονης ανάλυσης, δηλαδή τα, s'( n), n [0, N 1] s''( n) = 0, n [0, N 1] (3.6)

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.90 µπορούν να παρασταθούν σαν το γινόµενο µεταξύ ενός πεπερασµένης διάρκειας ορθογώνιου "παραθύρου" 1, n [0, N 1] wn ( ) = 0, n [0, N 1] (3.7) και της ακολουθίας των δειγµάτων του διακριτού σήµατος οµιλίας. ηλαδή, s''( n) = s'( n) w( n) (3.8) Η παρουσία του ορθογωνίου "παραθύρου" προκαλεί παραµόρφωση στο φάσµα του σήµατος, γνωστή από την κλασική θεωρία [43], [88], δεδοµένου ότι αυτό αποτελεί συνέλιξη µεταξύ των µετασχηµατισµών Fourier του τετραγωνικού παλµού και του σήµατος της πληροφορίας. Η παραµόρφωση εµφανίζεται µε µηδενικά στον διακριτό µετασχηµατισµό Fourier του σήµατος εξόδου. Η επίδραση αυτών των µηδενικών είναι τόσο ισχυρή που συχνά ο δεύτερος και τρίτος συντονισµός εξαφανίζονται εντελώς. Για τον περιορισµό της παραµόρφωσης αυτής, µελετήθηκαν διάφορα είδη φίλτρων "παραθύρου" [43]. Το ορθογώνιο φίλτρο αντικαταστάθηκε µε µια σειρά φίλτρων, σύµφωνα µε τις απαιτήσεις της εκάστοτε εφαρµογής. Στην ανάλυση του σήµατος οµιλίας για την εξαγωγή των συχνοτήτων συντονισµού, τα φίλτρα "παραθύρου" που επικράτησαν λόγω της απλότητάς τους, της ευκρινούς παρουσίασης των συντονισµών και γενικά της αποτελεσµατικότητάς τους, είναι τα "παράθυρα" Hamming και Hanning. Αυτά ορίζονται από τη σχέση: a+ (1 a) cos(2 π n N), n [0, N 1] wn ( ) = 0, n [0, N 1] (3.9) όπου, n είναι ο αριθµός του διακεκριµένου δείγµατος του τµήµατος του σήµατος οµιλίας που αναλύεται, Ν ο συνολικός αριθµός των δειγµάτων που περιλαµβάνει το τµήµα αυτό, w(n) η συνάρτηση "παραθύρου", και α η σταθερά που καθορίζει το είδος του "παραθύρου", η οποία για τα δύο παραπάνω "παράθυρα" είναι: α = 1.00, ορθογώνιο "παράθυρο", α = 0.54 για "παράθυρο" Hamming και α = 0.50 για "παράθυρο" Hanning. Στην εικόνα 3.4 εικονίζονται τα πειραµατικά αποτελέσµατα της επίδρασης των ορθογώνιου και Hamming παραθύρων για το ίδιο ηχηρό πλαίσιο οµιλίας, µε µήκος παραθύρου Ν=16.

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.91 Εικόνα 3.4. Ηχηρό πλαίσιο οµιλίας µέσω: α) ορθογωνίου (rectangular) παραθύρου, β) παραθύρου Hamming. 3.3.4 Ρυθµός Μετακίνησης Πλαισίων Ο ρυθµός µετακίνησης των πλαισίων καθορίζεται από το είδος της ανάλυσης που ακολουθεί την προεπεξεργασία. Για ανάλυση συνεχείας, όπου οµοιόµορφα αναλύεται ολόκληρο το σήµα οµιλίας, τα πλαίσια µετακινούνται µε ρυθµό σταθερού βήµατος. Για ανάλυση σηµείων, όπου αναλύονται µεµονωµένα χαρακτηριστικά σηµεία του σήµατος οµιλίας, η µετακίνηση των πλαισίων γίνεται µε ρυθµό µεταβλητού βήµατος. Στο ρυθµό σταθερού βήµατος η µετακίνηση των πλαισίων είναι προκαθορισµένη, σταθερή και παρακολουθεί τη χρονική ροή των µεταβολών του σήµατος οµιλίας. Η απόσταση µεταξύ των διαδοχικών πλαισίων πρέπει να είναι αρκετά µικρή για να µη χάνονται φωνητικά συµβάντα, όπως π.χ. οι στιγµιαίοι ήχοι, των οποίων η διάρκεια είναι µικρή, αλλά και αρκετά µεγάλη για να αποφεύγεται η ανίχνευση περιττών λεπτοµερειών που στη συνέχεια θα χρειάζεται πρόσθετη διαδικασία (εξοµάλυνση) για την αποµάκρυνσή τους. Πειραµατικά έχει εκτιµηθεί [67] σαν κατάλληλο το µήκος του σταθερού βήµατος να είναι µεταξύ 5 και 12 msec (κατάλληλο το βήµα µετακίνησης των πλαισίων εκτιµήθηκε πειραµατικά στα 6.4 msec, δηλαδή B=64 δείγµατα). Η µετακίνηση των πλαισίων σκόπιµο είναι να γίνεται µε τη διαδικασία της επικάλυψης. 3.4 Αλγόριθµος Ανίχνευσης των Άκρων Οµιλίας Ένα από τα πλέον δυσεπίλυτα προβλήµατα που παρουσιάζονται κατά την σχεδίαση συστηµάτων αναγνώρισης οµιλίας είναι ο εντοπισµός των άκρων της οµιλίας στο ψηφιοποιηµένο σήµα. Ένα µεγάλο πλήθος αστάθµητων παραγόντων όπως, η µικρή έντασης της οµιλίας, η υψηλή στάθµη θορύβου, η λειτουργία του συστήµατος αναγνώρισης οµιλίας σε περιβάλλον µε µεταβαλλόµενα

Κεφάλαιο 3 Προεπεξεργασία Σήµατος Οµιλίας σελ.92 χαρακτηριστικά θορύβου (δωµάτιο γραφείου, χώρος εργοστασίου κ.ο.κ.), η ύπαρξη του θορύβου της εισπνοής και κυρίως της εκπνοής στο τέλος της προφερόµενης λέξης, είναι οι βασικότερες αιτίες που προκαλούν λανθασµένο εντοπισµό των άκρων της οµιλίας. Οι συνήθεις χρησιµοποιούµενοι αλγόριθµοι χωρίζονται σε δυο κατηγορίες [1]: o o Στους αλγόριθµους που προσδιορίζουν από το σήµα οµιλίας ένα πλήθος παραµέτρων ικανών να αναγνωρίσουν την ύπαρξη οµιλίας ή σιγής (speech/silence detection). Αυτοί παρουσιάζουν ικανοποιητική αξιοπιστία χρησιµοποιώντας δοµικά ή πιθανότητα µοντέλα αναγνώρισης αλλά είναι υπολογιστικά χρονοβόροι. Στους αλγόριθµους που χρησιµοποιούν ένα πολύ περιορισµένο αριθµό παραµέτρων (συνήθως ενέργεια ή και τις µηδενικές διελεύσεις του σήµατος) παρουσιάζοντας ταχύτερη απόκριση αλλά και µικρότερη αξιοπιστία. Μειονέκτηµα αυτών των αλγορίθµων είναι ένα µεγάλο πλήθος κατωφλίων που ορίζονται πειραµατικά και δυσχεραίνουν την χρήση του συστήµατος αναγνώρισης σε διαφορετικά περιβάλλοντα και στάθµες θορύβου.