Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
https://er.nau.edu.ua/handle/NAU/52212
Назва: | Методи підвищення ефективності семантичного кодування мовних сигналів |
Інші назви: | Methods of increasing the efficiency of semantic coding of speech signals Методы повышения эффективности семантического кодирования речевых сигналов |
Автори: | Лавриненко, Олександр Юрійович Лавриненко, Александр Юрьевич Lavrynenko, Oleksandr |
Ключові слова: | мовні сигнали семантичне кодування мовних сигналів семантичні ознаки мовних сигналів мел-частотні кепстральні коефіцієнти адаптивний спектральний аналіз кратномасштабний аналіз емпіричне вейвлет-перетворення адаптивні вейвлетфільтри Мейера функції внутрішніх емпіричних мод спектральний аналіз Гільберта розпізнавання і синтез мови голосове управління низькошвидкісне кодування мови голосовий переклад з іноземних мов speech signals semantic coding of speech signals semantic features of speech signals mel-frequency cepstral coefficients adaptive spectral analysis multiscale analysis empirical wavelet transform adaptive wavelet-filters Meyer functions of internal empirical modes Hilbert spectral analysis speech recognition and synthesi voice control low-speed speech encoding voice translation from foreign languages |
Дата публікації: | 26-лип-2021 |
Видавництво: | Національний авіаційний університет |
Бібліографічний опис: | Лавриненко О.Ю. Методи підвищення ефективності семантичного кодування мовних сигналів: дис. на здобуття наукового ступеня кандидата техн. наук : 05.12.02. - Київ, 2020. - 139 с. |
Короткий огляд (реферат): | Дисертаційна робота присвячена вирішенню актуальної науково-практичної
проблеми в телекомунікаційних системах, а саме підвищення пропускної здатності каналу
передачі семантичних мовних даних за рахунок ефективного їх кодування, тобто
формулюється питання підвищення ефективності семантичного кодування, а саме – з
якою мінімальною швидкістю можливо кодувати семантичні ознаки мовних сигналів із
заданою ймовірністю безпомилкового їх розпізнавання? Саме на це питання буде дана
відповідь у даному науковому дослідженні, що є актуальною науково-технічною задачею
враховуючи зростаючу тенденцію дистанційної взаємодії людей і роботизованої техніки
за допомогою мови, де безпомилковість функціонування даного типу систем
безпосередньо залежить від ефективності семантичного кодування мовних сигналів. У
роботі досліджено відомий метод підвищення ефективності семантичного кодування
мовних сигналів на основі мел-частотних кепстральних коефіцієнтів, який полягає в
знаходженні середніх значень коефіцієнтів дискретного косинусного перетворення
прологарифмованої енергії спектра дискретного перетворення Фур'є обробленого трикутним фільтром в мел-шкалі. Проблема полягає в тому, що представлений метод
семантичного кодування мовних сигналів на основі мел-частотних кепстральних
коефіцієнтів не дотримується умови адаптивності, тому було сформульовано основну
наукову гіпотезу дослідження, яка полягає в тому що підвищити ефективність
семантичного кодування мовних сигналів можливо за рахунок використання адаптивного
емпіричного вейвлет-перетворення з подальшим застосуванням спектрального аналізу
Гільберта. Під ефективністю кодування розуміється зниження швидкості передачі
інформації із заданою ймовірністю безпомилкового розпізнавання семантичних ознак
мовних сигналів, що дозволить значно знизити необхідну смугу пропускання, тим самим
підвищуючи пропускну здатність каналу зв'язку. У процесі доведення сформульованої
наукової гіпотези дослідження були отримані наступні результати: 1) вперше розроблено
метод семантичного кодування мовних сигналів на основі емпіричного вейвлетперетворення, який відрізняється від існуючих методів побудовою множини адаптивних
смугових вейвлет-фільтрів Мейера з подальшим застосуванням спектрального аналізу
Гільберта для знаходження миттєвих амплітуд і частот функцій внутрішніх емпіричних
мод, що дозволить визначити семантичні ознаки мовних сигналів та підвищити
ефективність їх кодування; 2) вперше запропоновано використовувати метод адаптивного
емпіричного вейвлет-перетворення в задачах кратномасштабного аналізу та семантичного
кодування мовних сигналів, що дозволить підвищити ефективність спектрального аналізу
за рахунок розкладання високочастотного мовного коливання на його низькочастотні
складові, а саме внутрішні емпіричні моди; 3) отримав подальший розвиток метод
семантичного кодування мовних сигналів на основі мел-частотних кепстральних
коефіцієнтів, але з використанням базових принципів адаптивного спектрального аналізу
за допомогою емпіричного вейвлет-перетворення, що підвищує ефективність даного
методу. The thesis is devoted to the solution of the actual scientific and practical problem in telecommunication systems, namely increasing the bandwidth of the semantic speech data transmission channel due to their efficient coding, that is the question of increasing the efficiency of semantic coding is formulated, namely – at what minimum speed it is possible to encode semantic features of speech signals with the set probability of their error-free recognition? It is on this question will be answered in this research, which is an urgent scientific and technical task given the growing trend of remote human interaction and robotic technology through speech, where the accurateness of this type of system directly depends on the effectiveness of semantic coding of speech signals. In the thesis the well-known method of increasing the efficiency of semantic coding of speech signals based on mel-frequency cepstral coefficients is investigated, which consists in finding the average values of the coefficients of the discrete cosine transformation of the prologarithmic energy of the spectrum of the discrete Fourier transform treated by a triangular filter in the mel-scale. The problem is that the presented method of semantic coding of speech signals based on mel-frequency cepstral coefficients does not meet the condition of adaptability, therefore the main scientific hypothesis of the study was formulated, which is that to increase the efficiency of semantic coding of speech signals is possible through the use of adaptive empirical wavelet transform followed by the use of Hilbert spectral analysis. Coding efficiency means a decrease in the rate of information transmission with a given probability of error-free recognition of semantic features of speech signals, which will significantly reduce the required passband, thereby increasing the bandwidth of the communication channel. In the process of proving the formulated scientific hypothesis of the study, the following results were obtained: 1) the first time the method of semantic coding of speech signals based on empirical wavelet transform is developed, which differs from existing methods by constructing a sets of adaptive bandpass wavelet-filters Meyer followed by the use of Hilbert spectral analysis for finding instantaneous amplitudes and frequencies of the functions of internal empirical modes, which will determine the semantic features of speech signals and increase the efficiency of their coding; 2) the first time it is proposed to use the method of adaptive empirical wavelet transform in problems of multiscale analysis and semantic coding of speech signals, which will increase the efficiency of spectral analysis due to the decomposition of high-frequency speech oscillations into its low-frequency components, namely internal empirical modes; 3) received further development the method of semantic coding of speech signals based on mel-frequency cepstral coefficients, but using the basic principles of adaptive spectral analysis with the application empirical wavelet transform, which increases the efficiency of this method. Conducted experimental research in the software environment MATLAB R2020b showed, that the developed method of semantic coding of speech signals based on empirical wavelet transform allows you to reduce the encoding speed from 320 to 192 bit/s and the required passband from 40 to 24 Hz with a probability of error-free recognition of about 0.96 (96%) and a signal-to-noise ratio of 48 dB, according to which its efficiency increases 1.6 times in contrast to the existing method. The results obtained in the thesis can be used to build systems for remote interaction of people and robotic equipment using speech technologies, such as speech recognition and synthesis, voice control of technical objects, low-speed encoding of speech information, voice translation from foreign languages, etc. |
URI (Уніфікований ідентифікатор ресурсу): | https://er.nau.edu.ua/handle/NAU/52212 |
Розташовується у зібраннях: | Дисертації та автореферати спеціалізованої вченої ради Д 26.062.19 |
Файли цього матеріалу:
Файл | Опис | Розмір | Формат | |
---|---|---|---|---|
Автореферат_Лавриненко.pdf | Автореферат | 1.21 MB | Adobe PDF | Переглянути/Відкрити |
Дисертація_Лавриненко.pdf | Дисертація | 7.17 MB | Adobe PDF | Переглянути/Відкрити |
Відгук Сайко.pdf | Відгук опонента | 6.4 MB | Adobe PDF | Переглянути/Відкрити |
Відгук Климаш.pdf | Відгук опонента | 6.51 MB | Adobe PDF | Переглянути/Відкрити |
Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.