Подключаем датчик звука к Arduino

Физическое окружение человека все время «умнеет», подстраиваясь под запросы и требования хозяина. Речь, конечно же идет об автоматизированных и роботизированных вещах, облегчающих труд и выполняющих все те функции, которые существу разумному делать слишком долго, тяжело или нудно. Большая часть техники такого рода работает с управлением на основе микроконтроллеров, которые в свою очередь, можно назвать миниатюрными компьютерами, ориентированными на контроль другого, более простого оборудования.

Одним из наиболее распространенных на текущий момент, за счет удобства применения и ширины возможностей, можно назвать Arduino, недостатков у которого попросту не существует в качестве системы управления и DIY-проектов, и профессиональной техникой, используемой на крупных и серьезных производствах.

Единственный вопрос становящийся перед проектировщиками «умных» устройств, использующих микроконтроллеры – легкое ими управление человеком, то есть обеспечение простого интерфейса контроля. Одно из наиболее логичных из приходящих на ум решений – человеческий голос, отдавая команды, которыми пользователь абсолютно вербальным образом сможет управлять работой логического выключателя, конечно в рамках заложенной в того программы. Только сразу встает проблема получения голосовых последовательностей устройством. Что ж, есть и решение – платы захвата звука, среди которых в разрезе технологии Arduino сразу вспоминаются KY-037 и KY-038, унифицированные и отличающиеся только размером микрофона.

Конечно, не стоит ждать от них записи MP3 или его полнофункциональной обработки. Но в нише восприятия голосовых команд названые платы-дополнения имеют полное право на существование.

Характеристики

Характеристики у обоих устройств KY-037 и KY-038 достаточно скромные, и отличающихся, как было сказано ранее, между собой только размером микрофона.

питание — 3,5–5В;
цифровой выход — есть, однобитный, работающий в режиме индикации наличия звука или тишины;
аналоговый — присутствует, с градацией получаемого сигнала в 1024 уровня;
вес — в среднем 12..13 грамм;
предел чувствительности — до 5 метров;

Принципиальная схема и выводы устройства:

Сразу хочется заметить, что названые детекторы, регистрируют только достаточно громкие звуки и не очень чувствительны к их переходным состояниям, к примеру, используемым в словах или фразах. То есть, сделать выключатель или активатор реагирующий на хлопок и свист гораздо проще, чем запрограммировать систему распознавания голосовых команд с применением KY-037 или KY-038. Некоторые идеи по осуществлению требуемой функциональности будут представлены далее.

Обратите внимание на «регулятор чувствительности» отмеченный на фото платы. С его помощью можно варьировать значение характеристики, улучшая «слух» детектора, в установленных пределах.

Простые схемы использования

Чтобы продемонстрировать работу датчиков звука с Arduino можно собрать простую схему:

Резистор используемый в ней, берется номиналом в 220 Ом. Основная функциональность выражается в зажигании светодиода при обнаружении громких звуков и гашения его в случае тишины. Скетч:
// Диапазон минимальных и максимальных показателей, устанавливается // для определения значения аналогового сигнала в тишине у платы // захвата звука, все что будет отличаться служит указателем // наличия изменений звукового фона. Определяется опытным путем. const int SilenceMin = 625; const int SilenceMax = 637; // Задание портов IN_DIG цифровой вход с KY-037/038, // IN_ANALOG аналоговый с нее же и OUT_LED пин управляющий светодиодом const int OUT_LED = 9; const int IN_ANALOG = A3; const int IN_DIG = 1; void setup() { pinMode(OUT_LED, OUTPUT); pinMode(IN_ANALOG, INPUT); pinMode(IN_DIG, INPUT); } void loop() { // Примечание от составителя: если использовать нижеприведенную // конструкцию, светодиод будет включаться при любом изменении // звукового фона. Для определения наличия именно команды // стоит изменить строку на if (AnalogRead(IN_ANALOG) > SilenceMax) { if (AnalogRead(IN_ANALOG) > SilenceMax || AnalogRead(IN_ANALOG) < SilenceMin) { DigitalWrite(OUT_LED, HIGH); Delay(250); DigitalWrite(OUT_LED, LOW); } // Или проще, используя логические значения цифрового входа (вставляется вместо конструкции // if {} // //if ( DigitalRead(IN_DIG) == HIGH ) { //DigitalWrite(OUT_LED, HIGH); //Delay(250); //DigitalWrite(OUT_LED, LOW); } }
Изменяя время задержки, между включением и гашением светодиода, а также пробным путем выведя значения «тишины» SilenceMax и SilenceMin, можно добиться работы приведенной схемы в роли детектора движения по звуку. Конечно, качество определения у него будет низкое, но вполне позволяющее применять конструкцию в цепях управления освещением темных мест. Достаточно добавить фоторезистор для определения текущего уровня видимости, в роли которого можно использовать специальную плату Arduino или обычный радиоэлектронный компонент, подключаемый через делитель.

Как видно по схеме, в ней используются два резистора – R1 на 10 кОм и R2 220 Ом. Светодиод LED в финальном варианте можно заменить на релейную группу, для подачи питания на «взрослые» лампы 220В. Скетч, управляющий всем перечисленным хозяйством:

#DEFINE D1 1 #DEFINE D3 3 #DEFINE A2 2 #DEFINE A4 4 // Характеристики "тишины" const int SilenceMin = 625; const int SilenceMax = 637; // Задание портов: IN_DIG цифровой вход с KY-037/038, IN_ANALOG аналоговый с нее же // OUT_LED пин управляющий светодиодом, IN_FLASH сигнал от фоторезистора. const int IN_DIG = D1; const int OUT_LED = D3; const int IN_LIGHT = A2; const int IN_ANALOG = A4; void setup(){ pinMode(OUT_LED, OUTPUT); pinMode(IN_ANALOG, INPUT); pinMode(IN_DIG, INPUT); pinMode(IN_LIGHT, INPUT); } void loop(){ if ( DigitalRead(IN_DIG) == HIGH && DigitalRead(IN_LIGHT) == LOW ) { // При подключении фоторезистора, как на схеме в темноте он будет давать // минимальный сигнал, так-как его сопротивление во мраке максимально. // На свету будет поступать высокий уровень на вход Ардуино и этот // блок кода не сработает DigitalWrite(OUT_LED, HIGH); delay(10000); // долгая задержка DigitalWrite(OUT_LED, LOW); }

Задержка подбирается экспериментально, в зависимости от конкретной чувствительности KY-037 или KY-038, а также их настроек, производимых регулятором на плате устройства.

Некоторая информация о голосовом распознавании

Здесь будут представлены общие идеи, позволяющие впоследствии создать систему голосового командного управления, естественно с ограничениями, накладываемыми мощностью Arduino.

Первое, что нужно учесть при проектировании – обращение к самому конкретному устройству, чтобы его функционирование не начиналось или прерывалось от случайно сказанного слова. То есть, перед отдачей команды нужно будет произносить не похожий на нее идентификатор конкретного контролера. К примеру: «К7 Включение». Описанное, кстати хорошо тем, что нет похожести согласно произносимых звуков.

Структура слова

Основное, на что нужно обратить внимание при проектировании систем распознавания звука – сама фонетика языка. В русском, есть гласные и согласные буквы. Последние еще и бывают шипящего, звонкого и глухого произношения. Устройства улавливающие звуковые волны, наиболее слышат, как раз, первые, вторые и третьи, а вот к последним «глуховаты». Поэтому, собственно и программировать конечный аппарат требуется именно на их определение, а не слова в целом. Опять же. Каждый человек обладает определенной дикцией и высотой тона голоса. Посудите сами, послушав, как одно и то же слово произносится мужчиной или женщиной. К тому же некоторые люди быстро проговаривают текст, другие медленнее. Все названые факторы требуется учесть при написании скетча обработки.

Еще одно ограничение, накладываемое платам KY-037 и KY-038 – падение уровня улавливаемого сигнала в зависимости от расстояния до его источника. То есть, нужно предусмотреть сравнение именно разниц поступающих пиков, а не конкретных значений.

Некоторые рекомендации

Определение лучше производить, выявив высоту тонов и длительность произношения в каждом конкретном случае, под индивидуальные характеристики голоса человека. Впоследствии, ввести в скетч усреднение полученных данных на аналоговом входе, алгоритмы которых легко можно найти через поисковые системы. Последнее действие нужно для случаев, когда оператор охрип, осип, устал или находится под действием еще каких-либо факторов, изменяющих вокальные характеристики.

Разбор последовательности звуков проводится не точным соответствием, а логическими условиями, по причине пропуска некоторых в разговорной речи. То есть, предположим, существует массив, содержащий последовательность значений гласных и шипящих, аналогичных используемым в самой команде. Тогда разбор голоса будет выглядеть следующим образом:

Просьба обратить внимание, что приведенный кусок кода служит только целям ознакомления и понимания принципов разбора. Разницу пиков, о которых говорилось ранее, алгоритм не проверяет, сравнивая только конкретные значения.

#DEFINE D1 1 #DEFINE D3 3 #DEFINE A2 2 #DEFINE A4 4 // Характеристики "тишины" const int SilenceMin = 625; const int SilenceMax = 637; const int IN_DIG = D1; const int IN_ANALOG = A4; // команда "включение" последний байт для блокирования ошибки const int command_on[]={857, 704, 740, 720, 740, 0}; int tPOS=0; // текущее положение в разбираемом слове void loop() { int flag=0, GFONEM=ReadAnalog(IN_ANALOG), FOUND_COMMAND_ON = 0; if (GFONEM==command_on[0]) { // совпадение первого звука последовательности, разбираем flag=1; while (flag>0){ Delay(50); // пауза между произносимыми звуками, подбирается экспериментально GFONEM=ReadAnalog(IN_ANALOG); if (GFONEM>MinFONEM) { // ограничитель уровня именно гласных и шипящих, // они будут выше, чем согласные if (GFONEM==command_on[tPOS] || GFONEM==command_on[tPOS+1]) { // все ок, идем по команде "включение", проверяя // текущий звук или возможно следующий FOUND_COMMAND_ON = 1; } else { FOUND_COMMAND_ON = 0; flag = 1; } if ( tPOS == 5 ) { flag = 1 ); // найден последний звук, можно выходить tPOS++; } } } if (FOUND_COMMAND_ON == 1) { // выполнение действий при команде "включение" // ... } }
Для качественного распознавания речи используют различные более сложные алгоритмы. Например нейросетевой с предварительным разложением в ряд Фурье:

Разделить фразу на отдельные слова, отслеживая промежутки тишины;
Разложить запись каждого отдельного слово в ряд Фурье — таким образом определятся коэффициенты, соответствующие отдельным частотным составляющим;
Пропустить вычисленные в п.2 коэффициенты через нейросеть, которая на выходе даст значение слов.

Чтобы такая нейросеть могла «распознавать» слова, подаваемые на её вход, предварительно она должна быть обучена!

Для выполнения такого обучения на вход сети подают эталонное слово, а затем с помощью специальных алгоритмов (например, обратного распространения ошибки) подбирают значения структурных коэффициентов нейронной сети, при которых нейросеть выдаёт правильное значение на выход.