آموزش رزبری پایآموزش رزبری پای پیکو Pico

پروژه متن به صوت TTS با برد رزبری پای پیکو

تبدیل متن به گفتار یا TTS، فناوری‌ای است که متن نوشته شده را به صدای گفتاری تبدیل می‌کند. این فناوری در دستیارهای صوتی، ابزارهای دسترسی، سیستم‌های هشدار، کیوسک‌ها و دستگاه‌های هوشمند به‌طور گسترده استفاده می‌شود. روی کامپیوترها و گوشی‌های هوشمند، TTS به‌خوبی کار می‌کند زیرا این سیستم‌ها قدرت پردازش و حافظه کافی برای تولید گفتار به‌صورت محلی دارند. میکروکنترلرها متفاوت هستند. آن‌ها سرعت محدود، حافظه محدود و پشتیبانی داخلی از پردازش پیشرفته صدا ندارند، که تولید مستقیم گفتار را دشوار می‌کند. رزبری پای پیکو، که انتخاب محبوبی برای پروژه‌های جاسازی شده است، با همین محدودیت‌ها مواجه است و استفاده از راهکارهای TTS مبتنی بر ابر را برای پیاده‌سازی عملی ضروری می‌سازد. برای کاربردهای نوآورانه‌تر با این میکروکنترلر، مجموعه پروژه‌های رزبری پای پیکو ما را بررسی کنید.

رزبری پای پیکو میکروکنترلری توانمند است، اما تولید گفتار طبیعی به‌طور مستقیم روی دستگاه در کاربرد واقعی عملی نیست. به همین دلیل، روش‌های آنلاین تبدیل متن به گفتار برای رزبری پای پیکو معمولاً استفاده می‌شوند. در تنظیمات TTS پیکو، متن توسط دستگاه به یک سرویس آنلاین ارسال می‌شود، جایی که گفتار تولید شده و به‌صورت فایل صوتی بازگردانده می‌شود. سپس دستگاه صدا را از طریق اسپیکر پخش می‌کند و امکان تولید گفتار واضح بدون افزایش بار روی سخت‌افزار یا پیچیدگی سیستم فراهم می‌شود. برای پیاده‌سازی مشابه روی سایر میکروکنترلرها، پروژه‌های تبدیل متن به گفتار آنلاین و آفلاین مبتنی بر ESP32 ما را بررسی کنید.

مروری بر تبدیل متن به گفتار (TTS)

تبدیل متن به گفتار ممکن است ساده به نظر برسد، اما شامل چندین مرحله مهم است. ابتدا متن آماده می‌شود؛ اعداد به کلمات تبدیل می‌شوند، اختصارات گسترش می‌یابند و نمادها به کاراکترهای قابل خواندن تبدیل می‌شوند. سپس سیستم متن را تحلیل کرده و آن را به صداهای گفتاری تقسیم می‌کند. همچنین تصمیم می‌گیرد که صدا چگونه باید شنیده شود با تنظیم مکث‌ها، تأکید و لحن تا گفتار طبیعی به نظر برسد. در نهایت، گفتار پردازش شده به صوت دیجیتال تبدیل شده و از طریق اسپیکر پخش می‌شود.

روی کامپیوترها، این مراحل به سرعت و کارآمدی انجام می‌شوند. میکروکنترلرهایی مانند رزبری پای پیکو محدودیت‌های بیشتری دارند. آن‌ها حافظه کافی برای ذخیره مدل‌های بزرگ گفتار ندارند و پردازنده‌هایشان برای تولید گفتار با کیفیت بالا در زمان واقعی طراحی نشده‌اند. فضای ذخیره‌سازی نیز محدود است. به همین دلیل، راهکارهای آنلاین تبدیل متن به گفتار رزبری پای پیکو معمولاً به پردازش مبتنی بر ابر متکی هستند، جایی که تولید اصلی گفتار به‌صورت دور از دستگاه انجام می‌شود و پیکو تنها به ارسال متن و پخش صوت دریافتی می‌پردازد. پروژه‌های پیشرفته یادگیری ماشین و هوش مصنوعی جاسازی شده ما را با آموزش گام‌به‌گام بررسی کنید، شامل شناسایی صدا، بینایی ماشین و سیستم‌های هوشمند مبتنی بر ESP32.

رویکرد مبتنی بر ابر برای TTS رزبری پای پیکو

فرآیند کامل هنگام استفاده از سیستم تبدیل متن به گفتار مبتنی بر ابر ساده و سریع است. دستگاه سخت‌افزاری متن را به یک سرور از راه دور ارسال می‌کند، جایی که تمام کارهای پیچیده تولید گفتار انجام می‌شود. پس از ایجاد فایل صوتی گفتار، آن به‌صورت زمان واقعی به دستگاه بازگردانده می‌شود و دستگاه تنها باید صدا را از طریق اسپیکر پخش کند. حتی دستگاه‌های کوچک نیز می‌توانند گفتار واضح و طبیعی تولید کنند بدون اینکه پردازش سنگینی روی خود انجام دهند.

این رویکرد چندین مزیت مهم دارد. خروجی صدای با کیفیت بالا بدون افزایش نیازهای سخت‌افزاری امکان‌پذیر است. افزودن پشتیبانی از زبان‌ها و صداهای مختلف بدون تغییر فریمور دستگاه ممکن است. از آنجا که مدل‌های گفتار روی سرور ذخیره می‌شوند، سیستم سبک و مدیریت آن آسان‌تر باقی می‌ماند. کتابخانه WitAITTS به این شکل ساخته شده است، که افزودن ویژگی‌های مطمئن و مقیاس‌پذیر TTS به پروژه‌های برنامه‌نویسی رزبری پای پیکو را آسان می‌کند.

Wit.ai چیست؟ (موتور هوش مصنوعی پشت Pico TTS)

Wit.ai یک پلتفرم هوش مصنوعی مبتنی بر ابر است که توسط Meta Platforms, Inc ایجاد شده است. این پلتفرم پردازش گفتار و زبان را با ارائه APIهای مبتنی بر HTTP ساده می‌کند. این پلتفرم ویژگی‌هایی مانند تبدیل متن به گفتار، گفتار به متن و درک پایه زبان طبیعی را پشتیبانی می‌کند. برای تبدیل متن به گفتار، فرآیند ساده است. متن از طریق درخواست HTTPS امن با احراز هویت به سرویس ارسال می‌شود و پلتفرم گفتار تولید شده را در قالب صوتی WAV یا MPEG بازمی‌گرداند. فایل صوتی می‌تواند به‌صورت جریان داده پخش شود، که امکان پخش قبل از دانلود کامل فایل را فراهم می‌کند.

Wit.ai همچنین یک سطح استفاده رایگان ارائه می‌دهد که مناسب یادگیری، تست و توسعه در مراحل اولیه است. محدودیت‌های درخواست اعمال می‌شود، بنابراین برنامه‌هایی که درخواست‌های مکرر ارسال می‌کنند باید طراحی مناسبی داشته باشند. تمام پردازش‌های پیچیده، از جمله تحلیل زبان و تولید گفتار، روی سرورهای Wit.ai انجام می‌شود. میکروکنترلر تنها متن را ارسال کرده و صوت دریافتی را پخش می‌کند. این طراحی، استفاده از AI برای TTS رزبری پای پیکو را عملی می‌سازد و امکان ویژگی‌های پیشرفته گفتار روی سخت‌افزار با حافظه و پردازش محدود را بدون افزایش پیچیدگی سیستم فراهم می‌کند.

قطعات مورد نیاز TTS رزبری پای پیکو

تصویر فهرست قطعات مورد نیاز برای مبدل TTS روی رزبری پای پیکو را نشان می‌دهد. قطعات زیر برای ساخت سیستم تبدیل متن به گفتار رزبری پای پیکو لازم هستند:

قطعات مورد نیاز TTS رزبری پای پیکو

قطعات مورد نیاز برای پروژه تبدیل متن به گفتار رزبری پای پیکو — Pico W، آمپلی‌فایر MAX98357A، اسپیکر و بردبرد
جدول زیر قطعات مورد نیاز برای فعال کردن خروجی صوتی در سیستم مبتنی بر رزبری پای پیکو را نشان می‌دهد:

قطعه تعداد توضیح
Raspberry Pi Pico W 1 میکروکنترلر با پشتیبانی Wi-Fi
MAX98357A Amplifier 1 ماژول تقویت‌کننده صوتی دیجیتال
Speaker 1 اسپیکر با امپدانس 4Ω یا 8Ω برای پخش صدا
Breadboard 1 برای پروتوتایپ اتصالات
Jumper Wires چند عدد مرد به زن یا مرد به مرد بسته به نیاز
USB Cable 1 برای تأمین برق و برنامه‌نویسی

مدار اتصال Pico W به MAX98357A

برای اتصال رزبری پای پیکو خود به آمپلی‌فایر و اسپیکر I2S، از نمودار سیم‌کشی پیروی کنید. قبل از روشن کردن دستگاه، اتصالات خود را بررسی کنید تا از ایجاد اتصال کوتاه جلوگیری شود. ما همچنین پروژه‌هایی با ارتباط صوتی I2S همراه با دستورالعمل‌های کامل انجام داده‌ایم.

نمودار مدار TTS رزبری پای پیکو که اتصالات I2S از GP18/GP19/GP20 پیکو W به آمپلی‌فایر MAX98357A و اسپیکر را نشان می‌دهد

مدار اتصال Pico W به MAX98357A

جدول اتصالات Pico W به MAX98357A

رزبری پای پیکو ماژول MAX98357A نوع اتصال
GP18 BCLK Bit Clock
GP19 LRC Left/Right Clock
GP20 DIN Data Input
5V VIN تأمین برق
GND GND زمین

ایجاد و پیکربندی حساب کاربری Wit.ai

مرحله 1 ⇒ ایجاد حساب کاربری

اگر در مورد این مطلب سوالی دارید در قسمت نظرات بپرسید

به وب‌سایت Wit.ai بروید و برای ورود، از طریق Meta اقدام کنید. گزینه‌های مختلفی برای احراز هویت وجود دارد، اما استفاده از ایمیل ساده‌ترین راه است و حساب شما را از دیگر حساب‌ها جدا نگه می‌دارد. تاریخ تولد خود را وارد کنید، رمز عبور بسازید و ایمیل خود را با کد شش رقمی که برایتان ارسال می‌شود، تأیید کنید. پس از این مراحل، حساب شما فعال می‌شود.

مرحله 2 ⇒ ایجاد یک برنامه جدید

از داشبورد، قبل از انجام هر کار مفید، باید یک برنامه جدید ایجاد کنید. نامگذاری مهم است؛ نامی معنادار انتخاب کنید زیرا این نام در لاگ‌ها، داده‌های آموزشی و ادغام‌ها دنبال شما خواهد بود. همچنین زبان برنامه را با دقت انتخاب کنید، زیرا بر درک سیستم از نیت‌ها و استخراج اطلاعات تأثیر می‌گذارد.

مرحله 3 ⇒ دریافت توکن دسترسی سرور

به بخش مدیریت بروید و روی Settings کلیک کنید. در قسمت HTTP API، توکن دسترسی سرور خود را خواهید دید (به‌صورت Bearer token). این توکن حیاتی است؛ این همان راه ارتباط برنامه شما با Wit.ai است.

ایجاد و پیکربندی حساب کاربری Wit.ai

مرحله 4 ⇒ ایمن‌سازی توکن

توکن دسترسی سرور را کپی کرده و در مکانی امن ذخیره کنید. از نوشتن مستقیم آن در کد یا قرار دادن در کنترل نسخه خودداری کنید. به جای آن، از متغیرهای محیطی یا سیستم پیکربندی امن استفاده کنید. پس از راه‌اندازی در محیط تولید، مگر در صورت لزوم، از تولید مجدد توکن خودداری کنید.

مرحله 5 ⇒ آماده هستید

همه چیز آماده است. حساب Wit.ai شما برای ادغام با دستگاه‌های جاسازی شده، سرویس‌های بک‌اند یا هر سیستم دیگری که می‌سازید، تنظیم شده است. نیازی نیست دوباره این تنظیمات را تغییر دهید مگر اینکه پروژه شما تغییر کند.

نصب کتابخانه WitAITTS در Arduino IDE

کتابخانه WitAITTS از طریق Arduino Library Manager در دسترس است.

Arduino IDE را باز کنید، به آیکون Library Manager در نوار کناری سمت چپ بروید، “WitAITTS” را در نوار جستجو تایپ کنید و زمانی که نمایش داده شد، روی Install کلیک کنید.

پنجره Output نشان می‌دهد که کتابخانه با موفقیت نصب شده است یا خیر.

به جای نوشتن همه چیز از ابتدا، از اسکچ نمونه استفاده کنید. به File > Examples > WitAITTS بروید و PicoW_Basic را

انتخاب کنید. این اسکچ نمونه مبتنی بر ESP32 را باز می‌کند.

نام شبکه WiFi خود را در YourWiFiSSID و رمز عبور را در YourWiFiPassword وارد کنید. سپس توکن دسترسی سروری که قبلاً کپی کرده‌اید را در بخش YOUR_WIT_AI_TOKEN_HERE جای‌گذاری کنید.

توضیح کد TTS رزبری پای پیکو

این برنامه متن تایپ شده را به صدای گفتاری تبدیل می‌کند و با استفاده از یک سرویس آنلاین تبدیل متن به گفتار، صدا را از طریق خروجی صوتی برد پخش می‌کند. سیستم به WiFi و توکن معتبر ابری وابسته است. وقتی متن ارسال می‌شود، برد درخواست گفتار از سرور می‌کند، صوت دیجیتال دریافت می‌کند و از طریق رابط I2S پخش می‌کند. طراحی ساده و مسدودکننده باقی می‌ماند که برای دموها و پروژه‌های سازندگان مناسب است. اسکچ PicoW_Basic جریان کامل برنامه‌نویسی TTS رزبری پای پیکو را نشان می‌دهد. در ادامه هر دستور کلیدی و هدف آن توضیح داده شده است.

WitAITTS tts;

این خط موتور اصلی تبدیل متن به گفتار را ایجاد می‌کند. این شیء کل جریان کار را مدیریت می‌کند، شامل مدیریت WiFi، ارتباط امن با سرور Wit.ai، رمزگشایی صوت و خروجی صدا به اسپیکر. تمام ویژگی‌های مرتبط با گفتار به این شیء وابسته‌اند.

tts.begin(WIFI_SSID, WIFI_PASSWORD, WIT_TOKEN);

این خط برد را به شبکه WiFi متصل کرده و با استفاده از توکن دسترسی، با سرویس Wit.ai احراز هویت می‌کند. در این مرحله، برنامه دسترسی به شبکه و در دسترس بودن سرویس را بررسی می‌کند. اگر این مرحله شکست بخورد، سیستم نمی‌تواند گفتار درخواست کرده یا پخش کند.

tts.setVoice("wit$Remi");

این خط صدای مورد استفاده برای خروجی گفتار را انتخاب می‌کند. صدای انتخاب شده لحن، جنسیت و شخصیت صدا را تعیین می‌کند. تغییر این مقدار به‌طور مستقیم نحوه شنیده شدن دستگاه توسط کاربر را تغییر می‌دهد.

tts.setSpeed(100);
tts.setPitch(100);

این خطوط سرعت و بلندی صدای گفتار را کنترل می‌کنند. مقادیر نرمال گفتار را واضح و طبیعی نگه می‌دارند. تنظیم این مقادیر به بهبود وضوح، راحتی و تجربه شنیداری کمک می‌کند.

tts.speak(text);

این خط متن را برای تبدیل به صوت به سرویس ابری ارسال می‌کند. برد تا زمانی که سرور گفتار تولید کرده و صوت را استریم می‌کند، منتظر می‌ماند. سیستم بلافاصله صوت را پخش کرده و تمام کارهای دیگر را تا پایان پخش متوقف می‌کند.

آپلود اسکچ روی رزبری پای پیکو

قبل از آپلود، روی آیکون Verify در بالای سمت چپ کلیک کنید تا اطمینان حاصل شود که کد و اطلاعات ورود صحیح وارد شده‌اند.

به تب Notifications در پایین سمت راست توجه کنید؛ وقتی عبارت “Done compiling” ظاهر شد، می‌دانید که کتابخانه و کد آماده سخت‌افزار هستند.

برد خود را به کامپیوتر متصل کرده و روی آیکون Upload کلیک کنید تا اسکچ به ESP32 شما ارسال شود.

پنجره Output در پایین صفحه، پیشرفت نوشتن را تا 100٪ همراه با پیام “Hard resetting via RTS pin…” نمایش می‌دهد.
برای باز کردن Serial Monitor روی آیکون ذره‌بین در بالا سمت راست کلیک کنید.

Serial Monitor لاگ پیکربندی WitAITTS را نشان می‌دهد، شامل وضعیت WiFi و IP شما.

یک جمله در نوار ورودی بالای Serial Monitor تایپ کرده و Enter را بزنید تا به API Wit.ai ارسال شود.

کنسول عبارت “Requesting TTS” و سپس “Buffer ready, starting playback” را لاگ می‌کند، که تأیید می‌کند ESP32 شما با موفقیت داده صوتی را دریافت می‌کند.

استریم و پخش صوت

صوت به‌صورت جریان MP3 دریافت شده و به تدریج پردازش می‌شود. این روش سه مزیت عملی برای TTS رزبری پای پیکو با AI دارد:

مزایا:

  • کاهش مصرف حافظه
  • پاسخ سریع‌تر به کاربر
  • عدم نیاز به بافر کامل فایل

کیفیت پخش به شدت به موارد زیر بستگی دارد:

  • تاخیر شبکه
  • پایداری منبع تغذیه
  • کیفیت اسپیکر

خطاهای رایج و رفع مشکل

تعیین شد که سلامت سخت‌افزار باید قبل از شروع رفع اشکال نرم‌افزاری بررسی شود. اکثر مشکلات پروژه‌های Pico TTS به سیم‌کشی، برق یا خطاهای احراز هویت برمی‌گردند.

دسته‌بندی مشکل مشاهده شده علت احتمالی
خروجی صوتی صدایی پخش نمی‌شود • پیکربندی اشتباه سیم‌کشی
• عدم تأمین برق آمپلی‌فایر
• تخصیص اشتباه پین‌های I2S
ارتباط خطاهای HTTP • 400: ارسال متن خالی یا نامعتبر
• 401: استفاده از توکن نامعتبر
• تایم‌اوت شبکه: ناپایداری Wi-Fi
کیفیت سیگنال صدای نامفهوم • ولتاژ ناکافی منبع تغذیه
• عدم تطابق امپدانس اسپیکر
• تنظیمات نادرست کلاک

کتابخانه WitAITTS ویژگی‌های قابل اعتماد تبدیل متن به گفتار را با استفاده از سرویس آنلاین Wit.ai به رزبری پای پیکو اضافه می‌کند، که یک رویکرد عملی و مقیاس‌پذیر برای TTS رزبری پای پیکو است. این رویکرد مطابق با استانداردهای سیستم‌های جاسازی شده است، جایی که اجرای مدل‌های AI به‌صورت محلی معمولاً غیرعملی است. پس از پیکربندی صحیح، این سیستم خروجی صوتی پایدار، طراحی ساده‌تر فریمور و عملکرد گفتار قابل مقیاس را ارائه می‌دهد. چه در حال ساخت سیستم اعلان هوشمند خانگی، کیوسک دسترس‌پذیر یا پروژه آموزشی باشید، این آموزش TTS پیکو پایه محکمی فراهم می‌کند. سرمایه‌گذاری وقت در راه‌اندازی اولیه صحیح از پیچیدگی‌های رفع اشکال در آینده جلوگیری می‌کند. تشکر ویژه از Meta Platforms, Inc. برای ارائه پلتفرم Wit.ai که این پیاده‌سازی را ممکن ساخته است.

موارد موجود در فایل : سورس کامل

5 (1 نفر)

برای دریافت مطالب جدید کانال تلگرام یا پیج اینستاگرام ما را دنبال کنید.

محمد رحیمی

محمد رحیمی هستم. سعی میکنم در آیرنکس مطالب مفید قرار بدهم. سوالات مربوط به این مطلب را در قسمت نظرات همین مطلب اعلام کنید. سعی میکنم در اسرع وقت به نظرات شما پاسخ بدهم.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *