تعداد نشریات | 43 |
تعداد شمارهها | 1,682 |
تعداد مقالات | 13,762 |
تعداد مشاهده مقاله | 32,222,612 |
تعداد دریافت فایل اصل مقاله | 12,751,976 |
آواشناسی و واجشناسی دره زیروبمی در آهنگ گفتار فارسی | ||
نشریه پژوهش های زبان شناسی | ||
مقاله 7، دوره 15، شماره 1 - شماره پیاپی 28، فروردین 1402، صفحه 119-136 اصل مقاله (1.92 M) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22108/jrl.2023.136677.1714 | ||
نویسندگان | ||
مائده اژه ای1؛ وحید صادقی* 2؛ محمود بیجن خان3 | ||
1دانشآموختۀ کارشناسی ارشد گروه زبانشناسی، دانشکدۀ ادبیات و علوم انسانی، دانشگاه تهران، تهران، ایران | ||
2دانشیار گروه زبان انگلیسی و زبانشناسی دانشگاه بین المللی امام خمینی، قزوین، ایران | ||
3استاد گروه زبانشناسی دانشگاه تهران، ایران | ||
چکیده | ||
پژوهش حاضر با هدف بهبود بازسازیِ گفتار در زبان فارسی و بررسی افت منحنی فرکانس پایه بین دو قلۀ زیروبمی در چارچوب نظریۀ خودواحد عروضی آهنگ انجام شده است. دو فرضیۀ اصلی این پژوهش افت فرکانس پایه از طریق وقوع قاعدۀ درونیابی آوایی و یا از طریق وقوع قاعدۀ گسترش نواخت است و پیشبینی میشود که فرضیۀ اول پژوهش تأیید شود. دادههای پژوهش، شامل 45 ساخت پیبستی، با توجه به واکدار بودن همخوانها در تمامی هجاها بین دو قلۀ زیروبمی طراحی شده و فاصلۀ دو قله با افزودن به تعداد هجاهای بدون تکیه از مقدار صفر تا دو هجا افزایش داده شد. تعداد 1350 داده از 30 گویشور فارسیِ معیار ضبط و جمعآوری شد. این دادهها در نرمافزار پرات تحلیل آوایی شد و نتایج این تحلیل در برنامۀ اسپیاساس بررسی شد. نتایج تحلیلها نشان داد فاصلۀ قلۀ اول تا درۀ منحنی با افزایش تعداد هجاها افزایش یافته که نشانگر برهمنهادگیِ این دره با ابتدای هجای تکیهبر است. اختلاف معنادارِ این فاصله میان سه گروهِ دادهها بهصورت دوبهدو نیز نشاندهندۀ افزایش آن به نسبت افزایش تعداد هجاهای بدون تکیه است. همچنین منحنی فرکانس پایه بهطور میانگین برای دادهها رسم شد که نشان داد این افتِ میان دو قله تدریجی است و از طریق وقوع درونیابی رخ میدهد. | ||
کلیدواژهها | ||
بازسازی گفتار؛ درونیابی آوایی؛ گسترش نواخت؛ نظریۀ خودواحد عروضی آهنگ؛ تکیۀ زیروبمی | ||
اصل مقاله | ||
فناوری تبدیل متن به گفتار میتواند در زمینههای متعددی مانند خواندن متون مختلف توسط افراد نابینا و کمبینا، برقراری ارتباط کلامی توسط افراد با ناتوانی گفتاری و یا دریافت اطلاعات از یک متن از طریق شنیداری (کتاب یا متنِ گویا) راهگشا باشد. آهنگ گفتار و ساخت نوایی در فرایند بازسازیِ گفتار مصنوعی نقش بسزایی را ایفا میکنند. در بازسازیکنندههای گفتاری کافی است که بازسازیکننده بتواند واحدهای نوایی[1] اصلی شامل زیروبمی، دیرش[2] و شدت[3] را تغییر بدهد تا با ترکیب آن با قواعد مربوط به آن زبان، بتوان مابقی واحدهای نوایی گفتهشده را بهدست آورد (همایونپور، 1390). فرکانس پایۀ گفتار از اهمیت بسیاری در پردازش خودکار سیگنال گفتار برخوردار است. اطلاعات نوایی زیروبمی گفتار عمدتاً توسط این پارامتر مشخص میشوند. سیستم تبدیل متن به گفتار شامل سه بخش است که یکی از آن، مرحلۀ تحلیل متنی و آوایی است. در این مرحله، بخش مرتبط با نوای گفتار در خروجیها مدنظر است. جایگاههای تکیه و سایر اطلاعات لازم برای انجام تحلیلهای نوایی و تعیین الگوهای شدت و زیروبمی، تکیه و آهنگِ جملات از نتایج حاصل از این بخش است. پیشبینی نوع نوای گفتار، به علت عدم وضوح اطلاعات معنایی و ساختاری گفتار در ورودیهای سیستمهای متن به گفتار، مشکل است. درک نوای مناسب حتی با وجودِ این نوع از اطلاعات با مشکل مواجه است و علت آن عدمِ وجود تحقیقات کافی در زمینۀ تعاملِ بین مشخصههای نوایی و همچنین تحت تاثیرِ عوامل ادراکی و متنی بودنِ تبدیل مقولههای زبانی به پارامترهای آوایی و نوایی است. تعریف پارامترهای مناسب در یک فضای نواختیِ پیشبینی شده لازمۀ تولید صحیح گفتارِ بازسازیشده است. یکی از این پارامترها، جابهجاییهای محلی نقاطی خاص بر روی منحنی فرکانس پایه در ساخت نوایی نمادین است که در پژوهش حاضر به آن پرداخته شده است. تمرکز این پژوهش بر روی بررسی قاعدهمند بودن افت فرکانس پایه در حدفاصل اهداف نواختی H* و L+H* در پارهگفتارهای زبان فارسی است. در صورت قاعدهمند بودن این افت، میتوان فرکانس پایه را در فضاهای مشابه نواختی بهطور دقیقتری پیشبینی کرد و از آن در فرایند تولید پارهگفتارهای مصنوعی در زبان فارسی استفاده کرد. پرسش اصلیِ این پژوهش تشخیص نوعِ افتِ منحنیِ فرکانس پایه است که میتواند به دو صورت تدریجی و یا با شیب تندتر انجام گیرد. در صورت رخ دادن نوع افت اول، درونیابی آوایی[4] رخ داده و در صورت صحیح بودن نوع افت دوم، قاعدۀ گسترش رخ داده است. دو فرضیۀ اصلی این پژوهش براساس این دو نوع افت است. در فرضیۀ اول، قاعدۀ درونیابی آوایی که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی شده، مدنظر است. در فرضیۀ دوم، قاعدۀ گسترشِ نواخت[5] اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول میکند؛ زیرا نواخت L تکیۀ زیروبمی دوم خود را تا ابتدای کلمه گسترده میکند. الگوی نواختی مدنظر در طراحی دادهها، H* L+H* و محل هجای تکیهبر در کلمۀ دوم مدنظر بوده است. پارامترهای اندازهگیریشده برای تحلیل و بررسی دادهها متمرکز بر فاصلۀ H اول تا اهداف نواختی مدنظر در L+H* است. دادهها بهطور کلی به دو صورت نرمافزاری و آماری تحلیل شدند. در بخش نرمافزاری فواصل اهداف نواختی اندازهگیری و در بخش آماری، آزمونهای تحلیل واریانس و تعقیبی و همچنین، محاسبۀ ضریب همبستگی و میانگین منحنی فرکانس پایه بین تمامی دادهها به تفکیک گروه انجام شد. نتایج تحلیلها برمبنای دادههای گردآوریشده بیانگر صحت فرضیۀ مبنی بر درونیابی آوایی بین اهداف نواختی است.
افت فرکانس پایه بین دو قلۀ H در زبانهای دیگر بررسی شده است. آروانیتی[6] و لد[7] (1995) در مقالهای، ترکیب نواختی و برهمنهادگی تکیههای زیروبمی پیشهسته را در زبان یونانی بررسی کردند. دادههای آزمایش براساس فاصلۀ دو تکیۀ زیروبمیِ هدف طراحی شدند طوری که این فاصله با افزودن هجاهای بدونِ تکیه بین این دو هدف نواختی بیشتر میشد. فرضیۀ مورد پژوهش، چگونگی افت فرکانس پایه در ابتدای تکیۀ زیروبمیِ دوم بود. چنین فرض شد که اگر این افت به علت نزول منحنی بین دو H* رخ دهد، عمق درۀ آن با افزایش تعداد هجاهای بدون تکیه میان دو تکیۀ زیروبمی، بیشتر میشود؛ و اگر این افت به علت حضور یک نواختِ L مشخص در یک تکیۀ زیروبمیِ دونواختی باشد، برهمنهادگی و مقدار این نواخت حتی با افزایش تعداد هجاهای بدون تکیه پایدار میماند. نتایج این پژوهش نشان داد بازنویسیِ تکیۀ زیروبمی پیشهسته در این زبان بهصورت L*+H است؛ زیرا نواخت L بهطور مشخص نتیجۀ نزول منحنی نیست و از لحاظ مقدار و برهمنهادگی از نواخت H پایدارتر است.
شکل1- فاصلۀ ابتدای هجای تکیهبر تا نواخت H در تکیۀ اول بهصورت تابعی از تعداد هجاهای بدون تکیه بین دو هجای تکیهبر در سه گویشور زبان یونانی(Cited in Arvaniti & Ladd, 1995). Figure 1 – The distance of the H tone from the beginning of the first accented syllable as a function of the number of unaccented syllables between accents, for 3 Greek speakers (Cited in Arvaniti & Ladd, 1995).
در شکل (1) مشاهده میشود که فاصلۀ نواخت H از ابتدای هجای تکیهبر با افزایش تعداد هجاهای بدون تکیه بیشتر میشود. شیب این منحنی پس از رسیدن به هجای سوم و یا پیش از هجای ماقبلِپایانی کمتر میشود؛ اما بهطور کلی با افزایش تعداد هجاهای بدون تکیه بین این دو هدف نواختی تا مقدار سه هجا، نواختِ H از ابتدای هجای تکیۀ زیروبمی دورتر واقع میشود. لد و شپمن[8] (2003) نیز در آزمایشهایی مشابه افت فرکانس پایه را میان دو تکیۀ زیروبمی بالا (H*) در زبان انگلیسی بررسی کردند. هدف آنان بررسی میزان فرورفتگی بین این دو تکیه و ارزیابی مدل ناحیۀ گذار بود که توسط پییرهامبرت[9] (1980) ارائه شده بود. سه آزمایش در این پژوهش انجام شد. اولین آزمایش مربوط به برهمنهادگیِ L بر شروع هجای تکیهبر بود. نتیجۀ این آزمایش نشان داد نقطۀ حداقلی فرکانس پایه با یک نواختِ پایینِ مشخص مطابقت دارد. در آزمایش دوم نشان داده شد که برهمنهادگیِ نقطۀ حداقلی، یک سرنخ ادراکی برای تشخیص عبارتهای مشابه توسط شنونده است. آزمایش سوم ادعای پیرهامبرت دربارۀ فرورفتگی بین دو تکیۀ زیروبمی بالا را به محک آزمون قرار داد. طبق گفتۀ پییرهامبرت، فرورفتگی بین این دو تکیه فاقد هدف نواختی پایین (L) است و این درّه با افزایش فاصله بین دو قلۀ فرورفتگی، عمیقتر میشود. در این آزمایش تعداد هجاها در فاصلۀ بین دو دو قلۀ زیروبمی از تعداد صفر تا سه هجا افزوده شده و نقطۀ حداقلی فرکانس پایه در این ناحیۀ گذار اندازهگیری گردید.
شکل 2 - دادههای زمانی دو گویشور زبان انگلیسی در آزمایش سوم که نشانگر طول فواصل بین دره و دو قلۀ زیروبمی است (Cited in Ladd & Schepman, 2003) Figure 2 – The durational data for two English speakers in Experiment 3 demonstrating the distance between the valley and the two peaks (Cited in Ladd & Schepman, 2003)
همانطور که در شکل (2) مشاهده میشود، فاصلۀ زمانی بین L و H2 تغییر چندانی با افزایش تعداد هجا نمیکند که این نشانگر ثابت بودن محل وقوع L قبل از هجای تکیهبر است؛ اما فاصلۀ L از H1 با افزایش تعداد هجاها بهطور نظاممند افزایش مییابد. نتایج کلی این پژوهش نشان داد فرورفتگی ناحیۀ گذار بین دو قلۀ زیروبمی ناظر بر یک نواخت L مشخص است.
پژوهش حاضر در چارچوب نظریۀ خودواحد عروضی[10] انجام شده است. هدف اصلی این نظریه توصیف و تبیین تغییرات آواییِ پیوسته در منحنی زیروبمی گفتار است. لد (2008) این هدف کلی را به دو رسالت واجی و رسالت آوایی تقسیم کرده است. رسالت واجیِ این نظریه، ارائه تحلیلی کارآمد از تغییرات پیوستۀ زیروبمی براساس زنجیرهای از عناصر مقولهای و تمایزدهنده و رسالت آواییِ آن تبیین نحوۀ نگاشت عناصر ناپیوستۀ واجی به پارامترهای آکوستیکیِ پیوسته است. H و L در این نظریه، دو عنصر واجی با ماهیت انتزاعی هستند و ماهیت آوایی ندارند. این دو عنصر ممکن است در شرایط مختلف به گونههای متفاوت ظاهرشوند. در جدول (1) بهطور خلاصه به انواع نواخت و محل آنها پرداخته شده است.
جدول 1 - انواع نواخت در نظریۀ خودواحد عروضی آهنگ Table 1 – Different types of tones in Autosegmental Metrical Theory
منحنی زیروبمی در نظریۀ خودواحد عروضی شامل دو نوع ویژگی زیروبمی است. برخی ویژگیها محلی و در نقاط خاصی از منحنی هستند و برخی دیگر، بهصورت گسترۀ زیروبمی بین رویدادهای نواختی دیگر واقع شده و محدودۀ گذار هستند. از بین این دو، فقط رویدادهای نواختیِ محلی اهمیت زبانشناختی دارند و نوع دوم در این نظریه فاقد اهمیت است. مهمترین رویدادهای محلی ساخت نواختی گفتار، تکیۀ زیروبمی و نواختهای مرزی است. تکیۀ زیروبمی با هجاهای برجسته در ساخت زنجیرهای و نواختهای مرزی با مرز واحدهای نوایی منطبق هستند. با توجه به اینکه تکیۀ زیروبمی و نواختهای مرزی در نواحی نسبتاً مشخصی در زنجیرۀ گفتار رخ میدهند، به این رویدادها «اهداف نواختی»[11] گفته میشود. تمایز بین این دو رویداد تمایزی اساسی در انگارۀ خودواحد عروضی است (صادقی، 1397). تکیههای زیروبمی برحسب جایگاهشان درگروه آهنگ به دو دستۀ «تکیۀ زیروبمی هسته»[12] و «تکیۀ زیروبمی پیشهسته»[13] تقسیم میشوند. در اغلب زبانها، آخرین تکیۀ زیروبمی گروه آهنگ، تکیۀ زیروبمی هسته و به تکیههای زیروبمی قبل از آن تکیۀ زیروبمی پیشهسته گفته میشود. نشانۀ ستاره در نظریۀ خودواحد عروضی به مفهوم انطباق نواخت با هجای تکیهبرِ کلمه یا گروه تکیهای است. گروه تکیهای[14] در ساخت سلسلهمراتبی آهنگ گفتار از کلمه بزرگتر و از گروهِ آهنگ کوچکتر است و در آن یک تکیۀ زیروبمی وجود دارد که روی قویترین هجای گروه قرار میگیرد ( Beckman & Pierrehumbert, 1986) وقوع تکیۀ زیروبمی L* روی یک کلمه به معنای آن است که هجای تکیهبر آن با نواخت پایین تولید شده و وقوع تکیه زیروبمی H* به معنی تولید هجای تکیهبرِ کلمه با نواخت بالاست. در تکیههای زیروبمی دونواختی، نواخت ستارهدار، با هجای تکیهبر کلمه انطباق دارد و نواخت بدون ستاره با فاصله کمی قبل و یا بعد آن ظاهر میشود (صادقی، 1397). تفاوت تکیۀ تک نواختیH* و تکیۀ دونواختیِ L*+H در محل قله و درۀ فرکانس پایه است. در H* قلۀ فرکانس پایه روی هجای تکیهبر است. در L*+H درۀ فرکانس پایه روی هجای تکیهبر قرار دارد و قله کمی بعد از این هجا قرار دارد. لد (1983) و گوسنهافن[15] (1984) تمایز بین این دو تکیه را صرفا آواشناختی و غیرمقولهای بیان کردهاند. یعنی قلۀ H تکیۀ تکنواختیِ H* منطبق بر هجای تکیهبر و وقوعِ بههنگام دارد ولی قلۀ H تکیه دونواختی L*+H بعد از هجای تکیهبر قرار دارد و وقوعِ دیرهنگام دارد. بنابراین L*+H گونه ای ازهمان الگوی نواختی H* است. در تکیه دونواختیِ L+H* نقطۀ شروع خیز، هجای قبل از هجای تکیهبر و محل پایان آن، ناحیهای از هجای تکیهبر است. در حالی که در L*+H، شروع خیز از هجای تکیهبر و در ناحیهای از هجای بدون تکیه بعد پایان مییابد.
1-3. ساخت آهنگ گفتار فارسی ساداتتهرانی (2007 & 2009) ساخت آهنگ فارسی را متشکل از دو سطح نوایی گروه تکیهای[16](AP) و گروه آهنگی[17](IP) تعریف میکند. گروه تکیهای از یک کلمۀ محتوایی و واژهبستهای وابسته به آن تشکیل میشود و گروه آهنگی از یک یا چند گروه تکیهای در ترکیب با هم شکل میگیرد. تکیۀ زیروبمی در زبان فارسی بهصورت تکیۀ دونواختی L+H* تعریف شده است (Mahjani, 2003; Sadat-Tehrani, 2009). این تکیه ترکیبِ متوالی یک نواخت پایین(L) و یک نواخت بالا (H) است که هردو با هم با هجای تکیهبر کلمه انطباق دارد. تکیه دونواختی L+H* در بازنویسی ساخت نواختی کلمات چندهجایی با تکیۀ غیرآغازی استفاده میشود. در کلمات یکهجایی یا چندهجایی با تکیۀ آغازی، L+H* بهصورت تکیۀ تکنواختی H* ظاهر میشود؛ زیرا فضای کافی برای تظاهر آوایی نواخت L وجود ندارد. اسلامی (1384) معتقد است تکیۀ زیروبمی در زبان فارسی هم بهصورت بسیط L*، H* و هم بهصورت مرکب L+H*، L*+H بازنویسی و توصیف میشود. گروهِ آهنگ دارای یکی از نواختهای مرزی L% یا H% است. L% در پایان جملات خبری و امری و H% در پایان جملات پرسشی ظاهر میشود. در هر گروه تکیهای یک نواخت کناری بهصورت L- یا H- ظاهر میشود که بین محل وقوع تکیۀ زیروبمی و مرز پایانی گروه قرار دارد (اسلامی، 1384؛ Sadat-Tehrani, 2009). اگر پایان تکیۀ زیروبمی منطبق بر پایان گروه باشد، نواخت کناری روی هجای تکیهبر قرار میگیرد. اگر بین محل وقوع تکیۀ زیروبمی و پایان گروه تکیهای به دلیل وجود واژهبست، یک یا چند هجا وجود داشته باشد، نواخت کناری روی تمام هجاهای بدون تکیه بعد از هجای تکیهبر تا پایان گروه تکیهای گسترده میشود (Sadat-Tehrani, 2009). ساداتتهرانی (2009) علت وجود نواخت کناری در ساخت آهنگ گفتار فارسی را تفاوت بین نواخت کناریِ گروه تکیهای هسته و پیشهسته میداند. نواخت کناری گروه تکیهای هسته در جملات سادۀ بینشان L- و نواخت کناری گروه تکیهای پیشهسته بهصورت H- است. بنابراین، تفاوت بین گروه تکیهای هسته با گروه تکیهای پیش هسته، نوع نواخت کناری گروه تکیهای است. وی ترادف اهداف نواختی H و L در تکیههای زیروبمی دونواختی L+H* در زبان فارسی را در جایگاههای نوایی پیشهسته، هسته و کانونی بررسی کرده است و نشان میدهد که نقاط گذار L در تمامی گروههای تکیهای بهطور نظاممند مترادف با آغاز هجای تکیهبر است؛ ولی محل ترادف نقاط گذار H بسته به نوع تکیۀ زیروبمی تغییر میکند، بدین معنی که وقوع قلهها در تکیههای زیروبمی پیش هسته نسبت به تکیۀ زیروبمیِ هسته یا کانونی دیرهنگامتر است. البته در ادامه بیان کرده است که نقاط پایانیِ خیز در تمام گروهها صرفنظر از نوع تکیۀ زیروبمی، در هجای بعد از هجای تکیهبر واقع میشود و این به معنای وقوع دیرهنگام قله و یا دیرکرد قلۀ هجا در زبان فارسی است. در تکیههای زیروبمی هسته یا کانونی، H با همخوان آغازیِ هجای بعد از هجای تکیهبر مترادف است؛ ولی در تکیۀ زیروبمی پیشهسته با آغاز واکۀ این هجا مترادف است. ساداتتهرانی (2009:14) ایین تفاوت را به نواختهای مرزی متفاوتِ این تکیهها نسبت داده است. صادقی (1397) طی پژوهشهایی نشان داده است که هر دو نواخت تکیۀ زیروبمیِ پیشهسته در زبان فارسی با نواحیِ مشخص در ساخت زنجیرهایِ گفتار انطباق پایدار دارد. L بهطور منظم همیشه روی آغازۀ هجای تکیهبر و H همیشه در مرز آغازی واکه بعد از هجای تکیهبر قرار دارد. نتایج مشاهدات صادقی، فرضیۀ اتصال زنجیرهای را اثبات کرده است و نشان داد که دیرش و شیب تغییرات زیروبمی در زبان فارسی ثابت نیست و به نسبت فاصلۀ زمانی بین نقاط انطباق زنجیرهای تغییر میکند. صادقی (1397) مطابق این فرض که اطلاق نشانۀ ستاره به یک نواخت صرفاً به معنی انطباق آن نواخت با زنجیرۀ آواییِ هجای تکیهبر است، تکیۀ زیروبمی پیشهستۀ فارسی را بهصورت L*+H بازنویسی کرده است. طبق این بازنویسی نواختی، نواخت L همواره روی هجای تکیهبر واقع شده است و H همواره با تأخیر روی هجای بعد از هجای تکیهبر واقع میشود. ۴. روش اجرای پژوهش دادههای نواییِ مدنظر این پژوهش، عبارتهایی هستند که توالی دو تکیه زیروبمی بهصورت H* L+H* (یک نواخت H* و یک گروه زیروبمیِ دونواختیِ L+H*) را شامل میشوند. دو احتمال برای ناحیۀ گذار از H* اول تا H* دوم فرض شده است. در فرضیۀ اول، قاعدۀ درونیابی آوایی پیشبینی شده است که براساس آن قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی شده است. در فرضیۀ دوم، قاعدۀ گسترش اعمال شده است که طبق آن، قلۀ H اول تا ابتدای کلمۀ دوم نزول میکند؛ زیرا نواخت L تکیۀ زیروبمی دوم تا ابتدای کلمه خود را گسترده میکند. الگوی تغییرات فرکانس پایه براساس این دو فرضیه در شکل (3) ارائه شده است.
شکل ۳ - دو قاعدۀ مدنظر فرضیات پژوهش Figure 3 – Phonological rules underlying the research hypotheses
1-4. دادههای پژوهش و شرکتکنندگان دادههای این پژوهش شامل 45 عبارت دوکلمهای است. هر داده از یک پارهگفتار متشکل از دو کلمۀ پشتسرهم تشکیل شده است که با پیبستِ کسرۀ اضافه به هم متصل میشوند. تمامی دادهها براساس واکدار بودن همخوانها در محل حضور محل هجای تکیهبر و اهداف نواختی در پارهگفتار طراحی شدهاند. این پارهگفتارهای دوکلمهای براساس محل هجای تکیهبر در کلمۀ دوم به سه گروه تقسیم شدهاند. مدنظر بود که همخوانها در دو هجای آخر کلمۀ اول و در تمام همخوانهای کلمۀ دوم واکدار باشند. در گروه اول تکیه روی هجای اول کلمۀ دوم قرار دارد، در این حالت کلمۀ دوم یا بهصورت یک کلمۀ یکهجایی و یا یک ساختار پیبستیِ دوهجایی است. در گروه دوم، تکیه روی هجای دوم کلمۀ دوم قرار دارد و در گروه سوم تکیه روی هجای سوم کلمۀ دوم قرار دارد. تمامی سه گروه داده در پایان پژوهش حاضر پیوست شدهاند. یک نمونه از هر گروه داده در ادامه آورده شده است. (1) آبِ رود گلآلود بود. (1) [ʔɑ.be rud] ɟelɑlud bud کلمۀ دوم کلمۀ اول (2) زیرِ نورِ چراغ بهتر معلوم بود. (2) [zi.re nu.re] tʃerɑɢ behtar maʔlum bud کلمۀ دوم کلمۀ اول (3) چند ماه پیش در مضیقۀ مالی بودند. (3) tʃand mɑh piʃ dar [maziɢe.je mɑ.li] budand کلمۀ دوم کلمۀ اول (4) از محلۀ قدیمی رفته بودند. (4) ʔaz [mahal.le.je ɢa.di.mi] rafte budand کلمۀ دوم کلمۀ اول
تعداد 30 نفر شرکتکننده (15 زن و 15 مرد) در این پژوهش از بین رده سنی 30-70 سال انتخاب شدند. تمام این افراد گویشور بومیِ زبان فارسی معیار و دارای تحصیلات دانشگاهی بودند. عباراتی که در مرحله اول طراحی شده بود داخل جملات خبری مناسب قرار داده شدند تا گویشور بهطور طبیعی و بدون تأکید بر روی کلمات خاصی آنها را بخواند. جملات سه گروه داده بهطور تصادفی و نامنظم و بدون اطلاع شرکتکنندگان از نوع و یا تفاوت آنها بر روی کاغذ به آنها ارائه شد. به شرکتکنندگان توضیح داده شد که این جملات صرفاً خبری هستند و بهصورت پرسشی یا تعجبی خوانده نمیشوند. همچنین، به آنان چند دقیقه فرصت داده شد تا جملات را مطالعه کنند که در صورت نیاز دربارۀ کلماتی که شاید برایشان نامفهوم باشد، سؤال بپرسند. به گویشوران توضیحات کامل دربارۀ نحوۀ ضبط دادهها ارائه شد. علامت مکث کردن، علامت خواندنِ دادۀ بعدی و علامت تکرارِ مجدد داده در صورت خطای کلامی و یا نوفه ناگهانی از فضای بیرون برای آنها شرح داده شد. دادهها برای هر گویشور در سه قسمت ضبط شدند. هر 15 داده در یک پروندۀ صوتی با فاصلۀ زمانیِ مکث 5 ثانیهای بین هر داده ضبط شد که با حرکت دست به گویشور برای مکث کردن و یا خواندنِ داده بعدی علامت داده میشد. هر جا گویشور دچار اشتباه کلامی و یا مکث طولانی در میان عبارتِ مدنظر میشد، مجدداً پس از 5 ثانیه مکث، آن داده را تکرار میکرد. در پایان، پژوهشگر یکبار پروندههای صوتی را برای هر گونه خطای احتمالی بررسی کرد تا در صورت نیاز بهصورت جداگانه دادهها مجدداً ضبط شوند.
2-4. روش اندازهگیری و تحلیل دادهها برای تحلیل دادهها از نرمافزار پرات نسخۀ 16/1/6 (Boersma & Weenink, 2020) استفاده شد. اندازهگیری فواصل مدنظر بهصورت دستی بر روی منحنی فرکانس پایه به کمک شکلِ موج[18] و طیفنگاشت[19] برای یافتن دقیقتر اهداف نواختی انجام شد. مرزهای فواصل در چهار لایۀ فاصلهای[20] زیر تعیین شدند: 1) A: فاصلۀ نواخت H در کلمۀ اول تا نواخت L در کلمۀ دوم 2) B: فاصلۀ نواخت H در کلمۀ اول تا مرکز هجای تکیهبر کلمۀ دوم 3) C: فاصلۀ نواخت H در کلمۀ اول تا اول کلمۀ دوم 4) D: فاصلۀ اول کلمۀ دوم تا مرکز هجای تکیهبر کلمۀ دوم یک لایۀ نقطهای[21] نیز در لایۀ پنجمِ تحلیل تعریف شد که نشانگر مرزهای لایۀ اول یعنی H و L است. پس از برچسبدهی و تعیین همۀ فواصل مدنظر در برنامۀ پرات، به کمک برنامۀ ProsodyPro نسخه 6/8/7/5، (Xu, 2013) فواصلِ تعیینشده در هر لایه اندازهگیری شدند و مقادیر آنها در سه پروندۀ اکسل طبق گروه دادههای مدنظر طبقهبندی شدند. در شکل (4) یک نمونه از برچسبدهی لایهای دادهها مشاهده میشود.
شکل ۴ - برچسبدهی لایهای پارهگفتار «بینظمیِ مداوم» از گروه سوم دادهها Figure 4 – Annotaion of the utterance “binazmi.je mo.dɑ.vem” from the third group of data
شکل (5) میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم را به تفکیک هر گروه نشان میدهد. همان طور که مشاهده میشود، میانگین میزان این فاصله در دادههای گروهِ اول در بازۀ حدودی صفر تا یکدهم ثانیه قرار دارد و در گروه دوم و سوم به ترتیب بین بازۀ حدودی دودهم ثانیه تا سهدهم ثانیه و سهدهم ثانیه تا چهاردهم ثانیه قرار دارد. این تفاوت بینِ میانگینها، نشاندهندۀ تغییراتِ این فاصله به نسبت محل وقوعِ تکیۀ زیروبمی است. این نسبت در تغییرات، به افت تدریجی فرکانس پایه تا ابتدای هجای تکیهبر اشاره دارد؛ زیرا در غیر این صورت، L در هر سه گروه تا ابتدای کلمۀ دوم گسترده شده است و این فاصلۀ زمانی با تفاوت معنادار میان گروههای مختلف همراه نمیشد.
شکل 5- میانگین فاصلۀ زمانی بین H در کلمۀ اول و L در کلمۀ دوم در فواصل هجایی مختلف در سطح تمامیِ دادهها Figure 5 – The mean distance in time between H (the first peak) and L (the valley) across all data and speakers
همان طور که در شکل بالا مشاهده میشود، تعدادی از دادهها در محدودۀ میانگین گروه خود نیستند. علت این امر آن است که علیرغم اینکه تلاش شده بود دادههایی انتخاب شود که از زنجیرۀ آواهای واکدار تشکیل شده باشند، با این حال در برخی دادهها منحنی فرکانس پایه در محل منطبق با همخوانهای گرفتۀ واکدار دچار پارگی شده بود، طوری که کار اندازه گیری فواصل زمانی را با مشکل مواجه میساخت. بنابراین، برای این دادهها گاهاً اندازهگیریها با در نظر گرفتن تقریبیِ محل وقوع نواختها انجام شده است. برای بررسی سطح معناداری تفاوتها، آزمون تحلیل واریانس (آنوا[22]) بر روی میزان فاصلۀ H در کلمۀ اول تا L در کلمۀ دوم در سه گروه دادههای پژوهش انجام شد. در این آزمون، محل وقوع تکیۀ زیروبمی (عامل تفکیک گروهها از یکدیگر) بهعنوان عامل مستقل و HtoL بهعنوان متغیر وابسته انتخاب شدند. نتایج آزمون تحلیل واریانس (جدول 3) نشان داد فاصلۀ زمانی H در کلمۀ اول تا L در کلمۀ دوم در گروههای مختلف با یکدیگر تفاوت معنادار دارد.
جدول2 - نتایج آزمون تحلیل واریانس در محاسبۀ سطحِ معناداری فاصلۀ زمانی H در کلمۀ اول تا L در کلمۀ دوم در تمامی دادههای آزمایش Table 2 – Results of ANOVA analysis for calculating the significance level of the distance in time between H (the first peak) and L (the valley) across all data and speakers
پس از محاسبۀ کلیِ مقدارِ معناداری، آزمونهای تعقیبی نیز بر روی دادهها انجام شد تا با مقایسههای دوبهدو، مقدارِ معناداری میان گروهها نیز بهدست آید.
جدول 3 - نتایج آزمون تعقیبی بر روی دادههای پژوهش به صورت دوبهدو در میان هر سه گروه Table 3 – Results of post-hoc pairwise tests between each group of data
طبق نتایج آزمونهای تعقیبی که در جدول (3) ارائه شده است، مقدارِ معناداری بین همۀ گروهها بهصورت دوبهدو معادل «00/0» است که به معنی معنادار بودن اختلاف این فاصلۀ زمانی بین تمام گروههای دادههای آزمایش است. سپس در گامی دیگر، ضریبِ همبستگی[23] بین فاصلۀ زمانیِ HtoL و فاصلۀ زمانیِ HtoSP در هر سه گروه اندازهگیری شد. بهطور کلی نتایج آزمون همبستگی پیرسون نشان داد ارتباطی مستقیم و قوی بین فاصلۀ زمانیِ H در کلمۀ اول تا L در کلمۀ دوم و فاصلۀ زمانیِ H در کلمۀ اول تا مرکز هجای تکیهبر در کلمۀ دوم در هر سه گروه از دادهها وجود دارد (شکل 6). به بیان دیگر، تغییراتِ میزان فاصلۀ تکیۀ زیروبمی در کلمۀ دوم از H در کلمۀ اول، مشابهِ تغییراتِ میزان فاصلۀ L در کلمۀ دوم از H در کلمۀ اول است. طبق مشاهدات و اندازهگیریهای انجامشده، محل وقوع L در اکثر مواقع قبل از شروع هجای تکیهبر قرار دارد. بر این اساس، با دور شدن هجای تکیهبر از H در کلمۀ اول، L نیز از آن دور میشود. این یافته، فرضیۀ اول پژوهش را که مبتنی بر درونیابی آوایی بین این دو هدفِ نواختی است، تأیید میکند؛ زیرا طبق این فرضیه در صورت گسترش L تا ابتدای کلمۀ دوم، محل وقوع آن به صورت یک فلات[24] پایینِ گسترده صورت میگیرد و فاصلۀ H تا L بهطور یکسان برابر با فاصلۀ H تا ابتدای کلمۀ دوم است.
شکل 6 – نمودار رگرسیون فاصلۀ H در کلمۀ اول تا L در کلمۀ دوم (HtoL) بهصورت تابعی از فاصلۀ H در کلمۀ اول تا مرکز هجای تکیهبر در کلمۀ دوم (HtoSP) در تمامی دادههای آزمایش به تفکیک گروه Figure 6 – The regression of the distance in time between H (the first peak) and L (the valley) as a function of the distance in time between H (the first peak) and the middle of the accented syllable in each group of data سپس، در گام پایانی برای بررسی الگوی کلی تغییرات زیروبمی در جملات آزمایش، منحنی میانگینِ فرکانس پایه در گروههای جداگانه به کمک نرمافزار ProsodyPro محاسبه شد.[25] این نرمافزار منحنی میانگینِ فرکانس پایه را با استخراج مقادیر F0 از ده نقطه با فواصل منظم در هر پارهگفتار محاسبه میکند.
شکل 7 - میانگین منحنیِ فرکانس پایه به تفکیک گروه در سطحِ تمامیِ دادهها Figure 7 – The normalized pitch contour in each group of data
همان طور که در شکل (7) مشاهده میشود، منحنیِ فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم افتی تدریجی دارد تا به محل نواخت L برسد. در دادههای گروه اول که در آن تکیه بر روی هجای اول کلمات قرار دارد، F0 افتی نسبتاً تند دارد؛ یعنی با شیبی نسبتاً تند از قلۀ H تکیۀ زیروبمی اول به نواخت L کلمه دوم درونیابی شده است. در گروه دوم، که در آن تکیه بر روی هجای قبل پایانی قرار دارد، افت منحنی فرکانس پایه شیب کندتری دارد و بالأخره اینکه در گروه سوم که در آن تکیه بر روی هجای پایانی کلمات قرار دارد، فرکانس پایه با شیبی بسیار ملایم از قله H کلمه اول به نواخت L کلمه دوم درونیابی شده است.
6- بحث و نتیجهگیری نتایج بهدستآمده بهطور کلی به تأیید فرضیۀ اول پژوهش اشاره دارد. در این فرضیه، افت فرکانس پایه، تدریجی پیشبینی شده است که براساس قاعدۀ درونیابی آوایی رخ میدهد. نتایج بهدستآمده نشان داد فاصلۀ زمانی بین قلۀ H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) در گروه اول کمتر از گروه دوم و در گروه دوم کمتر از گروه سوم است. به بیان دیگر، هرقدر تکیه نسبت به آغاز کلمه (کلمه دوم) دورتر باشد، به همان اندازه فاصله زمانی HtoL بیشتر میشود. نتایج آزمون تحلیل واریانس نشان داد فاصلۀ زمانی HtoL برای هر سه گروه با یکدیگر اختلاف معنادار دارد. در محاسبۀ ضریب همبستگی بین فاصلۀ قلۀ اول تا L بین دو قلۀ زیروبمی (HtoL) و فاصلۀ قلۀ اول تا مرکز هجای تکیهبر کلمۀ دوم (HtoSP) مشاهده شد که بین مقادیر این دو فاصله ارتباط مستقیم وجود دارد. یعنی با افزایش فاصلۀ HtoL به فاصلۀ HtoSP نیز بیشتر میشود. همچنین، در بررسی و مقایسه منحنی میانگین فرکانس پایه در سه گروه هدف آزمایش مشاهده کردیم که شیب افت فرکانس پایه از قله H تکیه زیروبمی اول به نواخت L کلمه دوم در گروههای مختلف با یکدیگر تفاوت درخورتوجهی دارد به این صورت که هر قدر محل تکیه (یا محل وقوع تکیه زیروبمی) از آغاز کلمه دورتر میشود، شیب افت فرکانس پایه کندتر میشود. در مجموع شواهد بهدستآمده از تحلیل دادهها، فرضیۀ اول پژوهش، یعنی فرضیه درونیابی آوایی، را تأیید میکند. گفتیم که بر مبنای قاعدۀ درونیابی آوایی، قلۀ H اول به نواخت L تکیۀ زیروبمی دوم درونیابی میشود. بر مبنای این فرضیه، نواخت L تکیۀ زیروبمی دوم که بر روی هجای تکیهبر این کلمه واقع میشود، محل فرود منحنی نزولی فرکانس پایه از قلۀ H تکیه زیروبمی اول است. یعنی دو نواخت H از کلمه اول و L از کلمه دوم با استفاده از یک خط گذار نزولی به یکدیگر درونیابی میشوند. به این ترتیب، شیب تغییرات F0 بین دو نواخت با توجه به فاصله بین قله H تکیه زیروبمی اول و نواخت L کلمه دوم متفاوت است. تمامی آزمونهای این پژوهش، با تأیید فرضیه درونیابی آوایی، نشان میدهد نواختِ L با ابتدای هجای تکیهبر ترادف دارد و در نتیجه گذار نزولی F0 بین قله زیروبمی کلمه اول و دره زیروبمی کلمه دوم شیبی دارد که مقدار تندی آن بسته به محل وقوع تکیه (و یا محل وقوع نواخت L) در سطح کلمه متفاوت است. در مقابل، یافتههای این پژوهش فرضیۀ دوم یعنی قاعدۀ گسترش نواخت را تأیید نمیکند. گفتیم که بر مبنای این فرضیه انتظار داریم فاصلۀ HtoL با افزایش تعداد هجاها در گروههای تکیهای مختلف بدون تغییر باقی بماند و بین دو متغیر زمانی فاصلۀ HtoL و فاصلۀ HtoW (فاصلۀ قلۀ اول تا ابتدای کلمۀ دوم) همبستگی بالایی وجود داشته باشد؛ زیرا این فرضیه ادعا میکند که نواخت L همواره در ابتدای کلمۀ دوم واقع میشود. این در حالی است که نتایج آزمونهای آماری نشان داد فاصله زمانی HtoL در گروههای تکیهای مختلف بسته به محل وقوع تکیه در کلمه دوم بهطور معناداری با یکدیگر متفاوت است. همچنین، تحلیلهای رگرسیون نشان داد رابطۀ دو پارامتر زمانی HtoL با HtoW در گروههای تکیهای مختلف همبستگی ضعیفی دارد. بهطور کلی، نتایج این پژوهش دربارۀ رفتار فرکانسی فاصلۀ زمانی بین قله H تکیه زیروبمی اول تا نواخت L کلمه دوم (HtoL) با نظریۀ خودواحد عروضی آهنگ مطابقت دارد. این نظریه منحنی آهنگ را بهصورت توالی از اهداف نواختی L و H (یعنی نقاط گسستۀ بالا و پایین) توصیف میکند که سطح ارتفاع و انطباق آنها با ساخت زنجیری کاملاً پیشبینیپذیر است. ایدۀ اصلی در مدل خودواحد عروضی این است که تمامی هجاها در سطح آهنگ پارهگفتار از نظر ویژگی زیروبمی مشخصهدهی نمیشوند. اهداف نواختی در منحنی آهنگ یک پارهگفتار با فاصله بر روی نقاط زبانشناختی مشخصی در ساخت زنجیری تظاهر مییابند و فاصله بین هر دو هدف با استفاده از یک خط پیوندی (که لزوماً صاف یا مستقیم نیست) به یکدیگر متصل میشود. بر این اساس، تعداد اهداف نواختی با تعداد هجاها برابر نیست، بلکه به طرز معناداری از آن کمتر است. یعنی اغلب هجاها در سطح واجی مشخصدهی نمیشوند، بلکه ویژگی زیروبمی خود را از مختصات خطوط پیوندی بین اهداف به دست میآورند. صادقی (1397) طی پژوهشی تطابق این نظریه با زبان فارسی را بررسی کرده است که نتایج آن نشان داد حضور درۀ فرکانس پایه بین دو تکیۀ زیروبمی ناشی از یک نواخت مشخص L است. بدین معنی که ترادف و سطح ارتفاع دره صرفنظر از فاصلۀ زمانی بین قلهها ثابت و پایدار است. همچنین، درۀ فرکانس پایه همواره به شکل منظم و پایدار با آغاز هجای تکیهبر ترادف دارد. در پژوهش حاضر نیز نتایج مبنی بر همین امر است و این نشانگر قابلیت مدلسازی منحنی فرکانس پایه در آهنگ گفتار فارسی بهصورت تعدادی هدف نواختی طبق این نظریه است. از یافتههای این پژوهش میتوان در زمینۀ بازسازی مصنوعی گفتار در بخش تحلیل متنی و آوایی سیستمهای تبدیل متن به گفتار نیز استفاده کرد. پیشبینیِ دقیقتر شکلِ محلی جابهجاییهای منحنی فرکانس پایه در ساخت نوایی نمادین با استفاده از نتایج بهدستآمده منجر به بازسازی گفتار به طور طبیعیتر میشود که در نهایت، بهبود عملکرد سیستمهای تبدیل متن به گفتار را شامل میشود.
[1] tone unit [2] duration [3] intensity [4] phonetic interpolation [5] tone spreading [6] A. Arvaniti [7] D. R. Ladd [8] A. Schepman [9] J. B. Pierrehumbert [10] Autosegmental Metrical Theory [11] tonal targets [12] nuclear pitch accent [13] pre-nuclear pitch accent [14] accentual phrase [15] C. Gussenhoven [16] Accentual Phrase [17] Intonational Phrase [18] waveform [19] spectrogram [20] interval tier [21] point tier [22] ANOVA [23] مقادیر ضریب همبستگی پیرسون بین مقادیر 5/0 تا 1 (رابطۀ مستقیم) و یا 5/0- تا 1- (رابطۀ معکوس) رابطهای متوسط تا قوی را بین این پارامترها نشان میدهد. [24] plateau [25] تعدادی از فواصل زمانی در دادههای هر گروه برای ProsodyPro قابل اندازهگیری نبود. این دادهها از این مرحلۀ تحلیل حذف شدهاند. علت آن عدم امکان محاسبۀ دستیِ نقاطِ موردنظر روی منحنی فرکانس پایه در حدِ فاصل H در کلمۀ اول تا L در کلمۀ دوم است. | ||
مراجع | ||
اسلامی، محرم. (1384). واج شناسی: تحلیل نظام آهنگ زبان فارسی. تهران: سمت.
صادقی، وحید. (1397). ساخت نوایی زبان فارسی: تکیه واژگانی و آهنگ. تهران: سمت.
همایونپور، محمدمهدی. (1390). پژوهشنامۀ تبدیل متن به گفتار. تهران: دبیرخانه شورای عالی اطلاعرسانی.
References
Arvaniti, A., & Ladd, D. R. (1995). Tonal alignment and the representation of accentual targets. Proceedings of the 13th International Congress of Phonetic Science 4, 220-223.
Beckman, M. E. & Pierrehumbert, J. B. (1986). Intonational structure in English and Japanese. Phonology Yearbook 3, 255-310.
Boersma, P. & Weenink, D. (2020). Praat: Doing phonetics by computer [Computer program]. Version 6.1.16, retrieved December 2020 from http://www.praat.org/
Eslami, M. (2005). Phonology: Analyzing the intonation system of Persian. Tehran: SAMT. [In Persian]
Gussenhoven, C. (1984). On the grammar and semantics of sentence accents, Dordrecht: Foris.
Homayounpour, M. (2011). Text to speech system. Tehran: Supreme Council of Information and Communications Technology. [In Persian]
IBM SPSS Statistics for Windows, version 25, IBM Corp., Armonk, N.Y., USA.
Ladd, D. R. (2008). Intonational phonology (2nd ed.). Cambridge: Cambridge University Press.
Ladd, D. R., & Schepman, A. (2003). “Sagging transitions” between high pitch accents in English: experimental evidence. Journal of Phonetics 31, 81-112.
Ladd, D. R. (1983). Phonological features of intonational peaks. Language 59, 721-759.
Mahjani, B. (2003). An instrumental study of prosodic features and intonations in Modern Farsi (Persian). MS thesis, University of Edinburgh.
Pierrehumbert, J. B. (1980). The Phonology and phonetics of English intonation. Ph.D. Dissertation, Massachusetts Institute of Technology.
Sadat-Tehrani, N. (2009). The alignment of L+H* pitch accents in Persian intonation. Journal of the International Phonetic Association 39(2), 205-230.
Sadat-Tehrani, N. (2007). The Intonational grammar of Persian. Ph.D. Dissertation, the university of Manitoba.
Sadeghi, V. (2018). The Prosodic structure of Persian language: Lexical stress and intonation. Tehran: SAMT. [In Persian]
Xu, Y. (2013). ProsodyPro — A Tool for large-scale systematic prosody analysis. In Proceedings of Tools and Resources for the Analysis of Speech Prosody (TRASP 2013), Aix-en-Provence, France. 7-10. | ||
آمار تعداد مشاهده مقاله: 277 تعداد دریافت فایل اصل مقاله: 249 |