--- title: بررسی فنی لغتنامه‌های امروزی tags: زبان دیکشنری لغتنامه nlp uuid: a9dc56f2-aadd-4765-bba2-4a996f3c982a --- با اینکه سالهاست روزانه برای ترجمه لغات زبانهای مختلف از لغتنامه استفاده می‌کنم هنوز برای یافتن ترجمه مناسب و معنی برخی لغات مشکل دارم. این یادداشت در مورد این مشکل و راه‌حل‌هایی است که تا امروز پیدا کرده‌ام با تاکید ویژه روی راه‌حل‌های آزاد. # طرح صورت مسئله یک فرد می‌خواهد معادل لغات و مفاهیم زبان مادری‌اش را در یک زبان دیگر و نیز معادل مفاهیم و اسامی زبان دیگری را در زبان یا زبان‌های مادری خودش پیدا کند. هدف فهمیدن جهان اطرافش است. فرد مورد نظر من زبان مادری‌اش فارسی یا ترکی آذربایجانی[^1] است. افراد به دلائل مختلف به این مشکل برمی‌خورند. یک نوجوان می‌خواهد یک رمان ترجمه نشده را بخواند یا در یک فروم اینترنتی بازی احساس یا ایده‌اش را بنویسد و احساس و ایده‌های دیگران را بفهمد. حتما به لغاتی برخورد می‌کند که باید از زبان خودش به آن زبان و برعکس ترجمه کند. یکی می‌خواهد بفهمد خواننده محبوبش چه می‌گوید و دیگری می‌خواهد سوالی بپرسد. بویژه ساکنین مناطقی که دانش روز جهان را به زبان محلی خودشان گردآوری و تبدیل نکرده‌اند. # گریزی به وضعیت ترجمه من بارها کتاب‌هایی به زبان فارسی در دست گرفته‌ام که از لغات من در آوردی برای ترجمه استفاده کرده‌اند یا بجای لغات مصطلح لغاتی را که به نظر شخصی مترجم بهتر بوده خوانند یاد بگیرد استفاده کرده‌اند یا بدتر از همه اگر کتاب چاپ ایران بوده است لغات و ترجمه دلخواه ممیز را در کتاب چپانده‌اند. این آخری باعث ایجاد یک سپر دفاعی ذهنی در من شده است به گونه‌ای که هروقت رمانی چاپ ایران می‌خوانم و به بخش حساسی می‌رسم یا به لغات عجیب و غریب غیرمصطلح برمی‌خورم یا یک حفره در روند داستان حس می‌کنم در ذهنم اتوماتیک‌وار صحنه‌ی واقعی را با صحنه قلابی چپانده شده در کتاب (یا حذف شده) جایگزین می‌کنم. گاهی هم به کتاب مبدا رجوع می‌کنم و دست به مقایسه می‌زنم. همه اینها باعث شده که به ندرت کتاب فارسی بخوانم و بنابراین بیش از پیش به لغتنامه احتیاج داشته باشم. (ایده: ایکاش جایی داشتیم که این قبیل مشکلات کتابها را در آنجا گزارش ثبت می‌کردیم و با مراجعه به آن فورا از این قبیل دستکاری‌ها مطلع می‌شدیم). # راه‌حل‌های موجود طی سالهای گذشته من برای ترجمه لغات و متون بین زبان فارسی و سایر زبانها از ترکیبی از روش‌های زیر استفاده کرده‌ام. در ادامه آنها را می‌آورم و نقاط قوت و ضعفشان را می‌نویسم. ## لغت‌نامه‌های دوزبانه کاغذی این اولین روشی بود که برای ترجمه لغات بکار بردم. کتاب‌های چاپی مختلفی در بازار بود که برخی کار داخل بود و برخی حاصل کار اروپایی‌ها و آمریکایی‌ها (و یحتمل محققین ایرانی مشغول به کار در آنجا). معایب: چاپی بودند. امکان جستجو نبود. به سختی بروز می‌شدند. وابسته به روش‌های سنتی بودند. معمولا محدود به دو زبان بودند. محاسن:‌ آفلاین و بدون برق و باطری کار می‌کرد. وابسته به سیستم عامل هم نبود! ## لغت‌نامه‌های چندزبانه نرم‌افزاری با دسترسی به کامپیوتر بازار لغت‌نامه‌های نرم‌افزاری داغ شد. اوائل لغت‌نامه‌ها با داده‌های از پیش‌تعریف شده عرضه می‌شدند و بعد کمک لغت‌نامه‌ها به صورت جدا از نرم‌افزار منتشر شدند. از میان زبان‌های رایج در ایران من تنها لغت‌نامه‌های عربی و فرانسوی و انگلیسی و بعضا آلمانی به فارسی دیده‌ام. حدس می‌زنم که کمتر لغت‌نامه‌ای واقعا از زبان منبع به فارسی ترجمه شده باشد چرا که این کار تخصص بالا و نیروهای ماهر می‌خواهد. احتمالا زبانهای کمتر شناخته شده اول به انگلیسی ترجمه شده و بعد از انگلیسی به فارسی برگردانده شده‌اند که این کار هم نیاز به یک لغتنامه بروز انگلیسی به فارسی دارد. ### معایب لغت‌نامه‌های دوزبانه که یک طرف آنها فارسی است در اینترنت دست به دست می‌شوند ولی بیشتر آنها میکس و کپی از یکدیگرند. مجوز استفاده و سازنده اصلی معمولا نامعلوم است. بنابراین هرگز رشد نمی‌کنند و بهبود پیدا نمی‌کنند چرا که کسی روی پروژه‌های با مالک و شرایط استفاده نامعلوم سرمایه‌گذاری نمی‌کند. از طرفی آنهایی که من دیده‌ام کیفیت پایین و غلط‌های فراوان دارند و قالب مناسبی هم ندارند. از همه مهمتری داده‌های آنها با مجوز آزاد در دسترس نیست که باعث تشویق دیگران به بهبود آنها بشود. ### مزایا دیجیتالی بودن. قابلیت بارگزاری در برنامه‌های مختلف مانند [GoldenDict]. قابلیت جستجو و احیانا تبدیل به فرمت‌های دیگر برای استفاده در برخی برنامه‌ها. برخی فرمت‌های مدرن‌تر چندزبانه هستند. یعنی لازم نیست لغت‌نامه دوزبانه مثلا انگلیسی فارسی باشد. بلکه کافیست دوزبانه‌ی «زبان مبدإ به زبان جهانی» باشد. جلوتر توضیح می‌دهم. ## فرهنگ‌های لغت فرهنگ‌های لغت معمولا تک‌زبانه هستند. هدف آنها ترجمه نیست بلکه گردآوری معانی و تعاریف مربوط به لغات و اصطلاحات مختلف است. برای فهمیدن معنی یک لغت و معادل‌ها و ریشه‌ها و مشتقات آن بسیار مهم و حیاتی است. ایجاد آن هم کار سختی است. در ایران شناخته شده‌ترین فرهنگ لغت فارسی لغتنامه‌ی دهخداست. این لغت‌نامه پیش از اختراع اینترنت و هواپیمای مسافربری و تلفن همراه و وب و کامپیوتر و سفر انسان به فضا و جنگ جهانی دوم نوشته شده است. ### معایب ایجاد آن کار سختی است. بروزرسانی آن سخت است. نسخه آزادی از هیچ فرهنگ لغتی در دسترس نیست. البته به گمانم فرهنگ لغت دهخدا که در برخی لغت‌نامه‌های آنلاین ایرانی بکار رفته است در حوزه عمومی قرار گرفته ولی نسخه‌ی دیجیتالی آن را در یک قالب آزاد و قابل پردازش توسط کامپیوتر ندیده‌ام. ### مزایا جامع‌ترین فرهنگ‌لغتی است که تابحال به زبان فارسی نوشته شده است. > لغت‌نامه دهخدا پیش از اختراع اینترنت و هواپیمای مسافربری و تلفن همراه و وب و کامپیوتر و سفر انسان به فضا و جنگ جهانی دوم نوشته شده است. ## ویکی‌پدیا ویکیپدیا با معرفی مفهوم ویکی که همه می‌توانند آن را ویرایش کنند تحول بزرگی در جهان ایجاد کرد. از طرفی ابزاری ساخت که هر کس می‌تواند استفاده کند و ویکی خودش را بسازد. از سوی دیگر یک جامعه آنلاین بوجود آورد که در حال جمع‌آوری و مستندسازی دانش موجود در جهان به زبانهای مختلف است. ### مزایا ویکی‌پدیا یک ارگان غیرانتفاعی است. یعنی برای پول در‌آوردن ساخته نشده است و وابسته به اعانه است و اگر پولی دربیاورد داخل ویکی‌پدیا هزینه یا سرمایه‌گذاری می‌شود. وابسته به هیچ دولتی نیست. یعنی مقالات دستوری نیستند. واژه‌ها هم همینطور. هیچ رئیس بزرگی تصمیم نمی‌گیرد چه چیزی آنجا نوشته بشود و یا نه. لااقل طبق اساسنامه و سیستم اینگونه نیست. البته بازیگران بد همیشه هستند. سلامت این سیستم به این فرض وابسته است که تعداد بازیگران خوب بیش از بازیگران بد هستند و جلوی خرابکاری‌ها و دستکاری‌های آنها را بدون نیاز به یک رئیس بزرگ می‌گیرند (اگر این فرض در میان گروهی از انسانها صحیح نباشد آنها قبل از حل مشکل ویکی و ترجمه باید مشکلات بنیادی‌تری را حل کنند). هرکسی می‌تواند مقاله جدید بسازد و مقالات موجود را تغییر بدهد. امکان ثبت دانش به هر زبانی را فارغ از مسائل و مشکلات سیاسی و قومی می‌دهد. امکان دسترسی آزاد به داده‌های خام را فراهم می‌کند. برای این منظور [ویکی‌کوئری] را ببینید. آنجا می‌توان به زبان SPARQL کوئری نوشت و نتایج خام ویکی را مشاهده کرد. [بنیاد ویکی‌مدیا] پروژه‌های بسیاری دارد و امروزه نقش مهمی در تامین داده‌های خام و چند زبانه برای پروژه‌های مختلف بازی می‌کند. یکی از مهمترین ویژگی‌های آن هم امکان اتصال مقالات و لغات و معانی مشابه به یکدیگر و نیز اتصال مقالات از یک زبان به زبان‌های دیگر است. به این ترتیب ویکی‌پدیا یک شبکه‌ای از معانی فراهم می‌کند که راه ما را از یک لغت به سایر لغات و اصطلاحات در زبانهای مختلف باز می‌کند. این واقعا بی‌نظیر است. ### معایب ویکی‌پدیا معایبی هم دارد که باید در ذهن داشت. اول اینکه اگر جامعه ویرایشگران کوچک باشد مقالات جهت پیدا می‌کنند و یا کیفیت آنها افت می‌کند چرا که نویسندگان با قوانین و اصول نوشتن و ویرایش آشنا نیستند. خرابکاری هم بیشتر است و دیرتر واگردانی می‌شود. مقالات حساس هم توسط ذینفع‌ها دستکاری می‌شوند تا ذهن‌هایی که دربست به آن مقالات اعتماد می‌کنند جهت پیدا کنند و یا اعتماد عمومی از ویکی ساقط بشود. البته ویکی‌پدیا محل نوشتن آراء‌ و عقاید شخصی نیست و باید به منابع مختلف رفرنس داده شود در غیر اینصورت مقالات حذف می‌شوند. ولی این کار هم نیازمند اینست که افرادی مقالات را رصد کنند و در صورت خرابکاری آنها را اصلاح کنند. ## سرویس ترجمه آنلاین گوگل گوگل سالها پیش با راه‌اندازی سرویس ترجمه‌اش مثل ویکی جنب و جوشی در دنیای دانش و ترجمه ایجاد کرد. برای اولین بار توانستیم متون مختلف و حتی وبسایت‌ها را کاملا ترجمه کنیم. هرچند کیفیت ترجمه به هر زبانی خیلی خوب نبود. مثلا اگر متنی را از نروژی به فارسی بخواهیم ترجمه کنیم گوگل ابتدا آن را به انگلیسی و بعد به فارسی برمی‌گرداند که کیفت خروجی بسته به پیچیدگی متن فرق دارد. برای ترجمه میان زبانهای اروپایی [DeepL] ظاهرا نتایج مشابه یا بهتری تولید می‌کند. ### مزایا امکان ترجمه خودکار متن میان تعداد زیادی زبان. تشخیص زبان متن ورودی. ### معایب ترجمه برخی زبانها مثل فارسی ضعیف است. داده‌ها و الگوریتم‌های سیستم بسته و فقط در اختیار گوگل هستند. قابل توسعه توسط مردم نیست. در ادامه به دو پروژه‌ی مهم و آزاد می‌پردازیم. یکی منحصر به زبان انگلیسی است و دیگری روشی برای پیدا کردن ترجمه لغات در زبانهای مختلف. # Wordnet [وردنت] یک بانک اطلاعاتی واژگان زبان انگلیسی است که در دانشگاه پرینستون آمریکا ساخته شده است. اسامی و افعال و صفات و قیدها در گروه‌هایی بنام synsets دسته‌بندی شده‌اند. هر گروه معرف یک معنی خاص و یکتاست. synsetها به بر اساس شباهت‌های معنایی و لغوی به یکدیگر وصل شده‌اند و یک شبکه معنی بزرگ تشکل می‌دهند. وردنت را می‌توان دانلود کرد یا در [اینترنت] استفاده کرد. اگر در نتایج روی حرف S کلیک کنید لغات مرتبط نمایش داده می‌شوند. روش معنامحوری که وردنت بکاربرده الگویی است برای دسته‌بندی لغات در سایر زبانها. از طرفی بانک داده‌ی وردنت طوری طراحی شده که توسط ماشین قابل پردازش باشد. من برای استفاده از وردنت روی اندروید از [Aard 2] استفاده می‌کنم. # ‌BabelNet یک پروژه‌ی آزاد از دانشگاه ساپینزای ایتالیاست (پروژه‌های اروپایی که با پول مالیات ایجاد می‌شوند طبق قانون باید منتشر شوند و در اختیار همه قرار بگیرند). در [BabelNet] هم مثل وردنت یک شبکه از معانی بین لغات ایجاد شده است. تفاوت آن با وردنت در پوشش بیش از صد زبان مختلف است. Babel synsets بیش از ۱۵ میلیون مدخل دارد. علت بزرگی BabelNet اینست که داده‌های منابع آزاد مختلفی به آن خورانده شده است، از جمله ویکی‌پدیا به زبانهای مختلف. # جمع‌بندی وضعیت ترجمه آزاد به زبان فارسی جالب نیست. هر از گاهی پروژه‌ای دانشگاهی انجام شده و رها شده و سازندگان هر یک در گوشه‌ای از جهان پراکنده شده‌اند. داده‌های آزادی که برای توسعه لغت‌نامه‌ها و ابزارهای ترجمه بتوان بکار برد به جز ویکی‌پدیا در دسترسی نیست. سایر زبانهای ایرانی هم وضع به مراتب بدتری دارند و جز ویکی‌پدیا داده‌ای که ماشین بتواند پردازش کند وجود ندارد. علت نوشتن این متن کوتاه هم اشاره به همین کمبود بود. می‌خواستم یک دیکشنری اندروید بنویسم که فهمیدم مشکل در نبود برنامه نیست بلکه داده‌ای وجود ندارد که بتوان بر اساس آن کار با ارزشی ایجاد کرد. اگر با پروژه‌ی دیگری آشنا هستید لطفا کامنت بنویسید تا آنها را جمع‌آوری کنیم شاید بتوان وضع را بهتر کرد. [^1]: [ترکی‌آذربایجانی] زبان مادری‌ام یا حداقل زبان مادر و پدرم است. ذهن ما انباشته از مفاهیم و لغات و تجربه‌هایی است که با زبان‌هایی که با آنها رشد و پرورش یافته‌ایم در هم تنیده‌اند. در مقاله‌ی دیگری تجربه و مشکلات شخصی‌ام را به عنوان یک انسان چندزبانه خواهم نوشت. [GoldenDict]: http://goldendict.org/ [ویکی‌کوئری]:‌https://query.wikidata.org/ [بنیاد ویکی‌مدیا]:‌https://www.wikimedia.org/ [ترکی آذربایجانی]: https://azb.wikipedia.org/wiki/%D8%A2%D9%86%D8%A7_%D8%B5%D9%81%D8%AD%D9%87 [DeepL]:‌https://www.deepl.com/ [وردنت]:‌https://wordnet.princeton.edu [اینترنت]: http://wordnetweb.princeton.edu/perl/webwn [BabelNet]: http://live.babelnet.org/about [Aard 2]: http://aarddict.org/