یونی‌کد چیست و اهمیت آن در کجاست؟

هدف ما در گوگل این است که اطلاعات عالم را نظم و ترتیب داده و به شکل مفیدی در دسترس همگان قرار دهیم. هنگامی که خدمات جدید گوگل در دسترس عموم قرار می‌گیرند، اکثرشان از حداقل ۴۰ زبان پشتیبانی می‌کنند، و هر چه می‌گذرد زبان‌های بیشتر و بیشتری نیز اضافه می‌شود.

زبان‌های جهان به خط‌های مختلفی نوشته می‌شوند. مثلاً انگلیسی به خط لاتینی نوشته می‌شود، و فارسی به خط عربی (البته به این خط در ایران و بعضی کشورهای دیگر «خط فارسی» می‌گویند و در مجامع دانشگاهی جهان، «خط فارسی‐عربی»). در گوشه و کنار جهان از ده‌ها خط مختلف برای نوشتن زبان‌های زندهٔ امروز استفاده می‌شود، و ده‌ها خط باستانی دیگر نیز هستند که بیشتر جنبهٔ تاریخی‌شان اهمیت دارد. مثلاً خط‌های دوناگری، گورومخی، و گجراتی از جمله خط‌هایی هستند که در هند به آنها می‌نویسند، و خط‌های میخی و پارتی کتیبه‌ای از خط‌های باستانی هستند.

اگر در دههٔ ۷۰ شمسی از کامپیوتر استفاده می‌کردید، یادتان می‌آید که آن روزها کامپیوترها معمولاً فقط می‌توانستند در هر لحظه از یک یا دو زبان پشتیبانی کنند. اما این روزها دستگاه‌های کامپیوتری هیچ مشکلی ندارند که به چندین زبان سخن بگویند و همزمان به چند خط مختلف بنویسند و بخوانند. این کار ممکن نمی‌بود، مگر به خاطر استانداردی صنعتی به نام استاندارد یونی‌کد. برای اطلاعات بیشتر دربارهٔ استاندارد یونی‌کد می‌توانید به صفحهٔ «یونی‌کد چیست؟» (به فارسی یا انگلیسی) مراجعه کنید. اگر متوجه تفاوت ظریف بین «می‌روم» و «می روم» شده باشید، و از خود پرسیده باشید چرا در وب به شکل دومی بیشتر بر می‌خوریم (یا حتی به شکل‌ «میروم» یا از آن هم بدتر، «مي روم») این مجموعه نوشته‌ها را بخوانید. ما در گوگل اطلاعات عالم را نظم و ترتیب می‌دهیم و اگر این اطلاعات تمیز و نظیف باشد، راحت‌تر می‌شود منظم و مرتب‌شان کرد. در این مجموعه نوشته‌ها، می‌خواهیم شما را با روش‌هایی آشنا کنیم که می‌توانید به کمک‌شان از وب فارسی زیباتر استفاده کنید، و مطالبی را که در وب می‌نویسید بی‌نقص بنویسید. (خواه به شکل بلاگ باشد، یا وب‌گاه، یا اصلاً یادداشت‌های Google+‎!) البته لااقل از نظر یونی‌کدی.

یونی‌کد به ما تعداد زیادی «نویسه» (یا character) می‌دهد. در یونی‌کد، نویسه به این شکل تعریف می‌شود: «کوچک‌ترین جزء زبان نوشتاری که ارزش معنایی دارد؛ نویسه به معنی و/یا شکل انتزاعی اطلاق می‌شود، نه به اَشکال مشخص». مجموعهٔ کامل نویسه‌های یونی‌کد را می‌توانید در اینجا ببینید، و متن کامل این استاندارد را می‌توانید از اینجا بگیرید (استاندارد یونی‌کد، نسخهٔ 6.0.0، پروندهٔ PDF زیپ‌شده، ۸ مگابایت).

مثلاً، حرف «ب» یک نویسه است، و یونی‌کد آن را در نشانی U+0628 و با نام ARABIC LETTER BEH به رسمیت شناخته و کدگذاری کرده است. با این حساب، کد U+0628 کد مشخصهٔ حرف «ب» است، مستقل از این که برای چه زبانی استفاده شود.

حواستان باشد که نویسه را با «شکل» (یا glyph) اشتباه نگیرید. «شکل»، صورت مشخصی است که نویسه‌ها در حالت‌های مختلف ممکن است به خود بگیرند. در نمایش اطلاعات با نویسه‌های یونی‌کدی، برای هر نویسهٔ مشخص ممکن است از یک یا چند شکل مختلف استفاده شود. مثلاً، حرف «غ» در حروف چاپی چهار شکل مختلف به خود می‌گیرد: ۱) اول: «غـ»، ۲) وسط: «ـغـ»، ۳) آخر: «ـغ»، و ۴) تنها: «غ». یونی‌کد سعی می‌کند مفاهیم را کدگذاری کند، نه شکل‌ها را.

ممکن است متوجه شده باشید که فقط زبان‌های فارسی و عربی نیستند که به خط عربی نوشته می‌شوند. زبانهای فراوانی وجود دارند که خط عربی را برای نیازهای خود گسترش داده و از آن استفاده می‌کنند. در نتیجه، در بلوک‌های عربی یونی‌کد، صدها حرف مختلف وجود دارد. حرف‌هایی که ممکن است به چشم فارسی‌زبانان یا عربی‌زبانان عجیب بیاید، مثل نویسهٔ U+069B با نام ARABIC LETTER SEEN WITH THREE DOTS BELOW، که حرف «س» است با سه تا نقطه زیرش. (خوانندگانی که با تاریخ خط فارسی آشنایی دارند ممکن است بدانند که این حرف در بعضی از متون قدیمی‌تر فارسی وجود دارد).

از ویژگی‌های این تعدد نویسه‌ها این است که بعضی نویسه‌ها در بعضی حالت‌ها عین یکدیگر به نظر می‌رسند ولی در حالت‌های دیگر متفاوتند. برای مثال، می‌شود از «ی فارسی» در مقابل «ي عربی» نام برد؛ البته مثال‌های ظریف‌تر و مشکل‌تری نیز وجود دارند. در نوشته‌های بعدی این مجموعه دربارهٔ این نویسه‌های گیج‌کننده خواهیم نوشت. اما تا آن وقت، تکلیف شب شما این که جدول نویسه‌های بلوک اصلی خط عربی یونی‌کد را بررسی کنید (پروندهٔ PDF،‏ ۱۸۰ کیلوبایت). دربارهٔ چیزهای جالبی که پیدا کردید برای ما بنویسید.

اگر سردرگم شده‌اید، دو راهنمای بسیار عالی هست که به شما می‌گوید برای زبان فارسی ایران و زبان‌های فارسی دری و پشتوی افغانستان از چه نویسه‌هایی باید استفاده کرد.

برای ایران، مرجع رسمی این مسائل استاندارد ملی ایران ۶۲۱۹ است که پروژهٔ فارسی‌وب به زبان فارسی در سال ۱۳۸۱ برای سازمان ملی استاندارد ایران تهیه کرده است. نسخهٔ PDF این استاندارد را می‌توانید از وب‌گاه فارسی‌وب بگیرید. وب‌گاه سازمان ملی استاندارد ایران فقط نسخهٔ HTML استانداردهایش را در دسترس عموم قرار داده است، و متأسفانه در روند تبدیل پروندهٔ PDFی که پروژهٔ فارسی‌وب تهیه کرده بوده است به HTML، سازمان ملی استاندارد ایران همان اشتباه‌هایی را مرتکب شده است که در استاندارد ۶۲۱۹ توصیه شده است از آنها اجتناب شود. از نسخهٔ HTML این استاندارد پرهیز کنید.

برای افغانستان، مرجع رسمی، سند «Computer Locale Requirements for Afghanistan» است (به زبان انگلیسی) که در سال ۱۳۸۲ شمسی به سفارش برنامهٔ توسعهٔ سازمان ملل متحد تهیه شده است. نسخهٔ PDF این گزارش را می‌توانید از وب‌گاه اِوِرتایپ بگیرید.

در دو نوشتهٔ بعدی این مجموعه نوشته‌ها، دو سند بالا را بررسی خواهیم کرد. اما در این فاصله، تکلیف شب دوم شما این باشد که نگاهی به آنها بیاندازید و ببینید چه یاد می‌گیرید. چه چیزهای جالبی پیدا کردید؟ چه چیزهایی خیلی برایتان عجیب بود؟ برای ما بنویسید. کتاب‌های درسی شما در این دوره، این دو سند، به اضافهٔ جدول نویسه‌های عربی یونی‌کد که بالاتر درباره‌اش صحبت کردیم و کتاب استاندارد یونی‌کد است.

ما برنامهٔ مفصلی برای نوشته‌های آیندهٔ این مجموعه داریم، ولی شما هم اگر می‌خواهید در زمینهٔ مشخصی بنویسیم، برای ما نامهٔ الکترونیکی بنویسید و ما تلاش‌مان را خواهیم کرد که دست خالی برنگردید!

پست شده توسط بهداد اسفهبد، مهندس نرم‌افزار، تیم زبان فارسی
(Behdad Esfahbod, Software Engineer, Persian Initiative Team)

نسخهٔ جدید Reader: یک شکل تازه و اشتراک‌گذاری Google+


امروز، طراحی جدید Google Reader و امکانات جدید Google+‎ که هفتهٔ گذشته اعلام کرده بودیم، فعال خواهد شد. تا پایان امروز، همهٔ کاربران Reader می‌توانند از امکانات جدید زیر استفاده کنند:
  • شکل و قیافهٔ جدید Reader، که تمیزتر، سریعتر، و زیباتر است.


  • امکان «‎+۱»کردن (جایگزین «Like») پست‌ها، با گزینه‌ای برای به اشتراک گذاشتنشان با حلقه‌هایتان در Google+‎ (جایگزین «Share» و «Share with Note»).



ترکیب شدن با Google+‎ باعث می‌شود بتوانیم Reader را کلا روان‌تر کنیم. بنابراین از امروز امکانات دوست شدن، دنبال کردن، موارد به‌اشتراک‌گذاشته‌شده، و یادداشت گذاشتن را خاموش می‌کنیم، چرا که Google+‎ این امکانات را بهتر دارد.

امیدواریم نسخهٔ جدید Reader (و Google+‎) را همان قدر که ما دوست داریم، دوست داشته باشید. در عین حال درک می‌کنیم که بعضی از شما این نسخهٔ جدید را دوست نداشته باشید. بازنشسته کردن امکانات به‌اشتراک‌گذاری Reader اصلا تصمیم آسانی نبود، اما در نهایت کمک خواهد کرد تا ما در Google بر موضوعات محدودتری تمرکز کنیم و در نتیجه در سراسر Google بتوانیم خدمات بهتری به شما عرضه کنیم.

اگر تصمیم گرفتید با ما بمانید، نظرتان را دربارهٔ امکانات جدیدی که امروز اضافه می‌شوند برای ما بفرستید. هر چه باشد Google+‎ هنوز قدم‌های اولش را برمی‌دارد و ما دائما داریم برای بهتر کردنش تلاش می‌کنیم. اما اگر تصمیم گرفتید که دیگر نمی‌خواهید از Reader استفاده کنید، لطفا از امکان صدور اشتراکات Reader بهره بگیرید. برای ما بسیار مهم است که هر جا که بروید، بتوانید داده‌هایتان را هم با خود ببرید.

تغییرات Google Reader روی وب به‌تدریج فعال خواهد شد و باید تا پایان امروز به دست همهٔ کاربران برسد. برنامهٔ جدید Reader برای Android نیز به زودی منتشر خواهد شد. اگر سؤالی درباره اعلامیه امروز دارید، لطفاً به مرکز راهنماهای ما مراجعه کنید.

یادداشت ویراستار:
ما باخبر هستیم که برخی کاربران ایرانی به دلیل قوانین خاص نامگذاری نمایه‌های Google+‎ نگرانی‌هایی را درباره ترکیب‌شدن Reader با Google+‎ دارند. درحال حاضر ما درجهت توسعه راه‌‌حل‌هایی برای پشتیبانی اشکال دیگر هویت کاربری (فراتر از استفاده از نام‌ حقیقی و رایج) تلاش می‌کنیم ولی در زمان این پست اطلاع بیشتری در این زمینه اعلام نمی‌کنیم. ما بر این باوریم که پشتیبانی از نام‌های مستعار ویژگی ارزشمندی برای Google+‎ است و تیم Google+‎ برای تحقق آن تلاش می‌کند. در این میان، Google Reader همچنان به پشتیبانی امکان اشتراک خوراک‌ آر‌اس‌اس (RSS Feed) که به کار گروه زیادی از کاربران در ایران می‌آید ادامه می‌دهد.

پست شده توسط الن گرین، مهندس نرم‌افزار
(Posted by Alan Green, Software Engineer)