در جست‌وجوی ماشین حافظه‌خوان

نویسنده / نویسندگان :  دیوید پوگ
مترجم :  بهرام مدنی - محسن رجبی
کلید واژه :  حافظه‌خوان ـ مگاپیکسل ـ موفقیت آمیز ـ محیط ویندوز ـ سامسونگ ـ لپ تاپ ـ پردازشگر
چکیده :  ساخت ابزارهای شناسایی با تشخیص صد در صد درست همچنان چیزی بیش از یک رویا نیست.
منابع :  ساینتیفیک آمریکن


ابزار وبلاگ‌ها ممکن است زمانی قادر به فرارفتن از مگاپیکسل و یا فرار از محدودیت‌های سرعت پردازشگر باشند، اما می‌دانید چه چیزی واقعا عده زیادی را شگفت زده می‌کند؟ ابزاری که به ندرت با نام کاملش شناخته می‌شود: دستگاه بازشناسی صداها و مناظر عینی جهان.

  داستان‌های موفقیت‌آمیز در این خصوص به صورت دستاوردهایی در محاسبات و نرم‌افزار ارائه می‌شود. تبدیل گفتار به نوشتار در لپ‌تاپ‌ها و رایانه‌های خانگی به نحو شگفت‌انگیزی دقیق است. عملکرد صفحات لمسی معمولا قابل اعتماد است و در ابتدا تنها تعداد محدودی حرکت وجود دارد که برای بازشناسی باید تنظیم شوند. کینکت ایکس ‌باکس و بعضی از تلویزیون‌های سامسونگ مجهز به قابلیت بازشناسی حرکات بدن هستند. شناسایی متن دست نوشته در ویندوز 7 و 8 یک گوهر پنهان است، که هم می‌توانید نسخه کاغذی را برای بازشناسی به ویندوز بدهید و هم می‌توانید مستقیما با قلم‌های خاص در محیط ویندوز بنویسید.


برنامه‌های تلفن همراه از قبیل Shazam و SoundHound می‌توانند آهنگ‌ها را که در پیش زمینه اجرا می‌شوند، بازشناسی کنند و نام آهنگ، خواننده، نوازنده و آلبوم را تشخیص دهند. یکی از برنامه‌های گوگل برای گوشی‌های اندروئید و آی‌فون به نام گوگلز، قابلیت بازشناسی تصویری را فراهم کرده است: این برنامه عکسی از جلد یک کتاب، دی‌وی‌دی، نقاشی یا برچسب سایر محصولات را از طریق دوربین تلفن می‌گیرد و بلافاصله نتایج به‌دست‌آمده در موتور جست‌وجوی گوگل را به شما نشان می‌دهد.


این نرم‌افزار، همچنین قادر به بازشناسی چهره در فایل‌های ویدئویی است و از طریق الگوریتم حفاظت از حقوق تولیدکننده، ویدئوهای ارسالی بررسی می‌شوند تا کسی ویدئویی را که متعلق به شرکت یا فرد دیگری است در آن بارگذاری نکند.
همه اینها فوق‌العاده است. هنگامی‌که این ابزارها کار بازشناسی صدا، تصویر و حرکت را به خوبی انجام می‌دهند، واقعا جادویی به نظر می‌رسند. اما متاسفانه، فروشندگان نیز از این جادو باخبرند و ما را با هزاران ابزار بازشناسی رایانه‌ای دیگر که هیچ‌کدام چندان کارا و کاربردی نیستند، وسوسه می‌کنند.


برای ده‌ها سال، من (نویسنده مقاله) بارها قربانی چیزی شده‌ام که تنها می‌توان به آن عنوان سندرم ناامیدی از بازشناسی ضعیف (RFHS) داد. وسیله‌ای را به خاطر اینکه گفته می‌شود دستورات انسانی را به خوبی تشخیص می‌دهد، می‌خرید، اما خیلی زود متوجه می‌شوید که به اندازه هزینه‌ای که دربرداشته، کارایی ندارد.


کلپر را به یاد می‌آورید؟ زمانی که نوجوان بودم، یکی خریدم. گاهی اوقات شما با دو ضربه، چراغ را روشن می‌کردید، و گاهی تلاش بیشتری لازم بود. همچنین زمانی یک چراغ سوتی خریدم که قرار بود با سوت زدن روشن شود، سوتی که محکم و بلند باشد. خب، صدای سوت، چراغ را روشن می‌کرد، اما همچنین صدای کتری، و جیرجیر چرخ‌های همستر و چند عطسه بلند نیز این کار را می‌کرد.


قابل پیش‌بینی است که من با آمدن "نیوتن"، نرم‌افزار بازشناسی دست خط نیز وسوسه شدم؛ 700 دلار پرداختم و نرم‌افزاری نصیبم شد که شاید از هر پنج بار، دوبار تشخیصش درست بود.


به تازگی، سامسونگ نوید داده است که گوشی گلکسی اس4‌اش می‌تواند یک سخنرانی را به سبک فیلم‌های استار ترک، به زبانی دیگر ترجمه کند. سوال اینجاست که اگر ناگهان یک سخنران فرانسـوی جملـه‌ای معمولـی، ماننـد “?Où sont les toilettes”  بگوید، تلفن همراه ترجمه این جمله که می‌شود "سرویس‌های بهداشتی کجاست؟" را برای همه از طریق بلندگو پخش می‌کند؟ 


در حقیقت سامسونگ یک فناوری ناقص بازشناسی را به دیگر فناوری‌های موجود اضافه کرده است. مترجم‌های سری اس حتی نمی‌توانند لحن گوینده خارجی را تشخیص دهند، و اجازه بدهید دیگر چیزی راجع به اینکه چقدر ترجمه‌شان فصیح است، صحبتی نکنیم. (من فکر می‌کنم خود سامسونگ هم این را می‌داند. اگر مترجم سری اس خوب کار می‌کرد، در سرتیتر تبلیغات می‌بود، نه فقط به عنوان یک قابلیت.)


چند بار دیگر باید امیدمان به محصولات جدید از بین برود، تا اینکه از تمام این ویژگی‌ها و ابزارها چشم‌پوشی کنیم؟ چند محصول را پس خواهیم داد، قبل از اینکه کارخانه‌هایشان فناوری‌های به کار رفته را ارتقا دهند، تا مدل بعدیِ اندکی بهتر شده را با قابلیت‌های "جادویی"شان ارائه دهند؟


من هم موافقم که ساخت نرم‌افزارهای بازشناسی، خیلی آسان نیست. این نرم‌افزارها، مسئله‌ای تازه با جوابی واضح، و دارای ساختاری ساده مانند نرم‌افزارهای صفحه‌گسترده نیستند. این ابزارها باید توانایی پردازش داده‌هایی گنگ، مبهم و تغییرپذیر را داشته باشند: صداها، عکس‌ها، حرکات، یا دست‌خط‌هایی ناخوانا. به این علت بازشناسی، صد در صد کامل و یکپارچه نیست. تعجبی هم ندارد که اغلب اوقات ما را ناامید می‌کنند.


شاید چند دهه بعد حسگرهای بهتر، پردازش سریع‌تر، پایگاه داده‌هایی بزرگ‌تر و آزمایش‌هایی وسیع‌تر، پس از ناامیدی‌های بسیار در نهایت برای ما آرامش و راحتی استفاده از این ابزارها را به همراه بیاورند.


در این مدت، گویا باید هم شرکت‌های الکترونیکی و هم مشتریانشان خودشان را بهتر بشناسند: وسایل بازشناسی در دنیای ما وجود دارند اما هنوز به پیشرفت‌های زیادی نیاز است.


منبع مجله دانشمند آذر 1393 شماره 614

نظرات 0 + ارسال نظر
امکان ثبت نظر جدید برای این مطلب وجود ندارد.