نویسنده / نویسندگان : | دیوید پوگ |
مترجم : | بهرام مدنی - محسن رجبی |
کلید واژه : | حافظهخوان ـ مگاپیکسل ـ موفقیت آمیز ـ محیط ویندوز ـ سامسونگ ـ لپ تاپ ـ پردازشگر |
چکیده : | ساخت ابزارهای شناسایی با تشخیص صد در صد درست همچنان چیزی بیش از یک رویا نیست. |
منابع : | ساینتیفیک آمریکن |
ابزار وبلاگها ممکن است زمانی قادر به فرارفتن از مگاپیکسل و یا فرار از محدودیتهای سرعت پردازشگر باشند، اما میدانید چه چیزی واقعا عده زیادی را شگفت زده میکند؟ ابزاری که به ندرت با نام کاملش شناخته میشود: دستگاه بازشناسی صداها و مناظر عینی جهان.
داستانهای موفقیتآمیز در این خصوص به صورت دستاوردهایی در محاسبات و نرمافزار ارائه میشود. تبدیل گفتار به نوشتار در لپتاپها و رایانههای خانگی به نحو شگفتانگیزی دقیق است. عملکرد صفحات لمسی معمولا قابل اعتماد است و در ابتدا تنها تعداد محدودی حرکت وجود دارد که برای بازشناسی باید تنظیم شوند. کینکت ایکس باکس و بعضی از تلویزیونهای سامسونگ مجهز به قابلیت بازشناسی حرکات بدن هستند. شناسایی متن دست نوشته در ویندوز 7 و 8 یک گوهر پنهان است، که هم میتوانید نسخه کاغذی را برای بازشناسی به ویندوز بدهید و هم میتوانید مستقیما با قلمهای خاص در محیط ویندوز بنویسید.
برنامههای تلفن همراه از قبیل Shazam و SoundHound میتوانند آهنگها را که در پیش زمینه اجرا میشوند، بازشناسی کنند و نام آهنگ، خواننده، نوازنده و آلبوم را تشخیص دهند. یکی از برنامههای گوگل برای گوشیهای اندروئید و آیفون به نام گوگلز، قابلیت بازشناسی تصویری را فراهم کرده است: این برنامه عکسی از جلد یک کتاب، دیویدی، نقاشی یا برچسب سایر محصولات را از طریق دوربین تلفن میگیرد و بلافاصله نتایج بهدستآمده در موتور جستوجوی گوگل را به شما نشان میدهد.
این نرمافزار، همچنین قادر به بازشناسی چهره در فایلهای ویدئویی است و از
طریق الگوریتم حفاظت از حقوق تولیدکننده، ویدئوهای ارسالی بررسی میشوند
تا کسی ویدئویی را که متعلق به شرکت یا فرد دیگری است در آن بارگذاری نکند.
همه اینها فوقالعاده است. هنگامیکه این ابزارها کار بازشناسی صدا، تصویر و
حرکت را به خوبی انجام میدهند، واقعا جادویی به نظر میرسند. اما
متاسفانه، فروشندگان نیز از این جادو باخبرند و ما را با هزاران ابزار
بازشناسی رایانهای دیگر که هیچکدام چندان کارا و کاربردی نیستند، وسوسه
میکنند.
برای دهها سال، من (نویسنده مقاله) بارها قربانی چیزی شدهام که تنها میتوان به آن عنوان سندرم ناامیدی از بازشناسی ضعیف (RFHS) داد. وسیلهای را به خاطر اینکه گفته میشود دستورات انسانی را به خوبی تشخیص میدهد، میخرید، اما خیلی زود متوجه میشوید که به اندازه هزینهای که دربرداشته، کارایی ندارد.
کلپر را به یاد میآورید؟ زمانی که نوجوان بودم، یکی خریدم. گاهی اوقات شما با دو ضربه، چراغ را روشن میکردید، و گاهی تلاش بیشتری لازم بود. همچنین زمانی یک چراغ سوتی خریدم که قرار بود با سوت زدن روشن شود، سوتی که محکم و بلند باشد. خب، صدای سوت، چراغ را روشن میکرد، اما همچنین صدای کتری، و جیرجیر چرخهای همستر و چند عطسه بلند نیز این کار را میکرد.
قابل پیشبینی است که من با آمدن "نیوتن"، نرمافزار بازشناسی دست خط نیز وسوسه شدم؛ 700 دلار پرداختم و نرمافزاری نصیبم شد که شاید از هر پنج بار، دوبار تشخیصش درست بود.
به تازگی، سامسونگ نوید داده است که گوشی گلکسی اس4اش میتواند یک سخنرانی را به سبک فیلمهای استار ترک، به زبانی دیگر ترجمه کند. سوال اینجاست که اگر ناگهان یک سخنران فرانسـوی جملـهای معمولـی، ماننـد “?Où sont les toilettes” بگوید، تلفن همراه ترجمه این جمله که میشود "سرویسهای بهداشتی کجاست؟" را برای همه از طریق بلندگو پخش میکند؟
در حقیقت سامسونگ یک فناوری ناقص بازشناسی را به دیگر فناوریهای موجود اضافه کرده است. مترجمهای سری اس حتی نمیتوانند لحن گوینده خارجی را تشخیص دهند، و اجازه بدهید دیگر چیزی راجع به اینکه چقدر ترجمهشان فصیح است، صحبتی نکنیم. (من فکر میکنم خود سامسونگ هم این را میداند. اگر مترجم سری اس خوب کار میکرد، در سرتیتر تبلیغات میبود، نه فقط به عنوان یک قابلیت.)
چند بار دیگر باید امیدمان به محصولات جدید از بین برود، تا اینکه از تمام این ویژگیها و ابزارها چشمپوشی کنیم؟ چند محصول را پس خواهیم داد، قبل از اینکه کارخانههایشان فناوریهای به کار رفته را ارتقا دهند، تا مدل بعدیِ اندکی بهتر شده را با قابلیتهای "جادویی"شان ارائه دهند؟
من هم موافقم که ساخت نرمافزارهای بازشناسی، خیلی آسان نیست. این نرمافزارها، مسئلهای تازه با جوابی واضح، و دارای ساختاری ساده مانند نرمافزارهای صفحهگسترده نیستند. این ابزارها باید توانایی پردازش دادههایی گنگ، مبهم و تغییرپذیر را داشته باشند: صداها، عکسها، حرکات، یا دستخطهایی ناخوانا. به این علت بازشناسی، صد در صد کامل و یکپارچه نیست. تعجبی هم ندارد که اغلب اوقات ما را ناامید میکنند.
شاید چند دهه بعد حسگرهای بهتر، پردازش سریعتر، پایگاه دادههایی بزرگتر و آزمایشهایی وسیعتر، پس از ناامیدیهای بسیار در نهایت برای ما آرامش و راحتی استفاده از این ابزارها را به همراه بیاورند.
در این مدت، گویا باید هم شرکتهای الکترونیکی و هم مشتریانشان خودشان را بهتر بشناسند: وسایل بازشناسی در دنیای ما وجود دارند اما هنوز به پیشرفتهای زیادی نیاز است.
منبع مجله دانشمند آذر 1393 شماره 614