حریم خصوصی بیگ دیتا برای ماشین لرنینگ ارزان تر شد
دانشمندان کامپیوتر دانشگاه رایس راهی ارزان برای شرکتهای فناوری کشف کردهاند که میتوانند شکل دقیقی از حریم خصوصی دادههای شخصی را هنگام استفاده یا اشتراکگذاری پایگاههای داده بزرگ برای یادگیری ماشینی یا ماشین لرنینگ پیادهسازی کنند.
Anshumali Shrivastava، دانشجو علوم کامپیوتر گفت: « موارد زیادی وجود دارد که ماشین لرنینگ می تواند برای جامعه مفید باشد، اگر بتوان از حریم خصوصی داده ها اطمینان حاصل کرد. پتانسیل بسیار زیادی برای بهبود درمانهای پزشکی یا یافتن الگوهای تبعیض وجود دارد، به عنوان مثال، اگر بتوانیم سیستمهای یادگیری ماشینی را برای جستجوی الگوها در پایگاههای داده بزرگ سوابق پزشکی یا مالی آموزش دهیم یک پیشرفت بزرگی خواهیم کرد. "
بن کولمن، دانشجوی فارغ التحصیل شده شریواستاوا و آقای رایس امیدوارند با روش جدیدی که این هفته در CCS 2021، کنفرانس سالانه انجمن ماشینهای محاسباتی در زمینه امنیت رایانه و ارتباطات ارائه میکنند، تحولی بزرگ را ایجاد کنند.
شیرواستاوا و کلمن با استفاده از تکنیکی به نام هش کردن ، دریافتند که می توانند خلاصه کوچکی از یک پایگاه داده عظیم از رکوردهای حساس ایجاد کنند. روش آنها که RACE نام دارد، نام خود را از این خلاصهها یا طرحهای «آرایههای تکراری تخمینگرهای شمارش» میگیرد.
کلمن گفت که طرحهای RACE هم برای در دسترس قرار دادن عمومی بیخطر هستند و هم برای الگوریتمهایی که از مجموع هستهها، یکی از بلوکهای اساسی سازنده یادگیری ماشین استفاده میکنند، و هم برای برنامههای یادگیری ماشینی که وظایف رایجی مانند طبقهبندی، رتبهبندی و تحلیل رگرسیون را انجام میدهند، مفید هستند. او گفت RACE میتواند به شرکتها این امکان را بدهد که هم از مزایای یادگیری ماشینی در مقیاس بزرگ بهره ببرند و هم از شکل دقیق حریم خصوصی دادهها به نام حریم خصوصی متفاوت حمایت کنند.
حریم خصوصی دیفرانسیل، که توسط بیش از یک غول فناوری استفاده می شود، مبتنی بر ایده اضافه کردن نویز تصادفی برای مبهم کردن اطلاعات فردی است.
کولمن گفت: «تکنیکهای ظریف و قدرتمندی برای برآورده کردن استانداردهای حریم خصوصی متمایز امروزی وجود دارد، اما هیچکدام از آنها در مقیاس نیستند. "سربار محاسباتی و نیازهای حافظه به طور تصاعدی با ابعاد بیشتر داده ها افزایش می یابد."
دادهها به طور فزایندهای ابعاد بالایی دارند، به این معنی که هم مشاهدات و هم ویژگیهای فردی زیادی در مورد هر مشاهده دارند.
او گفت که مقیاس های طراحی RACE برای داده های با ابعاد بالا . طرح ها کوچک هستند و نیازهای محاسباتی و حافظه برای ساخت آنها نیز به راحتی قابل توزیع است.
شریواستاوا گفت: «امروزه مهندسان اگر بخواهند از مبالغ هسته استفاده کنند، باید بودجه یا حریم خصوصی کاربران خود را قربانی کنند. "RACE اقتصاد انتشار اطلاعات با ابعاد بالا را با حریم خصوصی متفاوت تغییر می دهد . اجرای آن ساده، سریع و 100 برابر کمتر از روش های موجود است."
این جدیدترین نوآوری شریواستا و شاگردانش است که استراتژیهای الگوریتمی متعددی را برای سریعتر و مقیاسپذیر کردن یادگیری ماشین و علم داده توسعه دادهاند. آنها و همکارانشان: راه کارآمدتری برای شرکتهای رسانههای اجتماعی برای جلوگیری از انتشار اطلاعات نادرست آنلاین، کشف کردند که چگونه سیستمهای یادگیری عمیق در مقیاس بزرگ را تا ۱۰ برابر سریعتر برای مشکلات «طبقهبندی شدید» آموزش دهند، و راهی برای دقیقتر شدن و تخمین کارآمد تعداد قربانیان شناسایی شده کشته شده در جنگ داخلی سوریه، نشان داد که آموزش شبکه های عصبی عمیق امکان پذیر است .در CPUهای عمومی (واحدهای پردازش مرکزی) 15 برابر سریعتر از GPUها (واحدهای پردازش گرافیکی) و زمان مورد نیاز برای جستجو در پایگاه داده های بزرگ متاژنومیک را کاهش داد .