حریم خصوصی بیگ دیتا برای ماشین لرنینگ ارزان تر شد

حریم خصوصی بیگ دیتا برای ماشین لرنینگ ارزان تر شد

دانشمندان کامپیوتر دانشگاه رایس راهی ارزان برای شرکت‌های فناوری کشف کرده‌اند که می‌توانند شکل دقیقی از حریم خصوصی داده‌های شخصی را هنگام استفاده یا اشتراک‌گذاری پایگاه‌های داده بزرگ برای یادگیری ماشینی یا ماشین لرنینگ پیاده‌سازی کنند.

Anshumali Shrivastava، دانشجو علوم کامپیوتر گفت: « موارد زیادی وجود دارد که ماشین لرنینگ می تواند برای جامعه مفید باشد، اگر بتوان از حریم خصوصی داده ها اطمینان حاصل کرد. پتانسیل بسیار زیادی برای بهبود درمان‌های پزشکی یا یافتن الگوهای تبعیض وجود دارد، به عنوان مثال، اگر بتوانیم سیستم‌های یادگیری ماشینی را برای جستجوی الگوها در پایگاه‌های داده بزرگ سوابق پزشکی یا مالی آموزش دهیم یک پیشرفت بزرگی خواهیم کرد. "

بن کولمن، دانشجوی فارغ التحصیل شده شریواستاوا و آقای رایس امیدوارند با روش جدیدی که این هفته در CCS 2021، کنفرانس سالانه انجمن ماشین‌های محاسباتی در زمینه امنیت رایانه و ارتباطات ارائه می‌کنند، تحولی بزرگ را ایجاد کنند.

شیرواستاوا و کلمن با استفاده از تکنیکی به نام هش کردن ، دریافتند که می توانند خلاصه کوچکی از یک پایگاه داده عظیم از رکوردهای حساس ایجاد کنند. روش آنها که RACE نام دارد، نام خود را از این خلاصه‌ها یا طرح‌های «آرایه‌های تکراری تخمین‌گرهای شمارش» می‌گیرد.

کلمن گفت که طرح‌های RACE هم برای در دسترس قرار دادن عمومی بی‌خطر هستند و هم برای الگوریتم‌هایی که از مجموع هسته‌ها، یکی از بلوک‌های اساسی سازنده یادگیری ماشین استفاده می‌کنند، و هم برای برنامه‌های یادگیری ماشینی که وظایف رایجی مانند طبقه‌بندی، رتبه‌بندی و تحلیل رگرسیون را انجام می‌دهند، مفید هستند. او گفت RACE می‌تواند به شرکت‌ها این امکان را بدهد که هم از مزایای یادگیری ماشینی در مقیاس بزرگ بهره ببرند و هم از شکل دقیق حریم خصوصی داده‌ها به نام حریم خصوصی متفاوت حمایت کنند.

حریم خصوصی دیفرانسیل، که توسط بیش از یک غول فناوری استفاده می شود، مبتنی بر ایده اضافه کردن نویز تصادفی برای مبهم کردن اطلاعات فردی است.

کولمن گفت: «تکنیک‌های ظریف و قدرتمندی برای برآورده کردن استانداردهای حریم خصوصی متمایز امروزی وجود دارد، اما هیچ‌کدام از آن‌ها در مقیاس نیستند. "سربار محاسباتی و نیازهای حافظه به طور تصاعدی با ابعاد بیشتر داده ها افزایش می یابد."

داده‌ها به طور فزاینده‌ای ابعاد بالایی دارند، به این معنی که هم مشاهدات و هم ویژگی‌های فردی زیادی در مورد هر مشاهده دارند.

او گفت که مقیاس های طراحی RACE برای داده های با ابعاد بالا . طرح ها کوچک هستند و نیازهای محاسباتی و حافظه برای ساخت آنها نیز به راحتی قابل توزیع است.

شریواستاوا گفت: «امروزه مهندسان اگر بخواهند از مبالغ هسته استفاده کنند، باید بودجه یا حریم خصوصی کاربران خود را قربانی کنند. "RACE اقتصاد انتشار اطلاعات با ابعاد بالا را با حریم خصوصی متفاوت تغییر می دهد . اجرای آن ساده، سریع و 100 برابر کمتر از روش های موجود است."

این جدیدترین نوآوری شریواستا و شاگردانش است که استراتژی‌های الگوریتمی متعددی را برای سریع‌تر و مقیاس‌پذیر کردن یادگیری ماشین و علم داده توسعه داده‌اند. آنها و همکارانشان: راه کارآمدتری برای شرکت‌های رسانه‌های اجتماعی برای جلوگیری از انتشار اطلاعات نادرست آنلاین، کشف کردند که چگونه سیستم‌های یادگیری عمیق در مقیاس بزرگ را تا ۱۰ برابر سریع‌تر برای مشکلات «طبقه‌بندی شدید» آموزش دهند، و راهی برای دقیق‌تر شدن و تخمین کارآمد تعداد قربانیان شناسایی شده کشته شده در جنگ داخلی سوریه، نشان داد که آموزش شبکه های عصبی عمیق امکان پذیر است .در CPUهای عمومی (واحدهای پردازش مرکزی) 15 برابر سریعتر از GPUها (واحدهای پردازش گرافیکی) و زمان مورد نیاز برای جستجو در پایگاه داده های بزرگ متاژنومیک را کاهش داد .