خلاصه کردن مقاله های پژوهشی توسط هوش مصنوعی - پایگاه تحلیلی نوآوری و بازآفرینی

Semantic Scholar ، موتور جستجوی ادبیات علمی ، از پیشرفت های اخیر در پردازش زبان طبیعی برای ارائه مقالات علمی به محققان استفاده می کند.

یک مدل جدید هوش مصنوعی برای خلاصه ادبیات علمی اکنون می‌تواند به محققان کمک کند تا آخرین مقاله های پیشرفته ای را که می‌خواهند بخوانند، شناسایی کنند. Allen Institute for AI یا همان موسسه ی Al2، این مدل را بر روی محصول شاخص خود ، Semantic Scholar ، که موتور جستجوی مقاله علمی مجهز به هوش مصنوعی است ، عرضه کرد. هنگامی که کاربران از تابع جستجو استفاده می‌کنند یا به صفحه نویسنده می‌روند ، خلاصه ای تک جمله ای از مقاله تحت برچسبTL;DR (اختصار جمله: too long; didn’t read و به معنی: خیلی طولانی ؛ خوانده نشده) ارائه می‌شود که البته در حال حاضر فقط برای مقالات علوم کامپیوتر در دسترس است. همچنین این کار، طی همین هفته در کنفرانس تجربی روشهای پردازش زبان طبیعی پذیرفته شد.

تصویری از ویژگی TL;DR در Semantic Scholar

زمینه ها :

در عصر اضافه بار اطلاعات، استفاده از هوش مصنوعی برای جمع بندی متن یکی از مشکلات محبوب پردازش زبان طبیعی (NLP) بوده است. برای این کار دو رویکرد کلی وجود دارد؛ یکی از آنها “استخراجی” نامیده می شود ، که به دنبال یافتن جمله یا مجموعه ای از جملات متن به صورت کلمه به کلمه است و خلاصه آنها را به دست می آورد. دیگری “انتزاعی” نامیده می شود که شامل خلاصه سازی متن با تولید جملات جدید است. در حالی که قبلاً به دلیل محدودیتهای سیستمهای NLP ، تکنیکهای استخراج از محبوبیت بیشتری برخوردار بودند ، پیشرفتهای ایجاد شده در زبانهای طبیعی در سالهای اخیر موجب برتری یافتن شیوه تجرید شده است.

آنها چگونه این کار را انجام دادند :

مدل انتزاعی Al2 از ترانسفورماتور یا نوعی از معماری شبکه عصبی که برای اولین بار در سال 2017 اختراع شد و از آن زمان به بعد تمام جهش های مهم در NLP ، از جمله OpenAI GPT-3 را تأمین کرده است، استفاده میکند. محققان ابتدا ترانسفورماتور را بر روی یک مجموعه عمومی از متن آموزش دادند تا آشنایی اولیه آن با زبان انگلیسی را ایجاد کنند که این فرایند به عنوان “پیش از آموزش” شناخته می شود و ترانسفورماتورها را بسیار قدرتمند می کند. آنها سپس این مدل را دقیقاً تنظیم کردند؛ به عبارت دیگر ، آن را درباره وظیفه خاص خلاصه سازی بیشتر آموزش دادند.

داده های تنظیم دقیق:

برای این کار، محققان ابتدا مجموعه داده ای به نام SciTldr ایجاد کردند که تقریباً شامل 5400 مقاله علمی و خلاصه های تک جمله ای مربوط به آنهاست است. محققان برای یافتن این خلاصه های با کیفیت، ابتدا در Open Review، که پلتفرمی برای ارسال و داوری عمومی مقالات است و محققان اغلب خلاصه مقاله یک جمله ای خود را برای آنها ارسال می کنند، به جستجو پرداخته و 2000 مقاله فراهم کردند سپس مفسرانی استخدام کردند تا خلاصه مقالات بیشتری را با خواندن و چگالش بیشتر خلاصه هایی که قبلاً توسط منتقدان همکار نوشته شده بود ، جمع بندی کنند.محققان برای تکمیل حتی بیشتر این 5400 مقاله، مجموعه ی دومی از 20000 مقاله علمی و عناوین آنها را تهیه کردند. محققان به این نکته پی بردند که از آنجا که عناوین خود نوعی خلاصه نویسی هستند، بدین ترتیب به مدل کمک میکنند تا نتایج خود را بهبود ببخشد که این مسئله طی آزمایشات به تایید رسید.

جمع بندی نهایی:

در حالی که بسیاری از تلاش های تحقیقاتی دیگر وظیفه خلاصه کردن را بر عهده داشته اند، اما سطح فشرده سازی قابل دستیابی این تحقیق برجسته است بطوریکه مقالات علمی موجود در مجموعه داده های SciTldr به طور متوسط 5000 کلمه و خلاصه های یک جمله ای آنها به طور متوسط 21 کلمه اند این بدان معنی است که هر مقاله به طور متوسط تا 238 برابر اندازه خود فشرده میشود. بهترین روش انتزاعی بعدی برای فشرده سازی مقالات علمی به طور متوسط فقط 5/36 بار آموزش داده شده است. همچنین در طول آزمایش ، بازرسان انسانی خلاصه های مدل را بسیار آموزنده و دقیق تر از روش های قبلی ارزیابی کردند.

گام های بعدی:

طبق گفته های Daniel Weld ، استاد دانشگاه واشنگتن و مدیر گروه تحقیقاتی Semantic Scholar، در حال حاضر Al2 به چندین شیوه برای بهبود مدل خود در کوتاه مدت تلاش میکند. از یک سو، آنها قصد دارند این مدل را آموزش دهند تا مواردی فراتر از مقالات علوم کامپیوتر را دربرگیرد و از سوی دیگر، آنها دریافته اند شاید تا حدودی به دلیل روند آموزش، گاهی اوقات خلاصه مقاله های TL;DR بیش از حد با عنوان مقاله هم پوشانی دارند که این از سودمندی کلی آنها میکاهد بنابراین آنها قصد دارند فرآیند آموزش مدل را به روز کنند تا چنین هم پوشانی هایی را جریمه کند و بدین نحو به مرور یاد بگیرد تا از تکرار جلوگیری کند.

همچنین این تیم در بلند مدت ، روی خلاصه چندین سند در یک زمان کار خواهد کرد، که می تواند برای محققانی که وارد یک زمینه جدید میشوند و یا حتی برای سیاست گذارانی که میخواهند به سرعت به روز شوند ، مفید واقع شود.

Weldمیگوید: “آنچه ما واقعاً از انجام آن هیجان زده ایم ، ایجاد جلسات تحقیقاتی شخصی است ، كه در آن می توانیم نه تنها یك مقاله ، بلكه مجموعه ای از شش پیشرفت اخیر در یك زیرشاخه خاص را خلاصه كنیم.

مترجم: زهرا دبستانی – حوزه فناوری و نوآوری

منبع : www.technologyreview.com