خودکار متن کا خلاصہ – لنکن ، خودکار سمری کا تعارف – ڈیٹا بلاگ
ڈیٹا ، مصنوعی ذہانت ، اور میرے منصوبوں پر ایک بلاگ
خودکار سمری ایک لمبا متن ، یا یہاں تک کہ متن کا ایک مجموعہ لینا ہے ، اور خود بخود ایک چھوٹا سا متن تیار کرنا ہے جس میں زیادہ تر معلومات موجود ہیں۔. آسان ? اتنا بھی نہیں. سب سے پہلے ، آپ کو اتفاق کرنا ہوگا کہ کون سی معلومات واقعی اہم ہے. اس کے بعد ، ہمیں ان کو صحیح طریقے سے نکالنے ، ان کی تنظیم نو ، سب کو ایک گرائمیکل متن میں اور انسانی مداخلت کے بغیر لازمی طور پر نکالنے کے قابل ہونا چاہئے۔. اور یہ ممکنہ خلاصے کی بڑی تعداد میں مختلف قسم کی گنتی کے بغیر ہے !
خودکار متن کا خلاصہ
ساخت کے جمع کرنے اور اسٹوریج کے دھماکے کے ساتھ ، اس ماس سے متعلقہ معلومات کا تجزیہ اور نکالنے کی ضرورت زیادہ سے زیادہ موجود ہے.
اس کے علاوہ ، خودکار قدرتی زبان پروسیسنگ (TALN) کے لئے گہری سیکھنے کے ماڈلز میں بوم آپریشنل امور میں متنی اعداد و شمار کے استعمال میں سہولت فراہم کرتا ہے۔. خودکار متن کا خلاصہ ، اسی طرح جیسے جواب دینے والے سوال ، مماثلت کا تجزیہ ، دستاویز کی درجہ بندی اور ٹیلن سے منسلک دیگر کاموں میں ان مسائل کا حصہ ہے.
یہ اسی تناظر میں ہے لیب انوویشن ڈی لنکن نے خودکار متن کے خلاصے پر کام کرنے کا فیصلہ کیا ہے. ان کاموں نے زبان کے لئے دستیاب خودکار سمری ماڈلز کا ایک معیار قائم کرنا ممکن بنا دیا ہے فرانسیسی, ہمارے اپنے ماڈل کا سبب بنیں اور آخر کار اسے پیداوار میں رکھیں.
ماڈل کی تربیت
ڈیٹا
اس سے پہلے کہ ہم اپنا کام شروع کرسکیں ، ہمیں پہلے خودکار سمری ماڈل سیکھنے کے لئے ایک ڈیٹا بیس بنانا پڑا. ہم نے فرانسیسی نیوز سائٹوں سے پریس آئٹم برآمد کرلئے ہیں. اس اڈے میں ~ 60K مضامین شامل ہیں اور مستقل طور پر اپ ڈیٹ ہوتا ہے.
آرٹ کی حالت
خودکار سمری الگورتھم کو دو قسموں میں الگ کیا جاسکتا ہے: خلاصے نکالنے والا اور خلاصے خلاصہ. فریم میں نکالنے والا, خلاصے متن سے نکالے گئے جملوں سے بنائے گئے ہیں جبکہ خلاصہ خلاصہ نئے جملوں سے پیدا ہوتے ہیں.
انگریزی میں خودکار سمری ماڈل کافی عام ہیں ، لیکن وہ فرانسیسی زبان میں بہت کم ہیں.
میٹرکس
ماڈلز کی تشخیص کے لئے ہم نے مندرجہ ذیل میٹرکس کا استعمال کیا:
سرخ: بلاشبہ پیمائش اکثر خلاصہ کاموں میں کی گئی پیمائش ، یادداشت کی تشخیص (لن ، 2004) کے لئے یادداشت پر مبنی انڈرڈیڈی (لن ، 2004) تشخیص شدہ خلاصہ اور ہیومن ریفرنس سمری کے مابین اسی طرح کے این گراموں کی تعداد کا حساب لگاتی ہے۔.
الکا: واضح ترتیب کے ساتھ ترجمہ کی تشخیص کے لئے میٹرک (بنرجی اور لاوی ، 2005) خودکار ترجمے کے نتائج کی تشخیص کے لئے ڈیزائن کیا گیا تھا. یہ یونگرام پر صحت سے متعلق اور یاد کی ہارمونک اوسط پر مبنی ہے ، اس یاد کو صحت سے زیادہ وزن کا وزن زیادہ ہے. الکا اکثر خودکار سمری اشاعتوں میں استعمال ہوتا ہے (دیکھیں ET رحمہ اللہ تعالی., 2017 ؛ ڈونگ ایٹ ال., 2019) ، سرخ کے علاوہ.
نیاپن: یہ دیکھا گیا ہے کہ کچھ تجریدی ماڈل نکالنے پر بہت زیادہ آرام کرتے ہیں (دیکھیں ET رحمہ اللہ تعالی)., 2017 ؛ Krysci ‘nski et al.‘، 2018). لہذا ، تیار کردہ خلاصے کے اندر پیدا ہونے والے نئے N-Grams کی فیصد کی پیمائش کرنا عام ہوگیا ہے.
ماخذ: میلسم پیپر سے ترجمہ [2].
ماڈلز کی تعیناتی
ماڈل کی تربیت کے ل we ، ہم نے کلاؤڈ ایزور ایم ایل سروس کا استعمال کیا جو ماڈلز کی تربیت ، نگرانی اور تعیناتی کے لئے ایک مکمل ماحول مہیا کرتا ہے۔.
ہم نے ازگر ایس ڈی کے کو زیادہ واضح طور پر استعمال کیا ہے جو آپ کو “نوکریوں” کے اجراء سے لے کر ماڈلز کی تعیناتی تک ، پروگراماتی انداز میں پورے ایزورمل ماحول کو سنبھالنے کی اجازت دیتا ہے۔.
تاہم ، ہم نے اپنے حتمی ماڈل کو کنٹینرائزڈ فلاسک ایپلی کیشن میں شامل کیا پھر کبرنیٹس کلسٹر پر CI/CD پائپ لائنوں کے ذریعے تعینات کیا۔
نتائج
سب سے پہلے ، ہم نے متعدد کوششیں کیں ، ماڈلز کو 10K مضامین پر آگے بڑھایا ، ماڈل (512 یا 1024) اور مختلف فن تعمیرات کے آغاز پر دیئے گئے ٹوکن کی تعداد میں مختلف ہے۔.
پہلا مشاہدہ: ریڈ اور الکا میٹرکس ہمارے ماڈلز کی کارکردگی کی تشخیص کے لئے بہت موزوں نہیں لگتا ہے. لہذا ہم نے اپنے موازنہ کو صرف نیاپن اسکور پر مبنی کرنے کا انتخاب کیا اور منتخب کیا فن تعمیر مزید تجریدی خلاصے کی حمایت کرنا.
700K آئٹمز پر اپنے ماڈل کی تربیت کو آگے بڑھانے کے بعد ، ہم نے نتائج کو نمایاں طور پر بہتر بنایا اور پہلے ورژن کی توثیق کی جو آپ کو ذیل میں مل جائے گی.
توجہ پوائنٹس
کارکردگی سے پرے ، اس تجربے نے ہمیں کچھ کو اجاگر کرنے کی اجازت دی حدود خودکار خلاصہ:
فی الحال ، قسم کے ماڈلز کے ان پٹ میں متن کا سائز تبدیلی جی پی یو کی یاد میں صلاحیت سے محدود ہے. میموری میں لاگت ان پٹ کے طور پر متن کے سائز کے ساتھ چوکور ہونے کی وجہ سے ، یہ خودکار سمری کے کاموں کے لئے ایک حقیقی مسئلہ پیدا کرتا ہے جہاں متن کا خلاصہ کیا جانا اکثر کافی لمبا ہوتا ہے.
ٹیکسٹ جنریشن کے کاموں کا اندازہ کرنے کے لئے متعلقہ میٹرکس تلاش کرنا بہت مشکل ہے.
محتاط رہیں ایکسٹریکٹر کا وزن : ہمیں خود میں موجود ڈیٹا سے متعلق متعدد مسائل کا بھی سامنا کرنا پڑا ہے. بنیادی مسئلہ یہ ہے کہ مضمون کا مضمون اکثر ایک پیرا فریس تھا یا یہاں تک کہ مضمون کے پہلے جملے کی نقل بھی تھی. اس کا نتیجہ مضمون کے پہلے جملے واپس کرکے ہمارے ماڈلز کو تجریدی سے کہیں زیادہ نکالنے کی ترغیب دینے کا نتیجہ تھا۔. لہذا اس طرح کے تعصب سے بچنے کے لئے مسئلہ پیدا کرنے والے مضامین کو حذف کرکے کیوریشن کا کام کرنا ضروری تھا.
ڈیٹا ، مصنوعی ذہانت ، اور میرے منصوبوں پر ایک بلاگ.
خودکار سمری ایک لمبا متن ، یا یہاں تک کہ متن کا ایک مجموعہ لینا ہے ، اور خود بخود ایک چھوٹا سا متن تیار کرنا ہے جس میں زیادہ تر معلومات موجود ہیں۔. آسان ? اتنا بھی نہیں. سب سے پہلے ، آپ کو اتفاق کرنا ہوگا کہ کون سی معلومات واقعی اہم ہے. اس کے بعد ، ہمیں ان کو صحیح طریقے سے نکالنے ، ان کی تنظیم نو ، سب کو ایک گرائمیکل متن میں اور انسانی مداخلت کے بغیر لازمی طور پر نکالنے کے قابل ہونا چاہئے۔. اور یہ ممکنہ خلاصے کی بڑی تعداد میں مختلف قسم کی گنتی کے بغیر ہے !
میں اپنی ڈاکٹریٹ سے عین قبل اس دلچسپ تھیم پر تقریبا a ایک سال تک کام کرنے میں کامیاب رہا تھا ، لہذا یہ پوسٹ میرے لئے ایک موقع ہے کہ وہ اس موضوع میں اپنے آپ کو غرق کردوں اور ڈومین میں تازہ ترین بدعات کا جائزہ لیں۔.
تو آئیے ، اس موضوع کا ایک جائزہ لیں ، جو مختلف قسم کے خلاصے موجود ہیں جو موجود ہیں ، اس سے پہلے کہ دو قسم کے سسٹم پر تھوڑا سا تفصیل سے رہائش پذیر ہوں: اے آئی اور اعصابی نیٹ ورکس سے تعلق رکھنے والے افراد ، اور وہ جو زیادہ سے زیادہ زیادہ سے زیادہ نکالنے پر مرکوز ہیں معلومات.
خلاصہ کی مختلف اقسام
جب ہم خلاصہ کے بارے میں بات کرتے ہیں تو ، ہم اکثر کسی کتاب کے پچھلے سرورق یا کسی فلم کے اسکرپٹ کی تفصیل کے بارے میں سوچتے ہیں. عام طور پر ، وہ انجام کو خراب کرنے سے گریز کرتے ہیں ، جب یہ بالکل وہی ہوتا ہے جو کلاسیکی خودکار سمری کے آلے کے لئے مانگتا ہے: سازش کو بتانا ، تاکہ سمری لوازمات کو جاننے کے لئے کافی ہو۔. یہاں یہ ہے مونو دستاویز کے خلاصے, اس کا مطلب یہ ہے کہ ہم صرف ایک ہی دستاویز کا خلاصہ کرتے ہیں (ایک فلم ، ایک کتاب ، ایک مضمون ، …).
اس کے برعکس ، ہم چاہتے ہیں ملٹی دستاویزی خلاصہ, کہ ہم پریس جائزوں کے تناظر میں زیادہ کثرت سے ملتے ہیں: ہم چاہتے ہیں کہ مختلف پریس تنظیموں کے ذریعہ اطلاع دی گئی انتہائی اہم معلومات کا خلاصہ کیا جائے۔.
ایک بار جب ہم نے اس قسم کے اعداد و شمار کے بارے میں فیصلہ کرلیا ہے جس کا ہم خلاصہ ، مونو یا ملٹی دستاویزی کرنے کی کوشش کرتے ہیں تو ، ہمارے پاس دو نقطہ نظر کے درمیان انتخاب ہوتا ہے:نکالنے والا, جس میں معلومات کو نکالنے میں شامل ہوتا ہے جس سے پہلے معلومات کو خلاصہ تخلیق کرنے سے پہلے ، اور نقطہ نظر کی تشکیل کی جاتی ہے نسل کشی, جو نئے جملے بنانے میں شامل ہوتا ہے ، جو اصل میں دستاویزات میں ظاہر نہیں ہوتا ہے ، تاکہ زیادہ سیال اور آزادانہ خلاصہ ہو۔.
ان معیارات کے علاوہ ، خلاصے کے مختلف شیلیوں کے علاوہ ، جن سے ہم یہاں رجوع نہیں کریں گے: خلاصہ اپ ڈیٹ کریں جو ایک نئی دستاویز میں ظاہر ہونے والی معلومات کا خلاصہ بیان کرنے میں شامل ہیں اور جو ابھی تک درج نہیں تھے ، اس کا خلاصہ کیا گیا ہے جس میں ایک عین مطابق زاویہ اپنانے میں شامل ہے۔ صارف کے ذریعہ دیا گیا ، ..
اے آئی اور اعصابی نیٹ ورک خودکار سمری میں انقلاب لاتے ہیں
-2010 کی دہائی کے وسط تک ، زیادہ تر خلاصے نکالنے والے تھے. تاہم ، ان الگورتھم میں پہلے سے ہی زبردست تنوع موجود تھا جو پورے جملوں کے انتخاب اور نکالنے سے لے کر عین مطابق معلومات کو نکالنے تک ہوسکتا ہے پھر دوبارہ تیار کردہ نصوص میں جو ٹیمپلیٹس کے نام سے پہلے تیار کردہ سوراخوں کے ساتھ ہوتا ہے۔. اعصابی نیٹ ورکس پر مبنی نئے نقطہ نظر کی آمد نے صورتحال کو کافی حد تک تبدیل کردیا ہے. یہ الگورتھم گرائمیکل اور سیال متن پیدا کرنے کے لئے پچھلے لوگوں کے مقابلے میں کہیں زیادہ موثر ہیں ، جیسے اس جی پی ٹی ڈیمو کے ساتھ کیا کیا جاسکتا ہے.
تاہم ، اعصابی نیٹ ورکس کو تربیت دینے کے لئے بڑی مقدار میں ڈیٹا کی ضرورت ہوتی ہے اور وہ نسبتا un غیر منقولہ ہیں. وہ تبصرے تیار کرنے کے لئے بالکل کام کرتے ہیں جس کے لئے سچائی بہت کم اہمیت کا حامل ہے ، لیکن سختی سے متضاد یا محض غلط معلومات پیدا کرسکتی ہے جو مثال کے طور پر پریس مضامین کے خلاصے کے تناظر میں پریشانی کا باعث ہے۔. بہت سارے تحقیقی مضامین اعصابی نیٹ ورکس کے ان “فریب” میں دلچسپی رکھتے ہیں.
ہائبرڈ ٹول کی ایک مثال: پوٹارا
خودکار سمری پہلا تحقیقی مضمون تھا جس میں مجھے دلچسپی تھی ، اور مجھے اپنے ماسٹر کے دوران ملٹی دستاویزات کے نقطہ نظر کے لئے نکالنے/نسل کے ذریعہ سمری کے ایک ہائبرڈ سسٹم کے دوران ترقی کرنے کا موقع ملا ، یعنی یہ کہنا ہے کہ دستاویزات کا ایک مجموعہ خلاصہ کریں۔ اسی مضمون کا.
خیال یہ تھا کہ کلاسیکی نکالنے سے شروع کیا جائے ، یعنی انتہائی اہم جملوں کی نشاندہی کرنا اور خلاصہ پیدا کرنے کے لئے ان کو جمع کرنا. اس نقطہ نظر میں مسئلہ یہ ہے کہ انتہائی اہم جملوں کو اکثر بہتر بنایا جاسکتا ہے. مثال کے طور پر ، ایک مضمون میں صدارتی نقل مکانی کی بات کرتے ہوئے ، “ایمانوئل میکرون نے اپنے امریکی ہم منصب سے ملاقات کی اور معاشیات پر تبادلہ خیال کیا” “ایمانوئل میکرون سے جو بائیڈن سے ملاقات کی اور معیشت پر تبادلہ خیال کیا” کے فقرے کو بہتر بنایا جاسکتا ہے۔. صحافی احتیاط سے ریہرسل سے گریز کرتے ہیں ، ہم خود کو اس طرح کے رجحان سے اکثر سامنا کرتے ہیں.
اس عیب پر قابو پانے کے ل we ، ہم مختلف دستاویزات میں موجود اسی طرح کے جملوں کی نشاندہی کرسکتے ہیں اور بہتر سزا حاصل کرنے کے لئے ان کو ضم کرنے کی کوشش کرسکتے ہیں۔. اے این ایس آئی ، مندرجہ ذیل دو جملوں سے:
- ایمانوئل میکرون نے واشنگٹن میں اپنے امریکی ہم منصب سے ملاقات کی اور لمبائی میں معاشیات کے بارے میں بات کی.
- فرانسیسی صدر نے جو بائیڈن سے ملاقات کی اور معاشیات پر تبادلہ خیال کیا.
ہم ایک مختصر اور معلوماتی جملہ تشکیل دے سکتے ہیں:
- ایمانوئل میکرون نے واشنگٹن میں جو بائیڈن سے ملاقات کی اور معاشیات پر تبادلہ خیال کیا.
اس نتیجے کو حاصل کرنے کے لئے کئی اقدامات ضروری ہیں: اسی طرح کے جملے ڈھونڈنا ، بہترین فیوژن کی تلاش ، یہ چیک کرنا کہ فیوژن ایک اصل جملے سے کہیں بہتر ہے۔. وہ بہت ساری ٹیکنالوجیز کا حصہ لیتے ہیں: ورڈ 2 نیورل نیٹ ورکس کے ساتھ اسی طرح کے جملے تلاش کرنے کے لئے ، ان کو ضم کرنے کے لئے شریک اسکورینس گراف ، بہترین انضمام کا انتخاب کرنے کے لئے ILP اصلاح.
اگر آپ مزید دیکھنا چاہتے ہیں تو ، پوٹارا اوپن سورس ہے ، لیکن تھوڑی دیر کے لئے برقرار نہیں رکھا گیا ہے. جب مجھے رہا کیا گیا تو اس پروجیکٹ نے خاص طور پر ایک شوکیس کے طور پر کام کیا تھا اور اسی وجہ سے وہ دستاویزات ، ٹیسٹ ، مسلسل انضمام ، PYPI پر تعیناتی تھا ، ..
ایک اچھا خودکار خلاصہ کیا ہے؟ ?
اگر کچھ معیارات واضح اور نسبتا simple آسان معلوم ہوتے ہیں (مثال کے طور پر جملوں کی گرائمیکلیٹی) ، دوسرے بہت زیادہ پیچیدہ ہیں. کسی متن کی سب سے اہم معلومات کیا فیصلہ کرنا پہلے ہی اپنے آپ میں ایک بہت ہی ساپیکش کام ہے. فلوئٹی کا اندازہ کریں ، استعمال شدہ الفاظ کی صحیح پسند ، اشاعت کے کام پر واپس آجاتی ہے ، اور آئیے اس سیاسی رجحان کے بارے میں بات نہیں کرتے جو خلاصہ لے سکتا ہے۔ !
اعصابی نیٹ ورکس پر مبنی نئے جنریٹو ماڈلز کا امکان ہے کہ جب فلمی نقاد پیدا کرنے کی بات کی جائے تو اس کی تلاش کی جاتی ہے ، لیکن جب کسی صدارتی امیدوار کے پروگرام کے بارے میں بات کرتے ہیں تو اس کا اثر طلب ہوتا ہے۔ !
لہذا خودکار سمری تحقیق میں ایک بہت ہی فعال موضوع بنی ہوئی ہے ، اور ایک لمحے کے لئے بھی ہوسکتی ہے ، خاص طور پر الگورتھم کے نتائج کی رہنمائی کرنے کی صلاحیت کے حوالے سے ، خاص طور پر کسی خاص احساس ، ایک مخصوص انداز ، ایک سیاسی رنگین کی طرف دی گئی۔. صنعت میں ، وہ ابھی بہت ہی مخصوص ایگزیکٹوز میں داخل ہونا شروع کرتا ہے (مثال کے طور پر اجلاسوں کا خلاصہ).
صدارتی 2022: آپ کے ڈیٹا پر !
2022 کے صدارتی انتخابات کے لئے ڈیٹا پروجیکٹس کی 3 مثالیں انجام دی جائیں گی.