کلمه ای از مشاوره: روش های رتبه بندی نکته چهار ضلعی را اصلاح کنید

توسط: انریکه کروز

در چهار ضلعی ، ما به این توانمندیم که جامعه خود را قادر به کشف دنیای پیرامون خود بدانیم. برنامه مصرف کننده ما ، Foursquare City Guide ، یک برنامه پیشنهادی مبتنی بر مکان و اکتشاف است. یكی از اقدامات اصلی برای كاربران ما نوشتن نكات (یا كوتاهی عمومی در متن) كه به محلی اختصاص داده شده است كه غالباً به عنوان بررسی یا پیشنهادی سریع انجام می شود. با گذشت این سالها ، کاربران چهار ضلعی بیش از 95 میلیون راهنما نوشتند. در حالی که این نکات با ارزش است ، آنها اطلاعاتی را برای کاربران به وجود می آورند که بتوانند از طریق آن بفهمند. به همین دلیل تعیین اینکه چه نکاتی برای یک مکان معین "بهتر" از سایر موارد است ، یک کار مهم در اکوسیستم برنامه چهار ضلعی است.

چند ماه پیش ، ما استراتژی خود را برای انتخاب بهترین نکات برای یک مکان خاص بازسازی کردیم. مدل رتبه بندی جدید ما تا حدود زیادی رویکردهای قبلی و اهرم های سیگنالهای متنی ، متنی و اجتماعی ما را بهبود می بخشد ، این به ما امکان می دهد نکاتی را انتخاب کنیم که آموزنده ترین ، مرتبط و با کیفیت ترین مطالب را در اختیار کاربران ما قرار دهد. در این پست ، ما به سراغ روش شناسی جدید خود می رویم و همچنین نحوه معرفی مدل نتایج مثبتی را که توسط تست های مختلف A / B در موارد استفاده مختلف اندازه گیری شده است ، به دست آورد.

رویکردهای گذشته

از لحاظ تاریخی ، چهار ضلعی برای مرتب سازی و انتخاب بهترین نکات در یک مکان از مکانیسم های مختلفی استفاده کرده است - اما ما احساس کردیم که هیچ یک از آنها به تنهایی رضایت کامل ندارند.

بیایید در مورد برخی از برجسته ترین استراتژی های رتبه بندی که قبلاً استفاده شده بود بحث کنیم و چالش های آنها را مرور کنیم:

محبوبیت: این معیار تعامل مثبت است که نوک از زمان ایجاد آن مانند "upvotes" کسب کرده است. به طور کلی ، نمایش محتوای معتبر یا مفید برای کاربران ، تمایل به مطلوب محتوای قدیمی یا قدیمی دارد ، و منجر به چرخه بازخورد می شود که در آن نکات بسیار رده بندی برجسته تر در معرض دید قرار می گیرند (بدین ترتیب محبوبیت بیشتری کسب می کنند). نمایش مداوم نکات قدیمی می تواند باعث شود برنامه های ما قدیمی به نظر برسند ، و نتوانند به جامعه کاربری بسیار فعال ما دسترسی داشته باشیم که به طور مداوم نکات جدید بسیار جذاب را در اختیار ما قرار می دهد.

Recency: این اندازه گیری از میزان زمانی است که از زمان ایجاد نوک گذشت. این اندازه گیری کار بسیار خوبی در نشان دادن نشاط جامعه چهار ضلعی انجام می دهد ، اما هیچ تضمینی برای کیفیت و ارتباط ندارد.

رده بندی نکته براق و جدید ما

برای رده بندی جدید ما ، ما می خواهیم بر روی موفقیت رویکردهای قبلی بسازیم و سیستمی را توسعه دهیم که نه تنها متعادل و محبوبیت را متعادل کند ، بلکه به ما این امکان را می دهد تا در سیگنال های ظریف دیگری نیز موثر واقع شویم که به تمایز یک نکته بد از یک عالی کمک می کنند.

علاوه بر محبوبیت و تبخیر همانطور که در بالا تعریف شد ، ویژگی های زیر را در مدل رتبه بندی نوک تجدید نظر ما گنجانده ایم:

شناسایی زبان: این یک طبقه بندی کننده زبان است که با استفاده از مجموعه ای از راه حل های منبع باز و خانگی به منظور جلوگیری از ارائه نکاتی در زبانهایی که کاربر آن را نمی فهمد ساخته شده است.

ثروت محتوا: اینها چندین سیگنال هستند که ویژگی ها و ابرداده های عمومی تر در مورد نوک فراتر از اطلاعات واقعی موجود در خود نوک را ردیابی می کنند. از جمله این عوامل ، وجود یا عدم حضور یک عکس ، پیوند به منابع خارجی و همچنین تعداد کلماتی است که نکته در آن وجود دارد.

نویسنده اعتماد: اینها آمارهای نویسنده مانند تصدی به عنوان کاربر راهنمای چهار ضلعی شهر ، محبوبیت کل و سایر حقایق جمع شده در مورد نکات نوشته شده کاربر قبلاً است. این سیگنالها سعی در جلب اعتماد کاربر به عنوان نویسنده اصلی دارند.

کیفیت جهانی: این مجموعه ای از نمرات از طبقه بندی کننده های مختلف آماری است که برای شناسایی صفات خاص ، مانند احساس یک نکته (آموزش داده شده با استفاده از رتبه بندی صریح "مانند" و "دوست نداشتن") که یک کاربر برای حضور در محل آموزش داده شده ، آموزش دیده اند. در همان روز که نوک نوشته شده است. پردازش زبان طبیعی (NLP) سپس برای یادگیری کدام کلمات و عبارات به بهترین وجه پیش بینی هر کلاس از نکات است. در مورد احتمال وجود نوک به عنوان هرزنامه گزارش شده است - این امر با نگاه به نكات گذشته گزارش شده به عنوان هرزنامه و یادگیری خصوصیاتی كه با این ارتباط همبستگی دارند آموزش داده می شود.

قرار دادن ویژگی های جدید برای کار و جمع آوری داده های آموزشی

به منظور آموزش مدل خود با استفاده از این ویژگی های جدید ، ما با استفاده از سیستم عامل های موجود در جمعیت ، برخی از داده های آموزشی را تولید کردیم. برای جمع آوری داده های خود ، ابتدا هزاران مکان برتر محبوب ترین را توسط نمایش کاربر تعیین کردیم و به طور تصادفی از 100 راهنمایی متمایز از هر یک از این مکان ها نمونه گرفتیم. پس از حسابداری برای برخی از فیلترهای زبان و تکثیر ، این مجموعه ای از 75000 زوج نوک را به همراه داشت.

سپس ما با طراحی شغلی در شکل هشتم (قبلاً CrowdFlower ، یک سکوی شلوغی برای کارهایی شبیه به Amazon Mechan Turk) برچسب هایی را برای این داده ها ایجاد کردیم که در آن داوران یک جفت نوک از نمونه نمونه ما را در کنار محل مربوطه نشان می دهند. سپس از قاضیان این سؤال پرسیده شد ، "اگر شما هم اکنون در این مکان حضور داشتید یا قصد بازدید از این مکان را داشتید ، کدام یک از مطالب زیر آموزنده تر است؟" ما این آزمون را به گونه ای طراحی کردیم که نکات در یک زمینه مشابه با نحوه نمایش در برنامه City Guide نشان داده شود و قضات ما را در برابر تمام اطلاعات متنی مشابه قرار دهند که در نحوه مشاهده کاربران واقعی ما یک نکته را نشان می دهد. نتیجه شغل شکل هشت ما حدود 50،000 نکات برچسب زده شده به دست داده که ما به داده های آموزش و ارزیابی تقسیم شده ایم.

برای آموزش بیشتر رده بندی جدید نکته ، ما الگوریتم های مختلفی از جمله LambdaMART ، Coordinate Ascent و RankBoost را بررسی کردیم. پس از ارزیابی نتایج ، ما با استفاده از SVMrank (اجرای ماشینهای بردار پشتیبانی) به عنوان الگوریتم یادگیری نظارت شده ما مستقر شد. هدف ما این بود که با توجه به برچسب های آموزش شلوغی ، تعداد نکات ناسازگار را به حداقل برسانیم.

همانطور که رتبه بندی جدید خود را تکرار و تنظیم کردیم ، عملکرد آن را در برابر مجموعه داده "برگزار نشده" ارزیابی کردیم ، و آن را در برابر برخی از معیارهای پایه مقایسه کردیم. ما همچنین با استفاده از یک ابزار جانبی در کنار هم ، رتبه ها را به صورت کیفی ارزیابی کردیم تا بهترین نکات مربوط به یک مکان انتخاب شده توسط هر مدل را بررسی کنیم.

در مدل نهایی ، Tip Ranker با ویژگی های متن ، این ویژگی هایی با بالاترین وزن بود:

  • طول و تعداد نشانه ها
  • حضور یک عکس
  • احساسات مثبت
  • زودرس

ویژگی هایی که کمترین میزان قدرت پیش بینی را دارند:

  • محبوبیت
  • آمار کل مؤلف

نتایج تست و برنامه های کاربردی A / B

پس از نتایج تشویق کننده رده بندی نوک تازه آموزش دیده در مجموعه داده های خارج شده ما ، ما این مدل را به بازار آوردیم تا در کل محل برگزاری ما مورد استفاده قرار گیرد و آن را در نقاط مختلف لمسی درون اکوسیستم چهار ضلعی اهرم کنیم. در زیر برخی از مکانهایی که با رتبه بندی جدید آزمایش کرده ایم و نتایج حاصل از اجرای تست های A / B با تقسیم 50٪ از پایه کاربر ما است.

  • برنامه "در یک پینگ محل": وقتی تشخیص می دهیم کاربر با یک احتمال خاص در یک مکان مشخص قرار دارد ، Foursquare پینگ را با بهترین نوک (که قبلاً توسط کاربر مشاهده نشده بود) برای کاربر می فرستد. این قبلاً با استفاده از تنها ویژگیهای کیفیت جهانی که در یک مدل جنگلی تصادفی برای به ثمر رساندن ، مرتب سازی و فیلتر کاندیداهای نوک وارد شده بودند ، مشخص می شد.
  • نتیجه: رتبه جدید ما در مقایسه با گروه کنترل پیشرفتهای چشمگیری داشته و منجر به افزایش 1.5 درصدی کلیک از طریق نرخ می شود ، ضمن اینکه به ما این امکان را می دهد تا با از بین بردن برخی فیلترهای کالیبره شده موجود که به دلیل عدم اطمینان وجود دارد ، 32 درصد پینگ نوک بیشتر ارسال کنیم. در روش انتخاب قبلی علاوه بر این ، گروه آزمایش منجر به افزایش 5٪ ​​در روزهای فعالیت اصلی برنامه شد.
نمونه در محل پینگ با استفاده از نکته راهنما
  • برنامه "Insight Check-In Insight": وقتی کاربران ما برنامه مصرف کننده دیگر ما ، چهار ضلعی را بررسی می کنند ، محتوای خاصی از محتوا را برای محلی که کاربر تازه وارد آن شده است نشان می دهیم. در میان این موارد یک نکته راهنمای Foursquare City برای محل برگزاری و فروش بیشتر است تا در صورت نصب برنامه راهنمای Foursquare City Guide (یا در غیر اینصورت بارگیری آن) ، همه راهنمایی ها را مشاهده کنید. پیش از این ، این انتخاب نوک صرفاً بر روی سیگنالهای اجتماعی انجام می شد.
  • نتیجه: آزمون A / B با مدل جدید شاهد افزایش چشمگیر در کلیه اقدامات مرتبط با نوک (مانند "لایک" ، نکات و عکس) و همچنین بالابر خالص 1٪ کاربر فعال برای راهنمای Foursquare City به دلیل بیشتر کاربران تصمیم می گیرند که از فروش سریع استفاده کنند.
Sight Post Checkin Insight Powered by Tip Ranker
  • برنامه "مرتب سازی پیش فرض صفحه مکان": هنگام نمایش صفحه مکان ، لیستی از بهترین راهنمایی های مکان را در برگه برجسته نشان می دهیم. قبلاً این نکات به نوعی بر روی سیگنالهای مثبت اجتماعی برای نکات پیش فرض گذاشته شده است. برای اندازه گیری هرگونه تغییر سئو ، ما یک تست A / B را که توسط مکانها گروه بندی شده بود ، اجرا کردیم.
  • نتیجه: در حالی که در نسخه آزمایشی وارد شده نتیجه قابل توجهی نداشته است ، نسخه SEO منجر به بلند شدن 2.40٪ در کل ترافیک مراجعه جهانی شد. ما فرض می کنیم که این بیشتر به دلیل اولویت رتبه بندی به محتوا که طولانی تر بود ، هدایت می شد ، شامل عکس های بیشتری بود و اخیراً نیز نوشته شده است.

کار آینده و برنامه های افزودنی ممکن

چند بخش کار باقی مانده برای کشف وجود دارد که می تواند پیشرفت بیشتری در نحوه انتخاب نکات با ترکیب ویژگی های جدید در مدل داشته باشد.

برخی از این موارد عبارتند از:

  • سیگنال های منفی اجتماعی: در زمان ساخت مدل ، Foursquare City Guide فقط راه هایی را برای "دوست داشتن" و صرفه جویی در نکته ، در اختیار کاربران قرار می داد یا آن را به عنوان هرزنامه پرچم می داد. از آن زمان ، ما تعامل جدیدی را برای پایین آمدن نوک ارائه کرده ایم ، در آینده جالب است که بتوانید با استفاده از این سیگنال جدید ، این مدل را بازآفرینی کنید تا اعتبار آن را داشته باشید یا خیر.
  • تمایل به مطابقت با امتیاز: این مدل نکاتی را با احساسات مثبت ترجیح می دهد. اگرچه این کار مفید است ، هنگامی که یک مکان دارای رتبه پایین باشد ، اختلاف نظر می کند ، اما نکات برتر اکثراً مثبت هستند. پسوند این اثر می تواند نکاتی را برای نشان دادن توزیع احساساتی که بهتر نشان دهنده امتیاز محل برگزاری و توزیع اساسی آراء باشد ، رتبه بندی کند.

در کل ، برای ما بسیار مهم است که به طور مداوم روش پردازش ، ردیابی و نمایش بازخورد کاربر را ارزیابی کنیم - که به پایگاه کاربر فعال ما و هجوم بینش های مبتنی بر مکان کمک می کند. با تجزیه و تحلیل رویکردهای گذشته و آزمایش با تکنیکهای جدید ، ما می توانیم با ارزش ترین اطلاعات ممکن در خدمت جامعه خود باشیم.

برای کسب اطلاعات بیشتر در مورد تلاش های مهندسی ما ، مهندسی چهار ضلعی را در متوسط ​​دنبال کنید و در مورد فرصت های شغلی ما به روز باشید.