مقدمه: رسانههای اجتماعی مبتنی بر وب به طور فزاینده در زمینههای مختلف در صنعت مراقبتهای بهداشتی مورد استفاده قرار میگیرند. پلتفرمهای جدید مبتنی بر وب، نویدبخش افزایش فرصتهای انتشار بموقع و دقیق اطلاعات و تحلیل آن است. این روش بطور ویژه برای شناسایی سریع شیوع بیماری عفونی که برای توسعه سریع و بموثر واکنشهای سلامت عمومی ضرورت دارد مفید است. این پلتفرمهای مبتنی بر وب، شامل پرس و جوها، دادهکاوی وب و رسانههای اجتماعی، پردازش و تحلیل بلاگ ها حاوی کلمات کلیدی اپیدمیک، متنکاوی، و تجزیه و تحلیل دادههای سیستم اطلاعات جغرافیایی است. موتورهای جستجو و شبکههای اجتماعی دو منبع اطلاعاتی کاملاً متفاوت هستند که میتوانند اطلاعات ارزشمندی در مورد آنفولانزا فراهم کنند. در حالی که میزبانهای موتور جستجو میتوانند جستجوهای (یا اصطلاحات) محبوب استفاده شده برای کاوش اطلاعات مربوط به آنفولانزا را ارایه دهند، شبکههای اجتماعی حاوی لینکهای منابع اطلاعاتی مفیدی هستند که مردم آنها را با ارزش یافتهاند.
هدف: تمرکز اصلی کار حاضر بر توصیف اثربخشی لاگ های جستجوی گوگل و دادههای توییتر برای تشخیص تغییرات در فعالیت بیماری واگیردار است. گوگل گستردهترین موتور جستجو است و حدود ۴ میلیارد جستجو در روز انجام میشود. از اطلاعات مربوط به پرس و جوی جستجو میتوان برای بررسی علاقه کاربران به جستجوی یک موضوع خاص مورد استفاده کرد. با این حال، دادههای پرس و جوی جستجو، نویزدار و خام است و هیچ گونه اطلاعات متنی فراهم نمی آورد. مردم در موتور جستجو بدلایل مختلف از جمله نگرانی در مورد خودشان، خانواده و یا دوستان بدنبال یافتن اطلاعات مربوط به سلامتی هستند. علاوه بر این، برخی تحقیقات در اینترنت توسط کاربران به دلیل علاقه عمومی مردم به موضوعی که به طور کلی توسط یک رویداد زنده، گزارش خبری یا علمی جدید آغاز شدهاست انجام میشود. یک مطالعه در مورد «جریان توییتر» نشان داد که با وجود سطح بالای نویز، بخش عمدهای از توییت های حاوی مکالمات کاربر-به-کاربر که تنها برای طرفهای درگیر جالب توجه هستند، با اطلاعات مفید و محتوای اخبار، خود ترویجی و اِسپم ارتباط دارد.
مثال: از توییتر به طور موثر در بسیاری از پدیدههای دنیای واقعی مانند ردیابی سلامت عمومی، انتخابات، تشخیص زلزله، پیشبینی بازار سهام، نظرسنجیها و ورزش استفاده شده است. از آنجا که اندازه شبکه توییتر بسیار کوچکتر از فیسبوک است، ما جهت سادگی و کاهش پیچیدگی، روش موجود با استفاده از توییتر تحلیل می شود. دادههای مرتبط با آنفولانزا در گوگل جمعآوری شده و سپس از همان پرس و جوها برای گرفتن اطلاعات از توییتر استفاده می شود. توییتهای استخراج شده بر اساس سه ویژگی، شامل تعداد فالورها، تعداد علاقمندیها و تعداد توییتهای مجدد، به دو صورت توییتهای معتبر و توییتها نامعتبر ارزیابی میشوند. پس از آن، توییت ها در دو دسته مثبت و منفی دستهبندی میشوند. توییتهای مثبت حاوی اطلاعات مفید برای کاربران مربوط به بیماری آنفولانزا است. توییتهای منفی اطلاعات معنیدار مربوط به آنفولانزا ندارند. علاوه بر این، جهت بررسی نشانهها اولیه، پیوندهای مفید و توزیع منطقه توزیع، توییت ها تحلیل می شود. مضاف بر این، توییت ها برای بررسی علایم اولیه حمله آنفولانزا و آسیبپذیرترین مناطق مورد تحلیل قرار می گیرد. ترکیب این دو روش زمانی کمک خواهد کرد که تعامل واقعی با مردم و مشکلات آنها در رابطه با چنین بیماریهایی وجود داشته باشد.
نتیجه: تلاشهایی برای یافتن نقش پرس و جوی موتور جستجو و دادههای شبکه اجتماعی در یافتن بیماری همه گیر آنفلوآنزا در سراسر جهان صورت گرفته است. برای این کار، دادههای گوگل و توییتر با هم ادغام شدند تا دریابیم که در صورت حمله آنفولانزا، مردم درباره نشانهها، علل، پیشگیریها و درمان آن چه می دانند. از این دادهها برای پیشبینی اولیه اپیدمی در یک منطقه جغرافیایی خاص از جایی که این جستجوها و توییت ها انجام میشوند، استفاده شده است. ما تعداد جستجوها و توییتهای مجدد از یک منطقه خاص را به احتمال شیوع بیماریهای همهگیر در آنجا مرتبط میکنیم. به لحاظ تجربی، یک مدل جهت استخراج اطلاعات معتبر برای نظارت بر آنفولانزا برای پایش در برابر آنفولانزا در WEKA آموزش داده شده است که تصور میرود در بین افرادی که چنین بیماری را تجربه کردهاند مشترک باشد. داروهای مهم نیز استخراج شده اند که در مقابله با چنین بیماریهایی به همراه اثرات جانبی آنها مورد استفاده قرار میگیرند. نتایج نشان میدهند که نشانههای بیماری برای علائم اولیه آنفولانزا طبق نظر مردم در رسانههای اجتماعی نیز توزیع می شود. پیشبینی شیوع بیماری میتواند بیشتر با لحاظ کردن اطلاعات بیشتر شبکه اجتماعی نظیر تعداد دوستان و طرفداران بهبود یابد. علاوه بر این، زمینه دیگر برای بهبود، شامل فیلترسازی و طبقهبندی دادههای جمعآوریشده براساس فرهنگ لغات کلیدی و هشتگها است.