Mashina bilan tanishish sinfini NLTK Vader bilan Sentiment Analiz uchun birlashtirish

Universitetimning bir qismi sifatida, men NLTK Vader (SentimentIntensionAnalyzer) natijalarini Twitter-da "Sentiments" ni taxmin qilish uchun Mashina bo'yicha o'rganiladigan tasniflovchi bilan birlashtirishga harakat qilaman.

Detailed description -

Nima qilishni xohlayotganimni tushuntirish uchun - Mashg'ulotni o'rganish klassifikatorini va NLTK Vader hissiyotini tahlil qilib, tvitlarni ijobiy, salbiy yoki neytral deb tasniflash.

Men qilgan ishim -

  1. Ma'lumotlarni tozalash ( Niek Sanders twitter corpus ) va oldingi

  2. 80:20 ta'limga bo'ling: test darajasi

  3. Tfidf so'zlari bilan ajralib turadigan matris yaratish uchun ishlatiladigan TfidfVectorizer. Ustunlar soni toza ma'lumotlardagi so'zlar soniga teng.

  4. Ushbu vektorli matritsani scikit-learn yordamida tasniflovchilarni tayyorlash va sinash uchun foydalaning.

Classifiers used - This same vector matrix is being used to train - KNN, Random forest, Naive Bayes, SVM, Artificial Neural Network and Convolutional Neural Network.

Endi asosiy shubha NLTK Vader (SentimentIntensityAnalyzer natijalari) ni birlashtirishga urinayotganda paydo bo'ladi.

Men nima qilayotgan bo'lsam, yuqorida uchinchi qadamdan, tfidf vektorining matritsasida 2 ustunni qo'shaman va NLTK tomonidan taqdim etilgan tweet uchun ijobiy va salbiy kutupluluk natijasini qo'shyapman, shuning uchun endi vektor matritsasida 2 ta yangi ustun n + 1 (NLTK tomonidan yozilgan tweetning umumiy pozitsion polarligi), n + 2 (NLTK tomonidan yuborilgan jami salbiy polarity) va shunga o'xshash -

    0      1     2     3     4     5     6     7  ......... |  n+1    |   n+2
------------------------------------------------------------|---------|----------
    0.4   0.3   0.4   0.1   0.5   0.3   0.2   0.4 ......... |  0.345  |  0.345
    0.5   0.3   0.2   0.8   0.3   0.6   0.4   0.5 ......... |  0.765  |  0.523
    0.6   0.4   0.1   0.7   0.8   0.8   0.2   0.2 ......... |  0.392  |  0.664
    0.2   0.9   0.7   0.4   0.9   0.9   0.8   0.5 ......... |  0.832  |  0.658
    0.9   0.5   0.9   0.7   0.3   0.2   0.2   0.5 ......... |  0.273  |  0.283
    0.5   0.2   0.2   0.7   0.2   0.1   0.6   0.6 ......... |  0.505  |  0.194
    0.4   0.3   0.2   0.3   0.3   0.9   0.5   0.5 ......... |  0.102  |  0.927
    0.1   0.8   0.1   0.2   0.1   0.5   0.2   0.7 ......... |  0.735  |  0.455

Question - So is it correct to add it this way?

0 va 1dan foydalanib, umumiy hissiyotning ijobiy, salbiy yoki betaraf ekanligiga ishora qilish uchun bu polaritlarni ikkilik qiymatlarga aylantirishi mumkin.

Note - I am representing 3 categories(positive, negative or neutral) using 2 columns to avoid dummy variable trap.

Bu tasniflovchilarning umumiy aniqligini 1-2% kichik marj bilan oshishiga qaramay.

But am I doing it right? If not, kindly let me know how can I collaborate the two mentioned above, i.e. NLTK Vader results with Machine Learning classifiers.

2
Men sizlarga bir yil keyin javob beraman, umid qilamanki, bu sizga tegishli. Shunday qilib, hozirgi paytda siz bilan bir xil muammoga duch keldim. Men Xitoyda ijtimoiy media uchun hissiyotlarni tahlil qilmoqdamiz. Mening dastlabki chiziq uchun men Xitoyga VADERni o'zlashtirishni o'z oldimga qo'ygan edik. Ba'zi o'zgartirishlar bilan ~ 90% aniqlik bilan yaxshi ishlaydi. Men hissiyotlarni bashorat qilish uchun bir nechta POS qoidalari joriy qildim, ammo afsuski, xitoy tili ingliz tilidan ko'ra murakkabroq va juda yaxshi leksikon mavjud emas. Shuning uchun men im bo'laman
qo'shib qo'ydi muallif cordo, manba

Javob yo'q

0