paint-brush
Мэдрэмжийн шинжилгээнд тод өгөгдлийг хэрхэн ашиглах вэ by@adnanaleeza
Шинэ түүх

Мэдрэмжийн шинжилгээнд тод өгөгдлийг хэрхэн ашиглах вэ

by Aleeza Adnan5m2024/11/26
Read on Terminal Reader

Хэтэрхий урт; Унших

Bright Data бол сэтгэл хөдлөлийн дүн шинжилгээ хийх өндөр чанартай Twitter мэдээлэлд хандах боломжийг олгодог платформ юм. Энэ нийтлэлд бид Bright Data-н урьдчилан бүтээгдсэн Twitter мэдээллийн багцыг хэрхэн ашиглах талаар авч үзэх болно. Бид жиргээний текст дээр анхаарлаа төвлөрүүлэх болно, учир нь энд мэдрэмжийн дүн шинжилгээ хийх болно.
featured image - Мэдрэмжийн шинжилгээнд тод өгөгдлийг хэрхэн ашиглах вэ
Aleeza Adnan HackerNoon profile picture
0-item

Машины сургалт дахь өгөгдлийн үүрэг

Орчин үеийн хиймэл оюун ухаанд суурилсан орчинд машин сургалт, хиймэл оюун ухаан, чатботууд урьд өмнө байгаагүй хурдацтай салбаруудыг өөрчилж байна.


Илүү олон бизнесүүд хиймэл оюун ухааныг үйл ажиллагаандаа нэгтгэхийг эрэлхийлж байгаа ч эдгээр системийг хэрхэн бүтээж байгааг анзаардаггүй. Үндсэн найрлага? Өгөгдөл. Машин сургалтын загвар нь сургагдсан өгөгдлөөрөө л сайн байдаг. Гэхдээ энэ бүх өгөгдөл хаанаас гардаг вэ?


Бидний найддаг өгөгдлийн нэлээд хэсэг нь олон нийтэд нээлттэй байдаг бөгөөд үүнийг ихэвчлэн сошиал медиа нийтлэл, хэрэглэгчийн сэтгэгдэл болон бусад онлайн контентоос олдог. Мэдрэмжийн шинжилгээний хувьд мэдээллийн хамгийн баялаг эх сурвалжуудын нэг бол хэрэглэгчийн үүсгэсэн контентыг бодит цагийн турш тасралтгүй дамжуулдаг Twitter юм. Гэсэн хэдий ч сорилт нь энэ өгөгдлийг хэрхэн үр дүнтэй, цэвэрхэн цуглуулах явдал юм.

Уламжлалт Twitter мэдээлэл цуглуулах асуудал

Би Twitter-ийн өгөгдлийг ашиглан сэтгэл хөдлөлийн шинжилгээний төсөл дээр ажиллаж эхлэхдээ Twitter API-г ашиглах талаар бодож байсан. Гэсэн хэдий ч би маш чухал хязгаарлалттай тулгарсан: үнэгүй түвшний API нь зөвхөн өмнөх долоон өдрийн жиргээнд хандах боломжийг олгодог. Сэтгэлийн иж бүрэн дүн шинжилгээ хийх, ялангуяа долоо хоног, сараар үргэлжлэх чиг хандлагатай сэдэв, улс төрийн үйл явдлын хувьд энэхүү хязгаарлалт нь байгаа мэдээллийн цар хүрээ, чанарыг эрс хязгаарладаг.


Илүү өндөр API шатлал руу шинэчлэх нь сонголт байсан ч минийх шиг жижиг хэмжээний төслийн өртөг өндөр байсан. Энэ нь надад хоёр замыг үлдээсэн: уламжлалт хусах замаар өгөгдлийг гараар цуглуулах оролдлого (энэ нь CAPTCHA, орон тооны цомхотгол, бүрэн бус бүртгэл гэх мэт өөрийн гэсэн сорилтуудтай тулгардаг) эсвэл өөр шийдлийг олох.


Твиттерийн цэвэр, өргөтгөх боломжтой, түүхэн мэдээллийн багцыг санал болгосноор эдгээр асуудлыг саадгүй шийдэж, Bright Data нь энд л гарч ирдэг. API хязгаарлалтаар хязгаарлагдахын оронд би төслийнхөө олон төрлийн, өндөр чанартай өгөгдөлд ердийн хүндрэлгүйгээр хандах боломжтой болсон.

Bright Data-н урьдчилан бүтээгдсэн Twitter мэдээллийн багцыг ашиглах алхам алхмаар зааварчилгаа

Энэ нийтлэлд би та бүхэнд Bright Data's Marketplace-ийг ашиглан сэтгэл хөдлөлийн дүн шинжилгээ хийх зорилгоор Twitter-ийн өндөр чанартай мэдээлэл олж авах, туршлагаа хуваалцах талаар тайлбарлах болно.

Алхам 1: Бүртгүүлж, Bright Data Platform руу нэвтэрнэ үү

Bright Data вэб сайт руу орж үнэгүй бүртгэл үүсгээрэй. Нэвтрэн орсны дараа та Twitter-тэй холбоотой янз бүрийн урьдчилан бүтээгдсэн мэдээллийн багцад хандах боломжтой Data Marketplace руу чиглүүлэх болно.

Алхам 2: Холбогдох мэдээллийн багцыг хайх

Өгөгдлийн багцаа сонгосны дараа та үүнийг өөрийн дотоод машин руу шууд татаж авах эсвэл API-ээр дамжуулан хандах боломжтой. Хурдан үйл явц нь өндөр чанартай өгөгдөлтэй бараг тэр даруй ажиллаж эхлэх боломжийг олгодог. Би Твиттер нийтлэлийн мэдээллийн багцыг ашигласан

Алхам 3: Өгөгдлийг ачаалж, цэвэрлэ

Твиттерийн түүхий өгөгдөл нь хэрэглэгчийн мэдээлэл, зургийн URL болон бусад текст бус өгөгдөл гэх мэт мэдрэмжийн шинжилгээнд хамааралгүй олон мета өгөгдлийг агуулдаг. Бид жиргээний текст дээр анхаарлаа төвлөрүүлэх болно, учир нь энд сэтгэгдэлийн дүн шинжилгээ хийх, репост хийх, таалагдах зэрэг холбогдох оролцооны хэмжүүрүүд хэрэгжих болно.

 import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()


Дараагийн алхам бол дутуу утгуудыг зохицуулах, хамааралгүй баганыг арилгах замаар өгөгдлийг цэвэрлэх явдал юм.

 df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()


Алхам 4: Мэдрэмжийн шинжилгээ - Жиргээнээс утгыг задлах

Одоо бид өгөгдлийг цэвэрлэж, холбогдох тексттэй болсон тул сэтгэлийн дүн шинжилгээ хийх цаг болжээ. Мэдрэмжийн шинжилгээ гэдэг нь жиргээ эерэг, сөрөг эсвэл төвийг сахисан эсэхээс үл хамааран үгсийн цаана байгаа сэтгэл хөдлөлийн өнгө аясыг тодорхойлох гэсэн үг юм.


Би VADER (Valence Aware Dictionary and Sentiment Reasoner) нэртэй алдартай номын санг ашиглаж байсан бөгөөд үүнийг сошиал медиа текстэд тусгайлан зориулж хийсэн. Сленг, эможи зэрэг албан бус хэллэгтэй харьцахдаа маш сайн.


Доорх кодын хэсэг нь VADER ашиглан сэтгэл хөдлөлийн шинжилгээ хийдэг

 from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()

Алхам 5: Мэдрэмжийн тархалтыг шинжлэх

Мэдрэмжийн оноог тооцоолсны дараа бид жиргээнүүд дунджаар хэр эерэг эсвэл сөрөг байгааг харахын тулд тархалтад дүн шинжилгээ хийж болно. Энэ нь тодорхой сэдэв эсвэл үйл явдлын талаархи олон нийтийн сэтгэл санааны талаархи ойлголтыг өгч чадна. Бид мөн гол сэтгэл хөдлөлийг тодорхойлохын тулд гистограмм эсвэл үгийн үүлэн ашиглан мэдрэмжийн тархалтыг төсөөлж болно.


Энэхүү хуйвалдаан нь эерэг, сөрөг эсвэл төвийг сахисан үзэл санааны тархалтын талаар сайн ойлголт өгөх болно. Энэ тохиолдолд төвийг сахисан жиргээний давтамж өндөр байна.


Алхам 6: Сэтгэцийг оролцоотой уялдуулах

Одоо бид жиргээ бүрийн сэтгэл хөдлөлийн оноотой болсон тул дараагийн алхам бол лайк дарах, дахин байршуулах гэх мэт мэдрэмж болон оролцооны хэмжигдэхүүнүүдийн хооронд ямар нэгэн хамаарал байгаа эсэхийг судлах явдал юм. Сошиал медиа аналитик дээр илүү эерэг сэтгэл хөдлөл нь илүү их оролцоог (илүү их таалагдсан, илүү олон дахин байршуулах) хүргэж чадна гэж найдаж болно. Гэсэн хэдий ч, энэ нь үнэхээр тийм үү?


Үүнийг мэдэхийн тулд бид сэтгэл хөдлөлийн оноо болон оролцооны хэмжүүрүүдийн хоорондын хамаарлыг тооцоолж болох бөгөөд үр дүн нь:

Correlation between sentiment and likes: 0.022806738610786123

Correlation between sentiment and reposts: 0.008885789875330416


Миний өгөгдлийн шинжилгээнээс корреляцийн сул утгыг харгалзан үзэхэд мэдрэмж болон оролцооны хооронд хүчтэй холбоо байхгүй байгааг бид харж байна. Мэдрэмж ба лайк хоёрын хамаарал 0.02 байсан бол мэдрэмж болон репостын хувьд ердөө 0.008 байна. Эдгээр утгууд нь жиргээний сэтгэгдэлд таалагдах, дахин байршуулах зэрэг оролцооны хэмжүүрүүд төдийлөн нөлөөлдөггүйг харуулж байна.

Оролцоход мэдрэмжийн үүргийг дахин эргэцүүлэн бодох нь

Мэдрэмж, оролцоо хоёрын хоорондын хамаарал сул байгаа нь бусад хүчин зүйлүүд нөлөөлж байгааг харуулж байна. Мэдрэмжийн дүн шинжилгээ нь олон нийтийн санаа бодлыг ойлгоход тусалдаг хэдий ч оролцоо нь дараахь нэмэлт хүчин зүйлээс шалтгаална.


  • Агуулгын хамаарал : Тренд болж буй сэдвүүд нь сэтгэл хөдлөлөөс үл хамааран илүү их оролцоог бий болгох хандлагатай байдаг.
  • Хэрэглэгчийн нөлөө : Алдартай акаунтууд жиргээнийхээ сэтгэл хөдлөлөөс үл хамааран илүү өндөр оролцоотой байдаг.
  • Хугацаа : Шууд арга хэмжээ эсвэл ид оргил үед нийтэлсэн жиргээнүүд хүмүүсийн анхаарлыг татах магадлал өндөр байдаг.


Мэдрэмжийн шинжилгээ нь тухайн сэдвийн талаар хүмүүс ямар сэтгэгдэлтэй байгааг ойлгох үнэ цэнэтэй хэрэгсэл боловч оролцооны найдвартай урьдчилан таамаглаж чаддаггүй. Хэрэглэгчийн зан үйлийн талаар илүү гүнзгий ойлголттой болохын тулд агуулгын цаг хугацаа, хамаарал, хэрэглэгчийн нөлөөлөл зэрэг бусад хүчин зүйлсийг харгалзан үзэх нь чухал юм.