Орчин үеийн хиймэл оюун ухаанд суурилсан орчинд машин сургалт, хиймэл оюун ухаан, чатботууд урьд өмнө байгаагүй хурдацтай салбаруудыг өөрчилж байна.
Илүү олон бизнесүүд хиймэл оюун ухааныг үйл ажиллагаандаа нэгтгэхийг эрэлхийлж байгаа ч эдгээр системийг хэрхэн бүтээж байгааг анзаардаггүй. Үндсэн найрлага? Өгөгдөл. Машин сургалтын загвар нь сургагдсан өгөгдлөөрөө л сайн байдаг. Гэхдээ энэ бүх өгөгдөл хаанаас гардаг вэ?
Бидний найддаг өгөгдлийн нэлээд хэсэг нь олон нийтэд нээлттэй байдаг бөгөөд үүнийг ихэвчлэн сошиал медиа нийтлэл, хэрэглэгчийн сэтгэгдэл болон бусад онлайн контентоос олдог. Мэдрэмжийн шинжилгээний хувьд мэдээллийн хамгийн баялаг эх сурвалжуудын нэг бол хэрэглэгчийн үүсгэсэн контентыг бодит цагийн турш тасралтгүй дамжуулдаг Twitter юм. Гэсэн хэдий ч сорилт нь энэ өгөгдлийг хэрхэн үр дүнтэй, цэвэрхэн цуглуулах явдал юм.
Би Twitter-ийн өгөгдлийг ашиглан сэтгэл хөдлөлийн шинжилгээний төсөл дээр ажиллаж эхлэхдээ Twitter API-г ашиглах талаар бодож байсан. Гэсэн хэдий ч би маш чухал хязгаарлалттай тулгарсан: үнэгүй түвшний API нь зөвхөн өмнөх долоон өдрийн жиргээнд хандах боломжийг олгодог. Сэтгэлийн иж бүрэн дүн шинжилгээ хийх, ялангуяа долоо хоног, сараар үргэлжлэх чиг хандлагатай сэдэв, улс төрийн үйл явдлын хувьд энэхүү хязгаарлалт нь байгаа мэдээллийн цар хүрээ, чанарыг эрс хязгаарладаг.
Илүү өндөр API шатлал руу шинэчлэх нь сонголт байсан ч минийх шиг жижиг хэмжээний төслийн өртөг өндөр байсан. Энэ нь надад хоёр замыг үлдээсэн: уламжлалт хусах замаар өгөгдлийг гараар цуглуулах оролдлого (энэ нь CAPTCHA, орон тооны цомхотгол, бүрэн бус бүртгэл гэх мэт өөрийн гэсэн сорилтуудтай тулгардаг) эсвэл өөр шийдлийг олох.
Твиттерийн цэвэр, өргөтгөх боломжтой, түүхэн мэдээллийн багцыг санал болгосноор эдгээр асуудлыг саадгүй шийдэж, Bright Data нь энд л гарч ирдэг. API хязгаарлалтаар хязгаарлагдахын оронд би төслийнхөө олон төрлийн, өндөр чанартай өгөгдөлд ердийн хүндрэлгүйгээр хандах боломжтой болсон.
Энэ нийтлэлд би та бүхэнд Bright Data's Marketplace-ийг ашиглан сэтгэл хөдлөлийн дүн шинжилгээ хийх зорилгоор Twitter-ийн өндөр чанартай мэдээлэл олж авах, туршлагаа хуваалцах талаар тайлбарлах болно.
Bright Data вэб сайт руу орж үнэгүй бүртгэл үүсгээрэй. Нэвтрэн орсны дараа та Twitter-тэй холбоотой янз бүрийн урьдчилан бүтээгдсэн мэдээллийн багцад хандах боломжтой Data Marketplace руу чиглүүлэх болно.
Өгөгдлийн багцаа сонгосны дараа та үүнийг өөрийн дотоод машин руу шууд татаж авах эсвэл API-ээр дамжуулан хандах боломжтой. Хурдан үйл явц нь өндөр чанартай өгөгдөлтэй бараг тэр даруй ажиллаж эхлэх боломжийг олгодог. Би Твиттер нийтлэлийн мэдээллийн багцыг ашигласан
Твиттерийн түүхий өгөгдөл нь хэрэглэгчийн мэдээлэл, зургийн URL болон бусад текст бус өгөгдөл гэх мэт мэдрэмжийн шинжилгээнд хамааралгүй олон мета өгөгдлийг агуулдаг. Бид жиргээний текст дээр анхаарлаа төвлөрүүлэх болно, учир нь энд сэтгэгдэлийн дүн шинжилгээ хийх, репост хийх, таалагдах зэрэг холбогдох оролцооны хэмжүүрүүд хэрэгжих болно.
import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()
Дараагийн алхам бол дутуу утгуудыг зохицуулах, хамааралгүй баганыг арилгах замаар өгөгдлийг цэвэрлэх явдал юм.
df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()
Одоо бид өгөгдлийг цэвэрлэж, холбогдох тексттэй болсон тул сэтгэлийн дүн шинжилгээ хийх цаг болжээ. Мэдрэмжийн шинжилгээ гэдэг нь жиргээ эерэг, сөрөг эсвэл төвийг сахисан эсэхээс үл хамааран үгсийн цаана байгаа сэтгэл хөдлөлийн өнгө аясыг тодорхойлох гэсэн үг юм.
Би VADER (Valence Aware Dictionary and Sentiment Reasoner) нэртэй алдартай номын санг ашиглаж байсан бөгөөд үүнийг сошиал медиа текстэд тусгайлан зориулж хийсэн. Сленг, эможи зэрэг албан бус хэллэгтэй харьцахдаа маш сайн.
Доорх кодын хэсэг нь VADER ашиглан сэтгэл хөдлөлийн шинжилгээ хийдэг
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()
Мэдрэмжийн оноог тооцоолсны дараа бид жиргээнүүд дунджаар хэр эерэг эсвэл сөрөг байгааг харахын тулд тархалтад дүн шинжилгээ хийж болно. Энэ нь тодорхой сэдэв эсвэл үйл явдлын талаархи олон нийтийн сэтгэл санааны талаархи ойлголтыг өгч чадна. Бид мөн гол сэтгэл хөдлөлийг тодорхойлохын тулд гистограмм эсвэл үгийн үүлэн ашиглан мэдрэмжийн тархалтыг төсөөлж болно.
Энэхүү хуйвалдаан нь эерэг, сөрөг эсвэл төвийг сахисан үзэл санааны тархалтын талаар сайн ойлголт өгөх болно. Энэ тохиолдолд төвийг сахисан жиргээний давтамж өндөр байна.
Одоо бид жиргээ бүрийн сэтгэл хөдлөлийн оноотой болсон тул дараагийн алхам бол лайк дарах, дахин байршуулах гэх мэт мэдрэмж болон оролцооны хэмжигдэхүүнүүдийн хооронд ямар нэгэн хамаарал байгаа эсэхийг судлах явдал юм. Сошиал медиа аналитик дээр илүү эерэг сэтгэл хөдлөл нь илүү их оролцоог (илүү их таалагдсан, илүү олон дахин байршуулах) хүргэж чадна гэж найдаж болно. Гэсэн хэдий ч, энэ нь үнэхээр тийм үү?
Үүнийг мэдэхийн тулд бид сэтгэл хөдлөлийн оноо болон оролцооны хэмжүүрүүдийн хоорондын хамаарлыг тооцоолж болох бөгөөд үр дүн нь:
Correlation between sentiment and likes: 0.022806738610786123
Correlation between sentiment and reposts: 0.008885789875330416
Миний өгөгдлийн шинжилгээнээс корреляцийн сул утгыг харгалзан үзэхэд мэдрэмж болон оролцооны хооронд хүчтэй холбоо байхгүй байгааг бид харж байна. Мэдрэмж ба лайк хоёрын хамаарал 0.02 байсан бол мэдрэмж болон репостын хувьд ердөө 0.008 байна. Эдгээр утгууд нь жиргээний сэтгэгдэлд таалагдах, дахин байршуулах зэрэг оролцооны хэмжүүрүүд төдийлөн нөлөөлдөггүйг харуулж байна.
Мэдрэмж, оролцоо хоёрын хоорондын хамаарал сул байгаа нь бусад хүчин зүйлүүд нөлөөлж байгааг харуулж байна. Мэдрэмжийн дүн шинжилгээ нь олон нийтийн санаа бодлыг ойлгоход тусалдаг хэдий ч оролцоо нь дараахь нэмэлт хүчин зүйлээс шалтгаална.
Мэдрэмжийн шинжилгээ нь тухайн сэдвийн талаар хүмүүс ямар сэтгэгдэлтэй байгааг ойлгох үнэ цэнэтэй хэрэгсэл боловч оролцооны найдвартай урьдчилан таамаглаж чаддаггүй. Хэрэглэгчийн зан үйлийн талаар илүү гүнзгий ойлголттой болохын тулд агуулгын цаг хугацаа, хамаарал, хэрэглэгчийн нөлөөлөл зэрэг бусад хүчин зүйлсийг харгалзан үзэх нь чухал юм.