Машины сургалт дахь өгөгдлийн үүрэг  Орчин үеийн хиймэл оюун ухаанд суурилсан орчинд машин сургалт, хиймэл оюун ухаан, чатботууд урьд өмнө байгаагүй хурдацтай салбаруудыг өөрчилж байна.  Илүү олон бизнесүүд хиймэл оюун ухааныг үйл ажиллагаандаа нэгтгэхийг эрэлхийлж байгаа ч эдгээр системийг хэрхэн бүтээж байгааг анзаардаггүй. Үндсэн найрлага? Өгөгдөл. Машин сургалтын загвар нь сургагдсан өгөгдлөөрөө л сайн байдаг. Гэхдээ энэ бүх өгөгдөл хаанаас гардаг вэ?  Бидний найддаг өгөгдлийн нэлээд хэсэг нь олон нийтэд нээлттэй байдаг бөгөөд үүнийг ихэвчлэн сошиал медиа нийтлэл, хэрэглэгчийн сэтгэгдэл болон бусад онлайн контентоос олдог.   хувьд мэдээллийн хамгийн баялаг эх сурвалжуудын нэг бол хэрэглэгчийн үүсгэсэн контентыг бодит цагийн турш тасралтгүй дамжуулдаг   юм. Гэсэн хэдий ч сорилт нь энэ өгөгдлийг хэрхэн үр дүнтэй, цэвэрхэн цуглуулах явдал юм. Мэдрэмжийн шинжилгээний Twitter  Уламжлалт Twitter мэдээлэл цуглуулах асуудал  Би Twitter-ийн өгөгдлийг ашиглан сэтгэл хөдлөлийн шинжилгээний төсөл дээр ажиллаж эхлэхдээ Twitter API-г ашиглах талаар бодож байсан. Гэсэн хэдий ч би маш чухал хязгаарлалттай тулгарсан: үнэгүй түвшний API нь зөвхөн өмнөх долоон өдрийн жиргээнд хандах боломжийг олгодог. Сэтгэлийн иж бүрэн дүн шинжилгээ хийх, ялангуяа долоо хоног, сараар үргэлжлэх чиг хандлагатай сэдэв, улс төрийн үйл явдлын хувьд энэхүү хязгаарлалт нь байгаа мэдээллийн цар хүрээ, чанарыг эрс хязгаарладаг.  Илүү өндөр API шатлал руу шинэчлэх нь сонголт байсан ч минийх шиг жижиг хэмжээний төслийн өртөг өндөр байсан. Энэ нь надад хоёр замыг үлдээсэн: уламжлалт хусах замаар өгөгдлийг гараар цуглуулах оролдлого (энэ нь CAPTCHA, орон тооны цомхотгол, бүрэн бус бүртгэл гэх мэт өөрийн гэсэн сорилтуудтай тулгардаг) эсвэл өөр шийдлийг олох.  Твиттерийн цэвэр, өргөтгөх боломжтой, түүхэн мэдээллийн багцыг санал болгосноор эдгээр асуудлыг саадгүй шийдэж, Bright Data нь энд л гарч ирдэг. API хязгаарлалтаар хязгаарлагдахын оронд би төслийнхөө олон төрлийн, өндөр чанартай өгөгдөлд ердийн хүндрэлгүйгээр хандах боломжтой болсон.  Bright Data-н урьдчилан бүтээгдсэн Twitter мэдээллийн багцыг ашиглах алхам алхмаар зааварчилгаа  Энэ нийтлэлд би та бүхэнд Bright Data's Marketplace-ийг ашиглан сэтгэл хөдлөлийн дүн шинжилгээ хийх зорилгоор Twitter-ийн өндөр чанартай мэдээлэл олж авах, туршлагаа хуваалцах талаар тайлбарлах болно.  Алхам 1: Бүртгүүлж, Bright Data Platform руу нэвтэрнэ үү  Bright Data вэб сайт руу орж үнэгүй бүртгэл үүсгээрэй. Нэвтрэн орсны дараа та Twitter-тэй холбоотой янз бүрийн урьдчилан бүтээгдсэн мэдээллийн багцад хандах боломжтой Data Marketplace руу чиглүүлэх болно.  Алхам 2: Холбогдох мэдээллийн багцыг хайх  Өгөгдлийн багцаа сонгосны дараа та үүнийг өөрийн дотоод машин руу шууд татаж авах эсвэл API-ээр дамжуулан хандах боломжтой. Хурдан үйл явц нь өндөр чанартай өгөгдөлтэй бараг тэр даруй ажиллаж эхлэх боломжийг олгодог. Би Твиттер нийтлэлийн мэдээллийн багцыг ашигласан  Алхам 3: Өгөгдлийг ачаалж, цэвэрлэ  Твиттерийн түүхий өгөгдөл нь хэрэглэгчийн мэдээлэл, зургийн URL болон бусад текст бус өгөгдөл гэх мэт мэдрэмжийн шинжилгээнд хамааралгүй олон мета өгөгдлийг агуулдаг. Бид жиргээний текст дээр анхаарлаа төвлөрүүлэх болно, учир нь энд сэтгэгдэлийн дүн шинжилгээ хийх, репост хийх, таалагдах зэрэг холбогдох оролцооны хэмжүүрүүд хэрэгжих болно.   import pandas as pd df = pd.read_csv("path_to_your_dataset.csv") df.head()  Дараагийн алхам бол дутуу утгуудыг зохицуулах, хамааралгүй баганыг арилгах замаар өгөгдлийг цэвэрлэх явдал юм.   df_clean = df[['user_posted', 'description', 'date_posted', 'reposts', 'likes']] df_clean = df_clean.dropna(subset=['description']) df_clean = df_clean.drop_duplicates(subset=['description']) df_clean.head()  Алхам 4: Мэдрэмжийн шинжилгээ - Жиргээнээс утгыг задлах  Одоо бид өгөгдлийг цэвэрлэж, холбогдох тексттэй болсон тул   хийх цаг болжээ. Мэдрэмжийн шинжилгээ гэдэг нь жиргээ эерэг, сөрөг эсвэл төвийг сахисан эсэхээс үл хамааран үгсийн цаана байгаа сэтгэл хөдлөлийн өнгө аясыг тодорхойлох гэсэн үг юм. сэтгэлийн дүн шинжилгээ  Би   (Valence Aware Dictionary and Sentiment Reasoner) нэртэй алдартай номын санг ашиглаж байсан бөгөөд үүнийг сошиал медиа текстэд тусгайлан зориулж хийсэн. Сленг, эможи зэрэг албан бус хэллэгтэй харьцахдаа маш сайн. VADER  Доорх кодын хэсэг нь VADER ашиглан сэтгэл хөдлөлийн шинжилгээ хийдэг   from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer analyzer = SentimentIntensityAnalyzer() def get_sentiment(text): sentiment = analyzer.polarity_scores(text) return sentiment['compound'] df_clean['sentiment'] = df_clean['description'].apply(get_sentiment) df_clean.head()  Алхам 5: Мэдрэмжийн тархалтыг шинжлэх  Мэдрэмжийн оноог тооцоолсны дараа бид жиргээнүүд дунджаар хэр эерэг эсвэл сөрөг байгааг харахын тулд тархалтад дүн шинжилгээ хийж болно. Энэ нь тодорхой сэдэв эсвэл үйл явдлын талаархи олон нийтийн сэтгэл санааны талаархи ойлголтыг өгч чадна. Бид мөн гол сэтгэл хөдлөлийг тодорхойлохын тулд   эсвэл   ашиглан мэдрэмжийн тархалтыг төсөөлж болно.  гистограмм үгийн үүлэн  Энэхүү хуйвалдаан нь эерэг, сөрөг эсвэл төвийг сахисан үзэл санааны тархалтын талаар сайн ойлголт өгөх болно. Энэ тохиолдолд төвийг сахисан жиргээний давтамж өндөр байна.  Алхам 6: Сэтгэцийг оролцоотой уялдуулах  Одоо бид жиргээ бүрийн сэтгэл хөдлөлийн оноотой болсон тул дараагийн алхам бол лайк дарах, дахин байршуулах гэх мэт мэдрэмж болон оролцооны хэмжигдэхүүнүүдийн хооронд ямар нэгэн хамаарал байгаа эсэхийг судлах явдал юм. Сошиал медиа аналитик дээр илүү эерэг сэтгэл хөдлөл нь илүү их оролцоог (илүү их таалагдсан, илүү олон дахин байршуулах) хүргэж чадна гэж найдаж болно. Гэсэн хэдий ч, энэ нь үнэхээр тийм үү?  Үүнийг мэдэхийн тулд бид сэтгэл хөдлөлийн оноо болон оролцооны хэмжүүрүүдийн хоорондын хамаарлыг тооцоолж болох бөгөөд үр дүн нь:   Correlation between sentiment and likes: 0.022806738610786123   Correlation between sentiment and reposts: 0.008885789875330416  Миний өгөгдлийн шинжилгээнээс корреляцийн сул утгыг харгалзан үзэхэд мэдрэмж болон оролцооны хооронд хүчтэй холбоо байхгүй байгааг бид харж байна. Мэдрэмж ба лайк хоёрын хамаарал 0.02 байсан бол мэдрэмж болон репостын хувьд ердөө 0.008 байна. Эдгээр утгууд нь   харуулж байна. жиргээний сэтгэгдэлд таалагдах, дахин байршуулах зэрэг оролцооны хэмжүүрүүд төдийлөн нөлөөлдөггүйг  Оролцоход мэдрэмжийн үүргийг дахин эргэцүүлэн бодох нь  Мэдрэмж, оролцоо хоёрын хоорондын хамаарал сул байгаа нь бусад хүчин зүйлүүд нөлөөлж байгааг харуулж байна. Мэдрэмжийн дүн шинжилгээ нь олон нийтийн санаа бодлыг ойлгоход тусалдаг хэдий ч оролцоо нь дараахь нэмэлт хүчин зүйлээс шалтгаална.    : Тренд болж буй сэдвүүд нь сэтгэл хөдлөлөөс үл хамааран илүү их оролцоог бий болгох хандлагатай байдаг. Агуулгын хамаарал    : Алдартай акаунтууд жиргээнийхээ сэтгэл хөдлөлөөс үл хамааран илүү өндөр оролцоотой байдаг. Хэрэглэгчийн нөлөө    : Шууд арга хэмжээ эсвэл ид оргил үед нийтэлсэн жиргээнүүд хүмүүсийн анхаарлыг татах магадлал өндөр байдаг. Хугацаа  Мэдрэмжийн шинжилгээ нь тухайн сэдвийн талаар хүмүүс ямар сэтгэгдэлтэй байгааг ойлгох үнэ цэнэтэй хэрэгсэл боловч оролцооны найдвартай урьдчилан таамаглаж чаддаггүй. Хэрэглэгчийн зан үйлийн талаар илүү гүнзгий ойлголттой болохын тулд агуулгын цаг хугацаа, хамаарал, хэрэглэгчийн нөлөөлөл зэрэг бусад хүчин зүйлсийг харгалзан үзэх нь чухал юм.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Read My Stories

Энэхүү аудио нь түүхийн эх хэлээр хийгдсэн болно!

Мэдрэмжийн шинжилгээнд тод өгөгдлийг хэрхэн ашиглах вэ

About Author

Сэтгэгдлүүд

TAG ҮҮ

ЭНЭ ӨГҮҮЛЛИЙГ ТОЛГОЙЛУУЛСАН

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps