paint-brush
របៀបដែលទិន្នន័យលទ្ធកម្មការថែទាំសុខភាពត្រូវបានប្រើប្រាស់ដើម្បីវាយតម្លៃភាពជឿជាក់របស់អ្នកផ្គត់ផ្គង់ដោយ@textmining
106 ការអាន

របៀបដែលទិន្នន័យលទ្ធកម្មការថែទាំសុខភាពត្រូវបានប្រើប្រាស់ដើម្បីវាយតម្លៃភាពជឿជាក់របស់អ្នកផ្គត់ផ្គង់

ដោយ Text Mining
Text Mining HackerNoon profile picture

Text Mining

@textmining

Text Mining

6 នាទី read2024/12/22
Read on Terminal Reader
Read this story in a terminal
Print this story
tldt arrow
km-flagKM
អានរឿងនេះជាភាសាខ្មែរ!
en-flagEN
Read this story in the original language, English!
tr-flagTR
Bu hikayeyi Türkçe okuyun!
es-flagES
Lee esta historia en Español!
ja-flagJA
この物語を日本語で読んでください!
ur-flagUR
اس کہانی کو اردو میں پڑھیں!
ca-flagCA
Llegeix aquesta història a Català!
am-flagAM
ይህንን ታሪክ በአማርኛ ያንብቡ!
gl-flagGL
Le esta historia en galego!
uk-flagUK
Читайте цю історію українською!
da-flagDA
Læs denne historie på dansk!
nso-flagNSO
Bala kanegelo ye ka Sesotho sa Leboa!
lo-flagLO
ອ່ານເລື່ອງນີ້ເປັນພາສາລາວ!
KM

យូរ​ពេក; អាន

ផ្នែកនេះពិភាក្សាអំពីភាពស្មុគស្មាញនៃទិន្នន័យលទ្ធកម្មថែទាំសុខភាព ដោយផ្តោតលើឯកសារដេញថ្លៃ និងពានរង្វាន់ពហុភាសា និងមិនមានរចនាសម្ព័ន្ធរបស់វេទិកា TED និងការបង្កើតមូលដ្ឋានទិន្នន័យដែលមានរចនាសម្ព័ន្ធសម្រាប់ការកំណត់រចនាសម្ព័ន្ធហានិភ័យរបស់អ្នកផ្គត់ផ្គង់។
featured image - របៀបដែលទិន្នន័យលទ្ធកម្មការថែទាំសុខភាពត្រូវបានប្រើប្រាស់ដើម្បីវាយតម្លៃភាពជឿជាក់របស់អ្នកផ្គត់ផ្គង់
Text Mining HackerNoon profile picture
Text Mining

Text Mining

@textmining

Text Mining

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

តារាងតំណភ្ជាប់

  1. អរូបី និងសេចក្តីផ្តើម

  2. ដែន និងកិច្ចការ

    ២.១. ប្រភពទិន្នន័យ និងភាពស្មុគស្មាញ

    ២.២. និយមន័យភារកិច្ច

  3. ការងារពាក់ព័ន្ធ

    ៣.១. ការជីកយករ៉ែអត្ថបទ និងទិដ្ឋភាពទូទៅនៃការស្រាវជ្រាវ NLP

    ៣.២. ការជីកយករ៉ែអត្ថបទ និង NLP ក្នុងការប្រើប្រាស់ឧស្សាហកម្ម

    ៣.៣. ការជីកយករ៉ែអត្ថបទ និង NLP សម្រាប់លទ្ធកម្ម

    ៣.៤. ការសន្និដ្ឋានពីការពិនិត្យឡើងវិញអក្សរសិល្ប៍

  4. វិធីសាស្រ្តដែលបានស្នើឡើង

    ៤.១. ចំណេះដឹងអំពីដែន

    ៤.២. ការទាញយកមាតិកា

    ៤.៣. ការកំណត់តំបន់

    ៤.៤. ការរកឃើញធាតុជាច្រើន។

    ៤.៥. ការញែកច្រើន។

    ៤.៦. ការញែក XML ការភ្ជាប់ទិន្នន័យ និងការអភិវឌ្ឍន៍សន្ទស្សន៍ហានិភ័យ

  5. ការពិសោធន៍និងការបង្ហាញ

    ៥.១. ការវាយតម្លៃសមាសធាតុ

    ៥.២. ការបង្ហាញប្រព័ន្ធ

  6. ការពិភាក្សា

    ៦.១. ការផ្តោតអារម្មណ៍ 'ឧស្សាហកម្ម' នៃគម្រោង

    ៦.២. ភាពខុសគ្នានៃទិន្នន័យ ពហុភាសា និងធម្មជាតិនៃកិច្ចការច្រើន។

    ៦.៣. ភាពលំបាកនៃជម្រើស algorithmic

    ៦.៤. តម្លៃនៃទិន្នន័យបណ្តុះបណ្តាល

  7. សេចក្តីសន្និដ្ឋាន ការទទួលស្គាល់ និងឯកសារយោង

2. ដែន និងកិច្ចការ

ការងារនេះផ្តោតលើលទ្ធកម្មថែទាំសុខភាព ដែលកម្រត្រូវបានសិក្សាក្នុងអក្សរសិល្ប៍។ គោលដៅចម្បងនៃគម្រោងគឺដើម្បីបង្កើតវេទិកាមួយដែលអនុញ្ញាតឱ្យបង្កើត 'ទម្រង់ហានិភ័យរបស់អ្នកផ្គត់ផ្គង់' សម្រាប់អ្នកផ្គត់ផ្គង់ការថែទាំសុខភាពនីមួយៗ។ យើងស្រមៃមើលទម្រង់បែបនេះដើម្បីឱ្យមាន 'សន្ទស្សន៍' ផ្សេងៗគ្នាដែលវាយតម្លៃទស្សនៈផ្សេងៗគ្នា (ឧទាហរណ៍ សមត្ថភាពផ្គត់ផ្គង់ផលិតផលជាក់លាក់ ការគ្របដណ្តប់ភូមិសាស្ត្រ) នៃ 'ហានិភ័យ' សម្រាប់អ្នកទិញសក្តានុពលក្នុងការចុះកិច្ចសន្យាជាមួយអ្នកផ្គត់ផ្គង់។ នេះនឹងអនុញ្ញាតឱ្យសំណួរដូចជា 'តើអ្នកណាជាអ្នកផ្គត់ផ្គង់អាចផ្គត់ផ្គង់ថ្នាំប្រភេទនេះ' 'តើពួកគេអាចផ្គត់ផ្គង់សម្រាប់ប្រទេសនេះដល់កម្រិតណា' ឬ 'តើពួកគេអាចផ្គត់ផ្គង់បរិមាណនេះបានទេ' ដើម្បីងាយស្រួលឆ្លើយ។ សំណួរបែបនេះច្រើនតែមានសារៈសំខាន់សម្រាប់ការសម្រេចចិត្តរបស់អ្នកទិញ។ ទោះជាយ៉ាងណាក៏ដោយ ដំណើរការលទ្ធកម្មបច្ចុប្បន្នពឹងផ្អែកលើការរុះរើដោយដៃតាមរយៈឯកសារវែងៗជាច្រើន ដើម្បីស្វែងរកចម្លើយ។ នេះគឺជាដំណើរការប្រើប្រាស់ធនធានយ៉ាងខ្លាំង។ ជាការយល់ច្បាស់ អ្នកបង្កើតគោលដៅចម្បងរបស់យើងនឹងក្លាយជាមូលដ្ឋានទិន្នន័យដែលមានរចនាសម្ព័ន្ធនៃទិន្នន័យកិច្ចសន្យាជាប្រវត្តិសាស្ត្ររបស់អ្នកផ្គត់ផ្គង់ការថែទាំសុខភាព។ ដូច្នេះ គោលដៅបន្ទាប់បន្សំនៃគម្រោងគឺដើម្បីបង្កើតមូលដ្ឋានទិន្នន័យបែបនេះ ហើយបញ្ចូលវាជាមួយនឹងទិន្នន័យលទ្ធកម្មការថែទាំសុខភាពជាប្រវត្តិសាស្ត្រ។ ខណៈពេលដែលទិន្នន័យលទ្ធកម្មសាធារណៈមានយ៉ាងទូលំទូលាយ ដូចដែលយើងនឹងពន្យល់នៅខាងក្រោមនេះ វាមានល្បាយនៃទិន្នន័យពហុភាសាដែលមានរចនាសម្ព័ន្ធ ពាក់កណ្តាលរចនាសម្ព័ន្ធ និងមិនមានរចនាសម្ព័ន្ធ ដែលត្រូវការរុករក និងភ្ជាប់។ ដូច្នេះផ្នែកសំខាន់នៃការងាររបស់គម្រោងគឺកំពុងបង្កើតការជីកយករ៉ែអត្ថបទ និងដំណោះស្រាយ NLP ដែលដំណើរការដោយស្វ័យប្រវត្តិនូវបរិមាណដ៏ធំនៃទិន្នន័យលទ្ធកម្មដែលមិនមានរចនាសម្ព័ន្ធចំពោះព័ត៌មានអណ្តូងរ៉ែដែលអាចត្រូវបានប្រើដើម្បីផ្ទុកមូលដ្ឋានទិន្នន័យ។ ដូច្នេះ គោលដៅនៃអត្ថបទនេះគឺដើម្បីរាយការណ៍ពីការអភិវឌ្ឍន៍នៃការជីកយករ៉ែអត្ថបទ និងវិធីសាស្ត្រ NLP ទាំងនេះ។

២.១. ប្រភពទិន្នន័យ និងភាពស្មុគស្មាញ

គម្រោងនេះផ្តោតលើទិន្នន័យលទ្ធកម្មពីវេទិកា 'Tenders Electronic Daily' (TED) ដែលត្រូវបានប្រើប្រាស់ដោយរដ្ឋាភិបាលសហភាពអឺរ៉ុបដើម្បីផ្សព្វផ្សាយគម្រោងទាក់ទងនឹងលទ្ធកម្មសាធារណៈរបស់ពួកគេ។ TED បោះពុម្ពផ្សាយជាង 460,000 ការអំពាវនាវសម្រាប់ការដេញថ្លៃ និងពានរង្វាន់កិច្ចសន្យាជាភាសាអឺរ៉ុបផ្លូវការចំនួន 26 ក្នុងមួយឆ្នាំ ក្នុងតម្លៃប្រហែល 420 ពាន់លានអឺរ៉ូ។ ការដេញថ្លៃនីមួយៗអាចត្រូវបានបែងចែកទៅជា 'ឡូតិ៍' ជាច្រើន ដែលច្រើនគឺជាឯកតាកិច្ចសន្យាតូចបំផុត។ ឡូតិ៍នីមួយៗអាចមានធាតុជាច្រើនដែលត្រូវការ។ ជាឧទាហរណ៍ សេចក្តីជូនដំណឹងអំពីការដេញថ្លៃ '2019/S 180-437985'[1] រាយបញ្ជីចំនួន 47 ពីការដេញថ្លៃ NHS (UK) ដោយទំហំរបស់ពួកគេមានចាប់ពី 2 ដល់ជាង 30 ធាតុ។ ប្រសិនបើការដេញថ្លៃធានាការដេញថ្លៃជោគជ័យ 'ពានរង្វាន់កិច្ចសន្យា' (ឬពានរង្វាន់ជាច្រើន) នឹងត្រូវធ្វើឡើង និងកត់ត្រានៅក្នុង TED សម្រាប់ការដេញថ្លៃ។ ខាងក្រោមនេះ ជាប្រយោជន៍នៃការពន្យល់ យើងសន្មត់ថាមានរង្វាន់មួយសម្រាប់ការដេញថ្លៃនីមួយៗ (ទោះជាយ៉ាងណានៅក្នុងការអនុវត្ត វិធីសាស្រ្តរបស់យើងត្រូវបានអនុវត្តចំពោះរង្វាន់ទាំងអស់ដែលមានសម្រាប់ការដេញថ្លៃ)។ ចំណាំការផ្តល់ជូននៅក្នុងការដេញថ្លៃមួយ ហើយរង្វាន់កិច្ចសន្យាបង្កើតបានជាទំនាក់ទំនង 'ច្រើនទៅច្រើន' ។ ពោលគឺ ដីឡូតិ៍ជាច្រើនអាចត្រូវបានប្រគល់ជូនអង្គភាពតែមួយ និងត្រូវបានចងក្រងជាឯកសារក្នុងពានរង្វាន់កិច្ចសន្យាតែមួយ។ មួយឡូតិ៍ក៏អាចត្រូវបានផ្តល់រង្វាន់ដល់អង្គភាពជាច្រើន បង្កើតជារង្វាន់កិច្ចសន្យាជាច្រើន; រង្វាន់កិច្ចសន្យាតែមួយអាចរួមបញ្ចូលមួយ ឬច្រើន។


នៅលើ TED ការដេញថ្លៃនីមួយៗ និងពានរង្វាន់កិច្ចសន្យាដែលត្រូវគ្នារបស់វាមានឯកសារ XML ដែលមានរចនាសម្ព័ន្ធដែលចងក្រងឯកសារសំខាន់ៗនៃព័ត៌មាន។ យើងសំដៅទៅលើទាំងនេះថាជា 'XML ដេញថ្លៃ' និង 'រង្វាន់ XML' ។ ឧទាហរណ៍នៃ XML ដេញថ្លៃត្រូវបានបង្ហាញក្នុងរូបភាពទី 1 ។ ពានរង្វាន់ XML ជាទូទៅធ្វើតាមរចនាសម្ព័ន្ធដូចគ្នា។ ឯកសារ XMLs នៃការដេញថ្លៃដូចជាអ្នកទិញ ដីឡូតិ៍ ធាតុនៃដីឡូតិ៍ លក្ខខណ្ឌនៃកិច្ចសន្យា។ល។ ពានរង្វាន់ XMLs កត់ត្រាអ្នកទិញ ឡូតិ៍ អ្នកផ្គត់ផ្គង់ដែលទទួលបានរង្វាន់សម្រាប់ឡូត៍នីមួយៗ តម្លៃកិច្ចសន្យា បរិមាណ។ល។ ការដេញថ្លៃនីមួយៗក៏អាចមាន ការប្រមូលផ្ដុំនៃ 'ឯកសារភ្ជាប់" ដែលផ្តល់ព័ត៌មានលម្អិតបន្ថែមនៃការដេញថ្លៃ ជាពិសេសលើចំនួន និងវត្ថុ ('ឯកសារភ្ជាប់ដេញថ្លៃ")


រូបភាពទី 1. ការដកស្រង់នៃគំរូដេញថ្លៃ XML ពី TED (លេខសម្គាល់ 2020/S 050-119757) ។ ចំណាំ ផ្នែក II.2.1 រាយបញ្ជីដីជាក់លាក់មួយ និងធាតុរបស់វា ខណៈដែល II.2.5 រាយបញ្ជីលក្ខខណ្ឌនៃកិច្ចសន្យា។

រូបភាពទី 1. ការដកស្រង់នៃគំរូដេញថ្លៃ XML ពី TED (លេខសម្គាល់ 2020/S 050-119757) ។ ចំណាំ ផ្នែក II.2.1 រាយបញ្ជីដីជាក់លាក់មួយ និងធាតុរបស់វា ខណៈដែល II.2.5 រាយបញ្ជីលក្ខខណ្ឌនៃកិច្ចសន្យា។


ដោយសារភាពអាចរកបាននៃការដេញថ្លៃ និងការផ្តល់រង្វាន់ XMLs មនុស្សម្នាក់អាចពិចារណាលើភារកិច្ចនៃការអភិវឌ្ឍន៍ និងបង្កើតមូលដ្ឋានទិន្នន័យឱ្យមានភាពងាយស្រួល។ ទោះជាយ៉ាងណាក៏ដោយ ទិន្នន័យនៅក្នុងការពិតគឺកាន់តែស្មុគស្មាញ។ ជាដំបូង និងសំខាន់បំផុត ការដេញថ្លៃ និងពានរង្វាន់ XML ជាញឹកញាប់មិនពេញលេញ។ ព័ត៌មានដែលបាត់លេចធ្លោជាងគេគឺព័ត៌មានច្រើន និងព័ត៌មាន។ ជាឧទាហរណ៍ ការដេញថ្លៃ XML សម្រាប់ '2019/S 180-437985' លើកឡើងចំនួន 47 នៅក្នុងការដេញថ្លៃ ដោយមិនលម្អិតអំពីធាតុជាក់លាក់ ប៉ុន្តែមានលេខយោងច្រើន។ ព័ត៌មានសំខាន់នេះអាចរកបានពីការទាញយកភាគច្រើននៃឯកសារភ្ជាប់ដេញថ្លៃចំនួន 7 (PDF) ។ ទាំង XMLs ដេញថ្លៃ និងផ្តល់រង្វាន់ បន្ទាប់មកឆ្លងកាត់ប្រភពទិន្នន័យទាំងនេះ តាមរយៈការប្រើប្រាស់ឯកសារយោងច្រើន។ ការយកមកវិញនូវព័ត៌មានបែបនេះគឺមានសារៈសំខាន់ណាស់ក្នុងការកសាងទម្រង់ហានិភ័យរបស់អ្នកផ្គត់ផ្គង់ ដែលចាំបាច់ត្រូវគិតគូរពីជួរ និងបរិមាណនៃផលិតផលដែលអ្នកផ្គត់ផ្គង់បានផ្គត់ផ្គង់នាពេលកន្លងមក។ ទីពីរ មិនមែនរាល់ឯកសារភ្ជាប់ដេញថ្លៃសុទ្ធតែពាក់ព័ន្ធសម្រាប់គោលបំណងរបស់យើងនោះទេ។ ក្នុងចំណោមឯកសារទាំងនោះសម្រាប់ '2019/S 180-437985' ឯកសារ PDF ពីររាយបញ្ជីចំនួន និងធាតុជាក់ស្តែង (ឧទាហរណ៍ រូបភាពទី 2) ខណៈពេលដែលឯកសារផ្សេងទៀតបង្ហាញពីលក្ខណៈបច្ចេកទេស តម្រូវការ បទប្បញ្ញត្តិ និងពិធីការ។ ព័ត៌មាន។ ឧទាហរណ៍ រូបភាពទី 3 បង្ហាញថានៅក្នុងការដេញថ្លៃមួយផ្សេងទៀត ច្រើន និងធាតុត្រូវបានពិពណ៌នានៅក្នុងទំព័រមួយ ប៉ុន្តែផ្នែកផ្សេងគ្នានៃឯកសារវែងមួយ។ ទីបួន ដូចដែលវាត្រូវបានបង្ហាញរួចហើយនៅក្នុងរូបភាពទី 2 និងទី 3 មានភាពមិនស្របគ្នាយ៉ាងសំខាន់ចំពោះចំនួនព័ត៌មាន និងធាតុត្រូវបានពិពណ៌នានៅក្នុងប្រទេសតែមួយ ឬជាការពិត សូម្បីតែអង្គការដូចគ្នាក៏ដោយ។ ភាពខុសគ្នានេះត្រូវបានគេសង្កេតឃើញនៅកម្រិតផ្សេងៗគ្នាដូចជា៖ ការប្រើប្រាស់ទម្រង់រចនាសម្ព័ន្ធ (ឧទាហរណ៍ អត្ថបទឥតគិតថ្លៃទល់នឹងតារាង/បញ្ជី); ចំនួននៃព័ត៌មានដែលបានអ៊ិនកូដ (ឧទាហរណ៍ តារាងក្នុងរូបភាពទី 2 រាយជួរ 16 ជួរ (គុណលក្ខណៈ) សម្រាប់ធាតុនីមួយៗ) សូម្បីតែសម្រាប់ប្រភេទផលិតផល/សេវាកម្មដូចគ្នាក៏ដោយ។ និងអត្ថន័យនៃរចនាសម្ព័ន្ធដែលរចនាសម្ព័ន្ធត្រូវបានអនុម័ត (ឧទាហរណ៍លំដាប់និងឈ្មោះនៃជួរឈរ) ។ កម្រិតខ្ពស់នៃភាពស្មុគស្មាញ និងភាពមិនស៊ីសង្វាក់គ្នាបែបនេះអាចជាហេតុផលចម្បងមួយដែលហេតុអ្វីបានជាមានការខ្វះខាតនៃការជីកយករ៉ែអត្ថបទ និងការសិក្សា NLP ឬកម្មវិធីសម្រាប់លទ្ធកម្មថែទាំសុខភាព។


រូបភាពទី 2. រូបថតនៃឯកសារភ្ជាប់ PDF ដែលជាផ្នែកមួយនៃការដេញថ្លៃ '2019/S 180-437985' (NHS, UK) ។ រូបភាពបង្ហាញតែជួរឈរមួយចំនួននៃតារាងប៉ុណ្ណោះ ដោយសារទំហំទំព័រមានកំណត់។ ជួរនីមួយៗពណ៌នាអំពីធាតុមួយ ខណៈដែលជួរទី 1 បង្ហាញពីសេចក្តីយោងច្រើន (ជាលេខ)។

រូបភាពទី 2. រូបថតនៃឯកសារភ្ជាប់ PDF ដែលជាផ្នែកមួយនៃការដេញថ្លៃ '2019/S 180-437985' (NHS, UK) ។ រូបភាពបង្ហាញតែជួរឈរមួយចំនួននៃតារាងប៉ុណ្ណោះ ដោយសារទំហំទំព័រមានកំណត់។ ជួរនីមួយៗពណ៌នាអំពីធាតុមួយ ខណៈដែលជួរទី 1 បង្ហាញពីសេចក្តីយោងច្រើន (ជាលេខ)។


រូបភាពទី 3. សម្រង់នៃឯកសារភ្ជាប់ PDF មួយដែលជាផ្នែកមួយនៃការដេញថ្លៃ '2020/S 111-270678' (នាយកដ្ឋានសុខភាព និងការថែទាំសង្គម ចក្រភពអង់គ្លេស)។ រូបភាពបង្ហាញតែផ្នែកនៃទំព័រនៃឯកសារ PDF មួយប៉ុណ្ណោះដែលរាយបញ្ជីច្រើន និងធាតុ។ ព័ត៌មានតម្លៃត្រូវបានបង្ហាញនៅលើទំព័រផ្សេងទៀត។

រូបភាពទី 3. សម្រង់នៃឯកសារភ្ជាប់ PDF មួយដែលជាផ្នែកមួយនៃការដេញថ្លៃ '2020/S 111-270678' (នាយកដ្ឋានសុខភាព និងការថែទាំសង្គម ចក្រភពអង់គ្លេស)។ រូបភាពបង្ហាញតែផ្នែកនៃទំព័រនៃឯកសារ PDF មួយប៉ុណ្ណោះដែលរាយបញ្ជីច្រើន និងធាតុ។ ព័ត៌មានតម្លៃត្រូវបានបង្ហាញនៅលើទំព័រផ្សេងទៀត។


អ្នកនិពន្ធ៖

(1) Ziqi Zhang*, សាលាព័ត៌មាន, សាកលវិទ្យាល័យ Sheffield, Regent Court, Sheffield, UKS1 4DP (Ziqi.Zhang@sheffield.ac.uk);

(2) Tomas Jasaitis, Vamstar Ltd., London (Tomas.Jasaitis@vamstar.io);

(3) Richard Freeman, Vamstar Ltd., London (Richard.Freeman@vamstar.io);

(4) Rowida Alfrjani, សាលាព័ត៌មាន, សាកលវិទ្យាល័យ Sheffield, Regent Court, Sheffield, UKS1 4DP (Rowida.Alfrjani@sheffield.ac.uk);

(5) Adam Funk, សាលាព័ត៌មាន, សាកលវិទ្យាល័យ Sheffield, Regent Court, Sheffield, UKS1 4DP (Adam.Funk@sheffield.ac.uk) ។


ក្រដាសនេះគឺ មាននៅលើ arxiv ក្រោមអាជ្ញាប័ណ្ណ CC BY 4.0 ។

[1] https://ted.europa.eu/udl?uri=TED:NOTICE:437985-2019:TEXT:EN:HTML, ចូលប្រើចុងក្រោយ៖ ខែវិច្ឆិកា ឆ្នាំ 2022

L O A D I N G
. . . comments & more!

About Author

Text Mining HackerNoon profile picture
Text Mining@textmining
Text Mining

ព្យួរស្លាក

អត្ថបទនេះត្រូវបានបង្ហាញនៅក្នុង...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here
X REMOVE AD