paint-brush
إتقان الرسوم البيانية المعرفية في مجال القانون: إنشاء وتنفيذ GraphRAG في 5 دقائق فقطبواسطة@neo4j
تاريخ جديد

إتقان الرسوم البيانية المعرفية في مجال القانون: إنشاء وتنفيذ GraphRAG في 5 دقائق فقط

بواسطة Neo4j7m2024/10/18
Read on Terminal Reader

طويل جدا؛ ليقرأ

إن Neo4j LLM Knowledge Graph Builder هو تطبيق مبتكر لتحويل النص غير المنظم إلى رسم بياني للمعرفة. وهو يستخدم نماذج التعلم الآلي (LLMs: OpenAI وGemini وDiffbot) لتحويل ملفات PDF وصفحات الويب ومقاطع فيديو YouTube. وهذه القدرة مثيرة للاهتمام بشكل خاص لأنها تسمح بالتفاعل البديهي مع البيانات، على غرار إجراء محادثة مع الرسم البياني للمعرفة نفسه.
featured image - إتقان الرسوم البيانية المعرفية في مجال القانون: إنشاء وتنفيذ GraphRAG في 5 دقائق فقط
Neo4j HackerNoon profile picture
0-item
1-item


تُعد أداة LLM Knowledge Graph Builder واحدة من أدوات نظام GraphRAG البيئي التابع لـ Neo4j والتي تمكنك من تحويل البيانات غير المنظمة إلى رسوم بيانية معرفية ديناميكية. وهي مدمجة مع برنامج المحادثة Retrieval-Augmented Generation (RAG)، مما يتيح الاستعلام باللغة الطبيعية والحصول على رؤى قابلة للتفسير حول بياناتك.


ابدأ باستخدام GraphRAG: أدوات النظام البيئي لـ Neo4j

ما هو منشئ الرسم البياني المعرفي Neo4j LLM؟

إن Neo4j LLM Knowledge Graph Builder هو تطبيق مبتكر عبر الإنترنت لتحويل النص غير المنظم إلى رسم بياني للمعرفة بدون أي كود أو تشفير، مما يوفر تجربة سحرية لتحويل النص إلى رسم بياني. وهو يستخدم نماذج التعلم الآلي (LLMs: OpenAI وGemini وDiffbot) لتحويل ملفات PDF وصفحات الويب ومقاطع فيديو YouTube إلى رسم بياني للمعرفة للكيانات وعلاقاتها.


الواجهة الأمامية عبارة عن تطبيق React يعتمد على Needle Starter Kit الخاص بنا، والواجهة الخلفية عبارة عن تطبيق Python FastAPI. وهو يستخدم وحدة llm-graph-transformer التي ساهم Neo4j في LangChain بها.


يوفر التطبيق تجربة سلسة باتباع أربع خطوات بسيطة:


  1. استيعاب البيانات — يدعم مصادر البيانات المختلفة، بما في ذلك مستندات PDF، وصفحات ويكيبيديا، ومقاطع فيديو YouTube، والمزيد.
  2. التعرف على الكيانات — يستخدم LLMs لتحديد الكيانات والعلاقات واستخراجها من نص غير منظم.
  3. إنشاء الرسم البياني — تحويل الكيانات والعلاقات المعترف بها إلى تنسيق رسم بياني، باستخدام إمكانيات الرسم البياني Neo4j.
  4. واجهة المستخدم — توفر واجهة ويب سهلة الاستخدام ليتفاعل المستخدمون مع التطبيق، مما يسهل تحميل مصادر البيانات، وتصور الرسم البياني الناتج، والتفاعل مع وكيل RAG. هذه القدرة مثيرة للاهتمام بشكل خاص لأنها تسمح بالتفاعل البديهي مع البيانات، على غرار إجراء محادثة مع الرسم البياني المعرفي نفسه — لا يلزم وجود أي معرفة تقنية.



دعونا نحاول ذلك

نحن نقدم التطبيق على بيئة Neo4j المستضافة لدينا دون الحاجة إلى بطاقات ائتمان أو مفاتيح LLM - خالية من الاحتكاك.

وبدلاً من ذلك، لتشغيله محليًا أو داخل بيئتك، قم بزيارة مستودع GitHub العام واتبع الإرشادات خطوة بخطوة التي سنغطيها في هذا المنشور.


قبل أن نفتح ونستخدم LLM Knowledge Graph Builder، دعنا ننشئ قاعدة بيانات Neo4j جديدة. للقيام بذلك، يمكننا استخدام قاعدة بيانات AuraDB المجانية باتباع الخطوات التالية:


  • قم بتسجيل الدخول أو إنشاء حساب على https://console.neo4j.io .
  • تحت الحالات، قم بإنشاء قاعدة بيانات AuraDB مجانية جديدة.
  • تنزيل ملف بيانات الاعتماد.
  • انتظر حتى يتم تشغيل المثيل.


الآن بعد أن قمنا بتشغيل قاعدة بيانات Neo4j وبيانات الاعتماد الخاصة بنا، يمكننا فتح LLM Knowledge Graph Builder، والنقر فوق الاتصال بـ Neo4j في الزاوية اليمنى العليا.


قم بإسقاط ملف بيانات الاعتماد الذي تم تنزيله مسبقًا في مربع حوار الاتصال. يجب ملء جميع المعلومات تلقائيًا. أو يمكنك إدخال كل شيء يدويًا.

إنشاء الرسم البياني للمعرفة

تبدأ العملية باستيعاب بياناتك غير المنظمة، والتي يتم تمريرها بعد ذلك عبر برنامج LLM لتحديد الكيانات الرئيسية وعلاقاتها.


يمكنك سحب وإفلات ملفات PDF والملفات الأخرى في منطقة الإدخال الأولى على اليسار. سيتيح لك الإدخال الثاني نسخ/لصق الرابط إلى مقطع فيديو على YouTube تريد استخدامه، بينما يأخذ الإدخال الثالث رابط صفحة ويكيبيديا.


بالنسبة لهذا المثال، سأقوم بتحميل بعض ملفات PDF التي لدي حول شركة سلسلة توريد تسمى GraphACME، ومقالة صحفية من مجلة فوربس ، ومقطع فيديو على موقع يوتيوب حول توجيه العناية الواجبة بالاستدامة للشركات (CSDDD)، بالإضافة إلى صفحتين من ويكيبيديا: توجيه العناية الواجبة بالاستدامة للشركات وبنغلاديش .


أثناء تحميل الملفات، سيخزن التطبيق المصادر المحملة كعقد مستندات في الرسم البياني باستخدام محملات المستندات LangChain ومحللات YouTube. بمجرد تحميل جميع الملفات، يجب أن ترى شيئًا مشابهًا لهذا:



كل ما نحتاج إلى فعله الآن هو تحديد النموذج الذي نريد استخدامه، والنقر فوق "إنشاء رسم بياني" ، وترك السحر يقوم بالباقي من أجلك!


إذا كنت تريد فقط إنشاء تحديد ملف، فيمكنك تحديد الملفات أولاً (باستخدام مربع الاختيار في العمود الأول من الجدول) والنقر فوق إنشاء رسم بياني .


⚠️ لاحظ أنه إذا كنت تريد استخدام مخطط رسم بياني محدد مسبقًا أو مخطط رسم بياني خاص بك، فيمكنك النقر فوق أيقونة الإعداد في الزاوية اليمنى العليا وتحديد مخطط محدد مسبقًا من القائمة المنسدلة، واستخدام مخططك الخاص عن طريق كتابة تسميات العقد والعلاقات، وسحب المخطط الموجود من قاعدة بيانات Neo4j الموجودة، أو نسخ/لصق النص وطلب من LLM تحليله والتوصل إلى مخطط مقترح.


بينما تقوم بمعالجة ملفاتك وإنشاء الرسم البياني المعرفي الخاص بك، اسمحوا لي أن ألخص ما يحدث تحت الغطاء:


  1. تم تقسيم المحتوى إلى أجزاء.
  2. يتم تخزين القطع في الرسم البياني وتوصيلها بعقدة المستند ومع بعضها البعض للحصول على أنماط RAG المتقدمة.
  3. يتم ربط القطع المتشابهة للغاية بعلاقة مماثلة لتشكيل رسم بياني لأقرب جيران K.
  4. يتم حساب التضمينات وتخزينها في أجزاء ومؤشرات المتجهات.
  5. باستخدام llm-graph-transformer أو diffbot-graph-transformer، يتم استخراج الكيانات والعلاقات من النص.
  6. يتم تخزين الكيانات في الرسم البياني وتوصيلها بالأجزاء الأصلية.

استكشف الرسم البياني للمعرفة الخاص بك

يتم تنظيم المعلومات المستخرجة من مستندك في شكل رسم بياني، حيث تصبح الكيانات عقدًا، وتتحول العلاقات إلى حواف تربط بين هذه العقد. يكمن جمال استخدام Neo4j في قدرته على تخزين شبكات البيانات المعقدة هذه واستعلامها بكفاءة، مما يجعل الرسم البياني المعرفي الناتج مفيدًا على الفور لمجموعة متنوعة من التطبيقات.


قبل أن نستخدم وكيل RAG لطرح أسئلة حول بياناتنا، يمكننا تحديد مستند واحد (أو العديد من المستندات) باستخدام مربع الاختيار والنقر فوق "إظهار الرسم البياني" . سيؤدي هذا إلى عرض الكيانات التي تم إنشاؤها للمستندات التي حددتها؛ يمكنك أيضًا عرض عقدة المستند والأجزاء في هذا العرض:



سيؤدي الضغط على الزر " فتح الرسم البياني باستخدام Bloom" إلى فتح Neo4j Bloom لمساعدتك على تصور الرسم البياني المعرفي الذي أنشأته حديثًا والتنقل فيه. الإجراء التالي — حذف الملفات — يحذف المستندات والأجزاء المحددة من الرسم البياني (والكيانات إذا حددتها في الخيارات).

تحدث إلى علمك

الآن يأتي الجزء الأخير: وكيل RAG الذي يمكنك رؤيته في اللوحة اليمنى.

عملية الاسترجاع - كيف تتم؟

تُظهر الصورة أدناه عرضًا مبسطًا لعملية GraphRAG.



عندما يطرح المستخدم سؤالاً، نستخدم مؤشر متجه Neo4j مع استعلام استرجاع للعثور على الأجزاء الأكثر صلة بالسؤال والكيانات المرتبطة بها حتى عمق 2 قفزة. كما نقوم بتلخيص سجل الدردشة واستخدامه كعنصر لإثراء السياق.


يتم إرسال جميع المدخلات والمصادر المختلفة (السؤال، ونتائج المتجهات، وسجل الدردشة) إلى نموذج LLM المحدد في موجه مخصص، يطلب توفير وتنسيق استجابة للسؤال المطروح بناءً على العناصر والسياق المقدم. بالطبع، يحتوي الموجه على المزيد من السحر، مثل التنسيق، وطلب الاستشهاد بالمصادر، وعدم التكهن إذا كانت الإجابة غير معروفة، وما إلى ذلك. يمكن العثور على الموجه والتعليمات الكاملة باسم FINAL_PROMPT في QA_integration.py .

اطرح الأسئلة المتعلقة ببياناتك

في هذا المثال، قمت بتحميل مستندات داخلية حول شركة وهمية تسمى GraphACME (مقرها أوروبا)، والتي تنتج وتوثق استراتيجية سلسلة التوريد الخاصة بها ومنتجاتها بالكامل. كما قمت بتحميل مقال صحفي ومقطع فيديو على YouTube يشرح قانون CSDDD الجديد وتأثيره والتنظيم الخاص به. يمكننا الآن طرح أسئلة على روبوت المحادثة حول معرفتنا الداخلية (الوهمية) بالشركة - أسئلة حول قانون CSDDD، أو حتى أسئلة حول كليهما، مثل طلب قائمة المنتجات التي تنتجها GraphACME، وما إذا كانت ستتأثر بتنظيم CSDDD، وإذا كان الأمر كذلك، فكيف سيؤثر ذلك على الشركة.



مميزات الدردشة

على الجانب الأيمن من الشاشة الرئيسية، ستلاحظ وجود ثلاثة أزرار متصلة بنافذة الدردشة:


  • سيؤدي إغلاق إلى إغلاق واجهة برنامج المحادثة الآلي.
  • سيؤدي مسح سجل الدردشة إلى حذف سجل الدردشة للجلسة الحالية.
  • سيؤدي تكبير النافذة إلى فتح واجهة برنامج المحادثة الآلي في وضع ملء الشاشة.


في إجابات وكيل RAG، ستجد ثلاث ميزات بعد الاستجابة:


  • ستؤدي التفاصيل إلى فتح نافذة منبثقة لمعلومات الاسترجاع توضح كيفية قيام وكيل RAG بجمع واستخدام المصادر (المستندات) والقطع والكيانات. كما يتم تضمين معلومات حول النموذج المستخدم واستهلاك الرمز المميز.
  • سيؤدي "النسخ" إلى نسخ محتوى الرد إلى الحافظة.
  • سيقوم النص إلى كلام بقراءة محتوى الرد بصوت عالٍ.




تلخيص

للتعمق أكثر في أداة إنشاء الرسوم البيانية المعرفية LLM، يوفر مستودع GitHub قدرًا كبيرًا من المعلومات، بما في ذلك الكود المصدري والوثائق. بالإضافة إلى ذلك، توفر وثائقنا إرشادات مفصلة حول كيفية البدء، كما يوفر نظام GenAI Ecosystem مزيدًا من الرؤى حول الأدوات والتطبيقات الأوسع المتاحة.

ما هو التالي - قدرات المساهمة والتوسع

تعتبر تجربتك مع LLM Knowledge Graph Builder لا تقدر بثمن. إذا واجهت أخطاء، أو كان لديك اقتراحات لميزات جديدة، أو كنت ترغب في المساهمة، أو ترغب في رؤية تحسينات معينة، فإن منصة المجتمع هي المكان المثالي لمشاركة أفكارك. بالنسبة لأولئك المهرة في الترميز، فإن المساهمة مباشرة على GitHub يمكن أن تكون طريقة مجزية للمساعدة في تطوير المشروع. لا تساعد مدخلاتك ومساهماتك في تحسين الأداة فحسب، بل إنها تعزز أيضًا مجتمعًا تعاونيًا ومبتكرًا:

موارد

تعرف على المزيد حول الموارد الجديدة لتطبيقات GenAI: أدوات نظام Neo4j GraphRAG البيئي . تسهل هذه الأدوات مفتوحة المصدر البدء في استخدام تطبيقات GenAI المستندة إلى الرسوم البيانية المعرفية، والتي تساعد في تحسين جودة الاستجابة وإمكانية التفسير وتسريع تطوير التطبيق واعتماده.

فيديو

الروابط