ما هي أنماط الذكاء الاصطناعي جيدة في كتابة قصص، وتقييم البريد الالكتروني، أو تظاهر بأنها الفيلسوفات. ولكن هل يمكنهم استخراج تاريخ محدد من حساب؟ هل يمكنهم فهم جدول فاشل مع الخلايا المفقودة والخلفية المفقودة؟ هذا ما كنت أريد معرفة. لقد اختبرت 5 نموذجًا شعبية من الذكاء الاصطناعي - من API على الشبكة العنكبوتية إلى LLM ذو الخلفية الدموية - على اثنين من المهام الأكثر تعقيدًا ومفيدة في عمليات العمل في الأعمال التجارية الحقيقية: (1) استخراج مجلدات الرسوم البيانية (2) تحليل جدول متكامل. كان الإعداد بسيطًا: 20 حسابًا حقيقيًا و 20 جدولًا من وثائق الأعمال الحقيقية. كان بعضها نظيفًا، معظمها لم تكن. شاهدت كيفية التعامل مع كل نموذج مع البيانات المفقودة، وتصميمات غير متكافئة، والأشياء OCR، والبنية التحتية. ثم تم تقييم أربع أشياء: دقة، سرعة، تكلفة، والاستقرار تحت الدخول المزعج. كان كل نموذج بحاجة إلى معالجة 20 حسابات و 20 جدولًا، وتعود النتائج الهيكلية: مجموعات، تاريخ الحساب، أسماء الموردين، مجالات الضرائب، والقيم على مستوى الجانب. تم إعطاء الدخول كوصف OCR البسيط، وليس مرموقًا أو مزيجًا جيدًا. كان الشيء الوحيد الذي كان يتعين على النماذج العمل به هو المحتوى الأسود، بالإضافة إلى سؤال. بعض النماذج أصبحت مثيرة للاهتمام، والبعض الآخر أصبحت مهيمنة على النماذج الكاملة أو غير مألوفة. ما يلي هو دليل الفضاء على ما هو كل من هذه النماذج في الواقع. و - إذا كنت تخطط لاستخدامها في الإنتاج، هذا ما تحتاج إلى معرفته. يمكن لا يمكن AWS Textract: سريعًا، مستقرًا، باستثناء الكتاب : تقدم Textract نتائج موثوقة على استخراج الأوراق المالية. فقد حصلت على 91.3% بدون أجزاء الخط و 91.1% معها. Performance كان يتعامل مع المجالات القياسية بشكل جيد – مجموعات، أرقام الحسابات، المواسم – ولم تكتشف قيمة أو اختراع هيكل.إذا كانت الدخول واضحة، فإنها تعمل بشكل مستمر.إذا كان المجال مفقودًا أو غير واضحًا، فإنه لا يزال غامضًا دون أن يتخيل. على الأقراص، حصلت Textract على دقة 82.1٪، مما يزيد من أداء GPT-4o وارتفاع قليلا عن Azure. لكنها تواجه صعوبات مع الرأسات العميقة أو التوازن الخلوي الخلوي. عندما فشل تشكيل جدول، قامت Textract بإعطاء النتائج الجزئية أو المنخفضة بدلاً من محاولة تفسير الهدف. كما تم التعامل مع تشخيص التصنيف المنخفض (200-300 DPI) دون انخفاض في الأداء ، مما يحافظ على دقة المجال مستقر حتى عندما كانت الوثائق صغيرة صغيرة. متوسط الوقت المعالجة: 2.1 ثانية لكل صفحة، مما يجعلها أسرع نموذج اختبار مع دقة مستمرة. Speed أدناه: 10 دولار لكل 1000 صفحة باستخدام نقطة انتهاء AnalyzeExpense، كما ذكرت في المؤشر. Cost : Textract تم إنشاؤه على نطاق واسع. إنه ليس خلاقًا، ولكن هذا هو بالضبط النقطة. أنه لن يتأكد من الهيكل أو التكيف مع الفوضى، ولكن لن يقطع تحت الضغط أيضًا. Verdict يُستخدم أفضل في أنابيب حيث يتم التحكم في شكل المستند ، ويحتاج إلى النتائج المتوقعة بسرعة. بالنسبة إلى التصاميم المزعجة أو الأقراص غير المعتادة ، ستحتاج إلى رؤية في مكان آخر - ولكن بالنسبة إلى وثائق الأعمال المثالية ، فإنها واحدة من الأدوات الأكثر كفاءة المتاحة. Azure Document Intelligence: إنتاج نظيف، عصبي محدود تمكنت Azure من معالجة الحسابات بشكل موثوق، مع تقييم 85.8 في المائة دون أجزاء صفحة و85.7 في المائة معها.فقد تم استخراج المجالات الأساسية بشكل مستمر – أرقام الحسابات، التاريخ، الناتج المحلي – ولكنها غالباً ما تفوت الحالات الجانبية مثل أسماء الموردين المفقودة أو العلامات الأقل شيوعاً. Performance صعوبة مع وصفات العناصر متعددة الكلمات في جدولات الحسابات - مثل أسماء الموظفين الكاملة أو خطوط الخدمة طويلة - مما أدى إلى انخفاض دقة في بعض الحالات. على الأقراص، حصلت على دقة 81.5٪، على بعد قليلا من AWS وباقي من Gemini. كان يعمل بشكل جيد على التصاميم المزدوجة والخلفية، والرسائل واللوحات دون أخطاء كبيرة، ولكن كان يقاتل مع المضاعفات البنية التحتية، مثل الخلايا المتواجدة، والأرقام المزدوجة، أو التوازن غير متناقض، مما أدى إلى انخفاض القيمة أو الخلايا المزدوجة. : سريع. حوالي 3.5 ثانية لكل صفحة في المتوسط. أبطأ قليلاً من AWS، ولكن مستقر وسهل الإنتاج. Speed : ما يقرب من 10 دولار لكل 1000 صفحة باستخدام نموذج الحساب المدفوع. Cost يعتبر Azure خيارًا منخفضًا في المخاطر بالنسبة إلى الحسابات الهيكلية والمجلات النظيفة، ولكنها ليست النماذج التي تسمح بها عندما يكون التخطيط مفقودًا. Verdict إنها موثوقة ، ولكنها لا تدفع الحدود - ولا تنتهي مع النماذج التي تعمل. Google Docs AI: رائع عندما يكون سهلاً ، فقدان عندما لا يكون : في الحسابات ، أظهرت Google أداء غير متساوٍ. فقد وصلت إلى دقة 83.8٪ بدون أجزاء صفحة ، ولكن انخفضت إلى 68.1٪ عندما تم تضمين الأوراق Performance كان يتعامل مع المجالات القياسية مثل رقم الحساب والتاريخ، ولكن غالبًا ما تم تعريف المجالات الضريبية بالخطأ، أو تكرار مجموعات، أو تجاهل البيانات على مستوى الخط. وبلغت جوجل 38.5 في المائة من دقة تحليل الأقراص، و4 في المائة من دقة تحليل الأقراص، و4 في المائة من دقة التحليل. تمكنت من إدارة الأقراص النظيفة، مثل الشريط بشكل جيد، لكنها فشلت بشكل مستمر في الحالات في العالم الحقيقي مع القوائم المتواجدة، الشوارع الخلفية، أو التهابات الهيكلية. كما أعلن عن أجزاء الخطوط كخطوط غير الهيكلية من النص بدلاً من المجالات المزدوجة بشكل صحيح، مما جعل كمية، أسعار وحدات، والمراجعة الكاملة غير موثوقة أو غير ممكنة للتأكيد. 5.1 ثانية لكل صفحة، أبطأ من Azure و AWS، ولكن ليس بشكل كبير. Speed : ما يقرب من 10-12 دولار لكل 1000 صفحة ، اعتمادًا على التكوين والمناطق. Cost يعمل Google Docs AI عندما تكون المستندات نظيفة، قابلة للتنبؤ، ومستقرة بشكل صارم. Verdict: في الوقت الذي تزداد تعقيدات التخطيط، تراجع الدقة بشدة، وليس مناسبًا للأنشطة الاستخراجية المهمة التي تتناول المكونات الديناميكية أو التقويمات المتوسطة. يتم استخدامه بشكل أفضل في تدفقات العمل الداخلية المعمول بها حيث تكون التغيرات في الملفات منخفضة ومتوقعات منخفضة. GPT-4o: ذكي، دقيق، حساسية على الدخول تمكن GPT-4o من استخراج الحساب بشكل جيد، وقد وصلت إلى دقة 90.8٪ بدون أجزاء الخط، و86.5٪ معها باستخدام الدخول المعتمد على OCR. Performance عند العمل مع صور الوثائق، كانت النتائج متواضعة: 88.3% و 89.2٪، على التوالي. كان من المفيد أيضًا اختيار القيمة المناسبة عندما تظهر عدة مماثلة على الصفحة. ومع ذلك ، في بعض الأحيان يقرر الخطأ - يلجأ إلى كومبوسات أو يضع النقاط العاشرة في الأماكن الرقمية. ولكن تحليل جدول كان قصة مختلفة. GPT-4o حصل على 38٪ فقط، وهو أدنى النتيجة بين جميع النماذج في النماذج. في حين كان يتبع الهيكل الأساسي في الحالات البسيطة ، فإنه خسر على القوائم المتواجدة ، والخطوط المتواجدة ، والتصاميم غير الكاملة. غالباً ما قمت بتحريك علاقات الزاوية بشكل خاطئ، وارتكبت قيم الخلية أو انخفضت تماما. كان يبدو وكأنه نموذج نصي يحاول التفكير من خلال مشكلة بصرية، وبالتالي فقدت علامات مفتاحية. : حوالي 17-20 ثانية لكل صفحة مع إدخال النص OCR. مع إدخال الصورة ، يزداد التوقيت بشكل كبير - غالباً 30 ثانية أو أكثر ، اعتماداً على الحجم المباشر ومعدل النظام. Speed ما يقرب من 5-6 دولار لكل 1000 صفحة باستخدام GPT-4-turbo (دخول النص). يمكن أن تضاعف الدخول المرتبط بالصور من خلال API Vision هذا، اعتمادا على طول الدخول والمستخدمة. Cost يعمل GPT-4o بشكل جيد على الأوراق المالية ويفهم النصوص الهيكلية مع الضوء والمرونة، ولكن على الأقراص المعقدة بصراحة، فإنه يحاول الحفاظ على الهيكل أو إنتاج النتائج المتواضعة. Verdict: إذا كنت تعمل مع الوثائق التي تعتمد على التخطيط - ولا يمكن أن تصل إلى أدنى مستوى من 40٪ - فستحتاج إلى النظر في مكان آخر. استخدمها عندما تقوم بتحكم نموذج الدخول أو تركيز الذكاء على مستوى الحساب على تركيب المستند. Gemini 1.5 Pro: الديموقراطية في الصمت : جينسيه تتعامل مع تحليل الفواتير مع دقة مستدامة. فقد حصلت على 90.0% دقة بدون أجزاء الخط و 90.2% معها. Performance كان يتحرك بشكل مستمر إلى مجموعات، وتواريخ، وأرقام الحسابات، وأسمائ الموردين، حتى عندما تغيرت النماذج أو لم يتم تصنيف الفنادق بشكل جيد. كانت الأخطاء صغيرة: قيمة متكررة، ومناطق الضرائب غير القابلة للتصنيف، والأعمدة الإضافية في بعض الأحيان. على الأقمار الصناعية ، انتقلت Gemini إلى كل النماذج الأخرى ، وقد حصلت على دقة 94.2٪ ، مما يؤدي إلى الحد الأدنى. وتتبع AWS و Azure بنسبة 82.1% و81.5%, في حين تراجعت GPT-4o بعيداً بنسبة 38.5%.تعرف Gemini على العلامات الأساسية متعددة المستويات, الخلايا المشتركة, والبنية التحتية غير متساوية مع أقل أخطاء وإدراك الهيكلية أفضل.تعرف Gemini على أخطاء التوازن في بعض الأحيان ولكنها لم تتمكن من استخدام البيانات. 3-4 ثانية لكل صفحة في المتوسط، أسرع من GPT-4o، على بعد قليل من AWS، بدون تباطؤ غير متوقع. Speed : تقييم 4–5 دولار لكل 1000 صفحة باستخدام API Gemini في وضع تجريبي فقط على النص. Cost : Gemini يوفر دقة عالية على كل من الحسابات والأقراص دون الحاجة إلى إدخال الرؤية أو إعدادات معقدة. Verdict يتم استخدامه بشكل أفضل عندما تريد نتائج درجة الإنتاج من الوثائق غير متناقضة ويمكن التحكم في شكل الدخول. موثوقية تحت الضغط - لا دورة، فقط النتائج. النتائج خمسة أساليب: المهمات نفسها، الملفات نفسها، نتائج مختلفة جداً. كان جيمس أفضل في جميع أنحاء - سريعًا ، دقيقًا ، وجميلًا في الهيكل. GPT-4o الحسابات المضغوطة، المضغوطة على الطاولة. كان AWS Textract سريعًا، صلبًا، وأنه من الصعب إزالةه. Azure حصل على الأساسية حقًا، ولكن ليس أكثر. يحاول "جوجل" التعامل مع كل ما لم يكن صحيحاً أو غير صحيحاً. لم يتمكن أي نموذج من التعامل مع كل شيء.فقد تم التعامل مع بعض ما يكفي.إذا كنت تخطط لتصنيع مع الذكاء الاصطناعي، فاستنتج أولاً - أو تخطط لإزالة في وقت لاحق.