كان من المثير للاهتمام أن أستيقظ إلى هذا تويتر: عندما يقدم أحد أكبر وأكثر شركات الذكاء الاصطناعي تأشيرات على ولكن ما هو ذلك؟ لماذا يستخدمون ذلك؟ وجب أن تفكر في هذا بالنسبة إلى تطبيقات AI الخاصة بك؟ التكنولوجيا أنا أعتقد أن الجمهور هنا يعرف بالفعل مع المفاهيم الأساسية للذكاء الاصطناعي. ما هو أقل واضحا، ومع ذلك، هو كيف أن سرعة إصدارات النماذج الجديدة تتحطم حتى أكثر المستخدمين ذوي الخبرة، وليس فقط حلم نظام سحرية لتطوير الأسئلة بشكل دقيق عبر هذا البيئة المضطربة. لماذا لا نستطيع أن نحصل على هذا النظام السحرية: لأن النموذج الضوئي للغاية، وخاصة في المراحل التي تحاول تقييم LLM إلى عمليات عملك أو تدفقات العمل. أخذ مثال من Digits، منصة التكنولوجيا المالية تلقائيا لتقييم التكاليف: بالنسبة لعمليات التوازن المعتاد، يقدم نموذجًا رئيسيًا مثل Claude 4.5 Haiku ردود فعل أكثر صرامة في أقل من 50 كلمة؛ مثاليًا لعدد كبير من بطاقات الدعم ذات الصلة بالمرحلة، حيث يُعزز الاستجابة (على سبيل المثال، "أنا أدرك كيف أن هذا يجب أن يكون مفرطًا - دعونا نذهب من خلال التفاصيل معًا")، وهذا النموذج نفسه ي حتى اليوم ، فإن معظم أنظمة توجيه LLM الحالية تعتمد على تحسين الأداء المقياس الأكاديمي - مثل أو - لا تعكس هذه النتائج المزعجة والمتعلقة بالمعايير والمهام المحددة للمستخدمين والمطورين في التطبيقات في العالم الحقيقي.في العالم الحقيقي، فإنها لا تقل عن النتائج المرجعية وأكثر عن الأشياء مثل الحد الأدنى للمناطق، والسرعة، والتمتع بالأفضلية. ، نموذج النهار البارد (1.5B الحد الأقصى) الذي يسمح لك بتسجيل ترخيص قرارات نموذج المرور MMLU GPQA أندرويد أنت أندرويد يمكنك تحديد فئات مثيرة للاهتمام مثل "تخزين السفر" أو "تعديل الصور"، وأرسل Arch-Router كل استفسار إلى النموذج الذي وجدته يعمل بشكل أفضل - بناءً على تجربتك الخاصة وتقييمك. What is Arch-Router? كمتطوعين ، فقط أنت تعرف حقا ما هو LLM يعمل بشكل أفضل لعملية الاستخدام الخاص بك من خلال عدد لا يصدق من التجارب والخطأ.. يوفر نهجًا جديدًا لتنظيم LLM ، ويتركز على التفضيلات العملية والأخلاقية - مثل الخبرة في مجال التمويل (المالية، والتحكم، الطبيعية) أو العمليات المحددة (تقييم، إنتاج الصورة). هذا يفعل شيئا: Preference-aligned routing routing policy يقطع مساحة الأسئلة في السياسات على المستوى المحلي (على سبيل المثال، المالية، العلاجية) وإذا لزم الأمر، على المستوى العملي (على سبيل المثال، "تقييم"، "تكوين SQL"). خرائط كل سياسة إلى النماذج الحقيقية التي تثق بها لهذا قطعة من العمل. LLM هو نموذج 1.5 مليار الحد الأدنى الذي تم إنشاؤه حول هذا النمط المفضل. بدلاً من إدماج القواعد الصارمة أو الاعتماد على مرسيدس بطاقة سوداء، يمكنك إرسال Arch-Router سياسات المرور الخاصة بك وتفعيلها. على الرغم من حجمها الصغير، فإن النموذج يتجاوز LLMات خاصة أكبر من عائلات GPT-4o، Claude، وGemini. تحت في حين المنافسة LLMs عادة ما تستغرق حوالي 1 ثانية فقط لتحديد الطريق (كما هو موضح في الصورة 1). أندرويد 50ms (p50), 75ms (p99) أندرويد How does it work? يقدم Arch-Router فكرة هامة: المساحة – الفئة الموضوعة على المستوى العالي أو موضوع طلب (على سبيل المثال، القانونية، الرعاية الصحية، البرمجة). الإجراءات – النوع المحدد من الإجراءات التي يريد المستخدم القيام بها (على سبيل المثال، إجمالي، إنشاء الكود، إجراء الحجز، الترجمة). يرتبط كل من السياسات الدبلوماسية والعملية مع النماذج المفضلة أو النماذج المتعددة النماذج. في وقت التفكير، تحليل Arch-Router المرسلة المرسلة لتفكير الدبلوماسية والعملية باستخدام الشائعات السامية والعلامات العملية، ثم تطبيق ترخيصات المرور المحددة للمستخدم لتحديد النماذج الأكثر مناسبة للتعامل مع الطلب كما هو موضح في الصورة 2. Performance هو سريع ودقيق، اختيار نموذجًا تقريبًا (50 ms) مع تقييم أعلى من أفضل LLMs المملوكة على أداء القيادة.. وهو يتوافق مع تفضيلاتك، يمكن للأفراد أو الجماعات المختلفة إنشاء سياسات القيادة الخاصة بهم حتى تتحول كل طلب إلى نموذج يثق به أكبر. ويظل مرونة ومكافحة: انظر نموذجًا جديدًا تريد اختباره، أو إضافة مهمة إلى منتجك؟ ببساطة تحديث ملف السياسات القيادة واستخدامها - لا تدريبًا جديدًا مكلفًا، ولا بناءً جديدًا للطائرات. هنا بعض الإحصائيات: Arch-Router 50ms متوسط وقت التسجيل (75ms في p99) Speed: : 93.06% دقة التنقل على المرتبة المحددة Accuracy : $0.00132 لكل استفسار توجيه Cost *: روتيلات مخصصة متوسطية 1000ms + وقت التسجيل مع ما يصل إلى 5 $ لكل سؤال التسجيل (GPT-4o) Comparison Ready to dive deeper? هذه المقالة على المدونات تكسير سطح ما وكيفية استخدام Arch-Router؛ القصة الكاملة تعيش في قوائم المصدر المفتوح لدينا: ورقة البحث - طريقة تفصيلية، ومقارنة، وأبحاث الإزعاج Arch-Router Collection - Arch-Router-1.5B من Hugging Face مع gguf Arch: محرر بروكسي متولد من النماذج للموظفين - تتحرك أسرع من خلال إلغاء عمل التبريد في الذكاء الاصطناعي واستغلال المزيد من الوقت في نموذج تدفقات العمل في أي لغة أو إطار. ورقة البحث مجموعة Arch-Router ARCH زيارة مستودعنا لتطبيقات التطوير، أو مساهمة تحسينات، أو تقارير المشكلات. نحن نرحب بمساهمة المجتمع لتطوير المنظمات القائمة على LLM. و هيا، إذا كنت تحب ما لدينا بناء لا تنسى ⭐️ مشروع.