بيت / نظرة عامة على لينكس / ن جرام. تحسين التحسين على الصفحة بمساعدة برنامج المنافسين باستخدام حرف n جرام

ن جرام. تحسين التحسين على الصفحة بمساعدة برنامج المنافسين باستخدام حرف n جرام


التعريف أمثلة على المسائل التطبيقية إنشاء نموذج لغة n-gram حساب احتمالية n-gram إزالة تناثر مجموعة التدريب o تجانس الإضافة o خصم Witten-Bell o خصم تورينج الجيد o Katzs Backoff o الاستيفاء المحذوف تقدير n نموذج لغة الجرام باستخدام محتويات الانتروبيا


N-gram (الإنجليزية N-gram) هي سلسلة لاحقة من عناصر N لبعض التسلسل. دعونا ننظر إلى تسلسل الكلمات. قطة يونيجرام، كلب، حصان،... قطة بيجرامز صغيرة، كلب كبير، حصان قوي،... قطة يونيجرام الصغيرة تأكل، كلب كبير ينبح، حصان قوي يركض،... التعريف


أمثلة على المشاكل التطبيقية التعرف على الكلام. يتم نطق بعض الكلمات ذات التهجئات المختلفة بنفس الطريقة. المهمة هي اختيار الكلمة الصحيحة في السياق. - توليد النصوص حول موضوع معين. مثال: Yandex.Abstracts. البحث عن الأخطاء الدلالية. إنه يحاول صقل - من وجهة نظر بناء الجملة، صحيح، من وجهة نظر الدلالات - ليس كذلك. إنه يحاول معرفة ذلك – هذا صحيح. توجد محاولة اكتشاف ذلك في النصوص الإنجليزية في كثير من الأحيان أكثر من محاولة اكتشاف ذلك، مما يعني أنه إذا كانت لديك إحصائيات، فيمكنك العثور على خطأ من هذا النوع والقضاء عليه


إنشاء نموذج لغة لـ n-grams لحل مشكلات التطبيق المدرجة، تحتاج إلى إنشاء نموذج لغة لـ N-grams. لإنشاء نموذج تحتاج إلى: 1. حساب احتمالات n-grams في مجموعة التدريب. 2. القضاء على مشكلة تناثر الجسم باستخدام إحدى طرق التجانس. 3. تقييم جودة نموذج لغة n-gram الناتج باستخدام الإنتروبيا.


حساب احتمالية N-grams (1) في مجموعة التدريب، تحدث بعض N-grams مع ترددات مختلفة. لكل n-gram، يمكننا حساب عدد مرات ظهوره في الجسم. بناءً على البيانات التي تم الحصول عليها، يمكن بناء نموذج احتمالي، والذي يمكن استخدامه بعد ذلك لتقدير احتمالية n-grams في بعض مجموعات الاختبار.


حساب احتمالية N-grams (2) دعونا نلقي نظرة على مثال. دع المجموعة تتكون من جملة واحدة: تنزهوا بجوار حمام السباحة، ثم استلقوا على العشب ونظروا إلى النجوم. Unigrams: هم، التقطوا، بواسطة، ... Biggrams: لقد التقطوا، التقطوا، بواسطة، ... Trigrams التقطوا، التقطوا بواسطة، بجوار حمام السباحة، ...


حساب احتمالية N-grams (3) الآن يمكنك حساب n-grams. تظهر جميع الأشكال الثنائية والثلاثية التي تم تحديدها مرة واحدة في الجسم. تظهر جميع الوحدات الأحادية، باستثناء الكلمة the، مرة واحدة أيضًا. كلمة ""تتكرر ثلاث مرات"" الآن بعد أن عرفنا عدد المرات التي يحدث فيها كل n-gram، يمكننا بناء نموذج احتمالي لـ n-gram. في حالة الأحاديات، يمكن حساب احتمالية الكلمة u باستخدام الصيغة: على سبيل المثال، بالنسبة للكلمة، سيكون الاحتمال مساويًا لـ 3/16 (نظرًا لوجود 16 كلمة في المجموعة، 3 منها هي الكلمات) كلمة ال). عدد مرات ظهور كلمة u في مجموعة التدريب قاموا بالتنزه بجوار حمام السباحة، ثم استلقوا على العشب ونظروا إلى النجوم


1، يتم حساب الاحتمال بشكل مختلف قليلا. خذ بعين الاعتبار حالة البيجرامات: فليكن من الضروري حساب احتمالية البيجرام المجمع. إذا اعتبرنا كل كلمة في Biggram بمثابة حدث ما، فإن الاحتمالية" title=" حساب احتمالية N-grams (4) بالنسبة إلى n-grams، حيث n>1، يتم حساب الاحتمال بشكل مختلف قليلاً. خذ بعين الاعتبار حالة Biggrams: فليكن من الضروري حساب احتمالية Biggrams إذا اعتبرنا كل كلمة من Biggrams بمثابة حدث ما" class="link_thumb"> 9 !}حساب احتمالية N-grams (4) بالنسبة إلى n-grams، حيث n>1، يتم حساب الاحتمال بطريقة مختلفة قليلاً. خذ بعين الاعتبار حالة البيجرامات: فليكن من الضروري حساب احتمالية البيجرام المجمع. إذا اعتبرنا كل كلمة من البيجرام كحدث، فيمكن حساب احتمالية مجموعة من الأحداث باستخدام الصيغة: وبالتالي، فإن احتمال البيجرام هو المجمع:، حيث 1، يتم حساب الاحتمال بشكل مختلف قليلا. خذ بعين الاعتبار حالة البيجرامات: فليكن من الضروري حساب احتمالية البيجرام المجمع. إذا اعتبرنا كل كلمة في البيجرام بمثابة حدث ما، فإن الاعتقاد "> 1، يتم حساب الاحتمال بشكل مختلف إلى حد ما. خذ بعين الاعتبار حالة البيجرام: فليكن من الضروري حساب احتمالية المجمع. إذا أخذنا في الاعتبار كل كلمة من Biggram كحدث ما، يمكن حساب احتمالية مجموعة من الأحداث باستخدام الصيغة: وبالتالي، احتمالية Biggram Pool:، حيث "> 1، يتم حساب الاحتمال بشكل مختلف قليلاً. خذ بعين الاعتبار حالة البيجرامات: فليكن من الضروري حساب احتمالية البيجرام المجمع. إذا اعتبرنا كل كلمة في Biggram بمثابة حدث ما، فإن الاحتمالية" title=" حساب احتمالية N-grams (4) بالنسبة إلى n-grams، حيث n>1، يتم حساب الاحتمال بشكل مختلف قليلاً. خذ بعين الاعتبار حالة Biggrams: فليكن من الضروري حساب احتمالية Biggrams إذا اعتبرنا كل كلمة من Biggrams بمثابة حدث ما"> title="حساب احتمالية N-grams (4) بالنسبة إلى n-grams، حيث n>1، يتم حساب الاحتمال بطريقة مختلفة قليلاً. خذ بعين الاعتبار حالة البيجرامات: فليكن من الضروري حساب احتمالية البيجرام المجمع. إذا اعتبرنا كل كلمة من البيجرام بمثابة حدث ما، إذن"> !}


حساب احتمالية N-gram (5) فكر الآن في حساب احتمالية n-gram (أو جملة بطول n). بتوسيع حالة Biggrams، نحصل على صيغة الاحتمالية لـ n-grams: حساب الاحتمالية باستخدام مثل هذه الصيغة ليس بالأمر السهل، لذلك تم تقديم التبسيط - استخدم تاريخًا بطول ثابت، أي. وبالتالي، فإن حساب احتمالية الجملة يتلخص في حساب الاحتمال الشرطي لـ N-grams التي تشكل هذه الجملة:




القضاء على تناثر المجموعة (1) مشكلة في نموذج لغة n-gram غير المصقول: بالنسبة لبعض n-grams، يمكن التقليل من احتمالية الاحتمال إلى حد كبير (أو حتى الصفر)، على الرغم من أنه في الواقع (في مجموعة الاختبار) يمكن أن تحدث هذه n-grams في كثير من الأحيان . السبب: محدودية هيئة التدريب وخصوصيتها. الحل: عن طريق تقليل احتمالية بعض الجرامات، قم بزيادة احتمالية تلك الجرامات التي لم يتم مواجهتها (أو حدثت نادرًا) في مجموعة التدريب.




إزالة تناثر النص (3) تستخدم خوارزميات إزالة التناثر المفاهيم التالية: الأنواع - كلمات مختلفة (تسلسلات الكلمات) في النص. الرموز – كل الكلمات (تسلسلات الكلمات) في النص. تنزهوا بجوار حمام السباحة، ثم استلقوا على العشب ونظروا إلى النجوم - 14 نوعًا، 16 رمزًا





تجانس إضافة واحدة (4) تثير الطريقة خطأً قويًا في الحسابات (على سبيل المثال، في الشريحة السابقة تبين أنه بالنسبة للكلمة الصينية، تم تقليل عدد البيجرامات بمقدار 8 مرات). أظهرت الاختبارات أن النموذج غير المصقول غالبًا ما يُظهر نتائج أكثر دقة. وبالتالي، فإن الطريقة مثيرة للاهتمام فقط من الناحية النظرية.


خصم Witten-Bell (1) استنادًا إلى فكرة بسيطة: استخدم البيانات حول n-grams الموجودة في مجموعة التدريب لتقدير احتمال فقدان n-grams. فكرة الطريقة مأخوذة من خوارزميات الضغط: يتم أخذ نوعين من الأحداث في الاعتبار - تمت مواجهة رمز (نوع) جديد وتمت مواجهة رمز (رمز مميز). صيغة الاحتمالية لجميع الغرامات n المفقودة (أي احتمال مواجهة n-gram في مجموعة الاختبار التي لم تكن موجودة في مجموعة التدريب): N هو عدد الرموز المميزة في مجموعة التدريب، T هو عدد الأنواع التي لقد تمت مواجهتها بالفعل في مجموعة التدريب






خصم ويتن-بيل (4) =>=> =>"> =>"> =>" title="خصم Witten-Bell (4) =>=>"> title="خصم ويتن-بيل (4) =>=>"> !}




فكرة خصم تورينج الجيد (1): بالنسبة للجرامات n التي حدثت صفر مرة (مرات)، تتناسب النتيجة مع عدد الجرامات التي حدثت مرة واحدة (s + 1 مرة). دعونا نلقي نظرة على مثال: لنفترض أنه تم صيد 18 سمكة. تم القبض عليه بالكامل أنواع مختلفة– 6، وتم صيد ممثل واحد فقط من ثلاثة أنواع. علينا إيجاد احتمال أن تنتمي السمكة التالية إلى نوع جديد. هناك 7 أنواع محتملة في المجمل (تم صيد 6 أنواع بالفعل).








يعتبر معامل Katzs Backoff (2) α ضروريًا للتوزيع الصحيح للاحتمال المتبقي لـ N-grams وفقًا للتوزيع الاحتمالي لـ (N-1)-gram. إذا لم تقم بإدخال α، فسيكون التقدير خاطئًا، لأن لن يتم استيفاء المساواة: يتم حساب α في نهاية التقرير.




تقييم نموذج اللغة باستخدام الإنتروبيا (3) لمقارنة نماذج اللغة المختلفة، يتم استخدام الإنتروبيا المتقاطعة: كلما كانت قيمة الإنتروبيا المتقاطعة H(p,m) أقرب إلى الإنتروبيا الحقيقية H(p)، كان نموذج اللغة أفضل: في حالتنا، H(p ) هي إنتروبيا مجموعة الاختبار. m(w) – نموذج اللغة (على سبيل المثال، نموذج N-gram)


تقييم نموذج اللغة باستخدام الإنتروبيا (4) هناك طريقة أخرى لتقييم جودة نموذج اللغة تعتمد على ما يسمى. مؤشر الاتصال (الحيرة). الفكرة: حساب احتمالية مجموعة الاختبار بأكملها. سيظهر النموذج الأفضل احتمالية أعلى. صيغة الحيرة: فكلما قلت الحيرة قلّت الحيرة نموذج أفضل. يمكنك تفسير الحيرة على أنها متوسط ​​عدد الكلمات التي يمكن أن تأتي بعد كلمة معينة (أي كلما زادت الحيرة، زاد الغموض، وبالتالي، أصبح نموذج اللغة أسوأ). العلاقة بين الحيرة والانتروبيا الثنائية:


تقدير نموذج لغوي باستخدام الإنتروبيا (5) كمثال، ضع في اعتبارك قيم الحيرة لجسم معين، والتي تم الحصول عليها باستخدام نماذج مدربة من الأحاديات والبيجرامات والأشكال الثلاثية: في حالة الأشكال الثلاثية، تكون الحيرة هي الأصغر، لأن يتم تسهيل توضيح الغموض من خلال أكبر طول تاريخي لجميع النماذج (يساوي 2) عند حساب الاحتمالات الشرطية للرسومات الثلاثية. UnigramBigramTrigram الحيرة


جوهر الدلالي

لتطوير موقع الويب وزيادة ظهوره بنجاح في الواقع الحديث، من الضروري التوسع باستمرار جوهر الدلالي. واحد من أفضل الطرقالامتداد هو جمع الكلمات الرئيسية للمنافسين.

اليوم، ليس من الصعب الحصول على دلالات المنافسين، لأنه هناك العديد من الخدمات، المدفوعة والمجانية.

قائمة المجانية:

- megaindex.ru - أداة "رؤية الموقع".

- xtool.ru - خدمة معروفة تعرض أيضًا الكلمات الرئيسية التي تم تصنيف الموقع من خلالها

قائمة المدفوعة:

— spywords.ru — مناسب لمتصفحي Yandex وGoogle

- semrush.ru - موجه فقط إلى Google

- prodvigator.ua - التناظرية الأوكرانية لموقع Spywords.ru

بالإضافة إلى الخدمات، يمكنك أيضًا استخدام طريقة يدوية تعتمد على تقسيم العنوان والوصف إلى n-gram، مما يؤدي إلى قائمة إضافية من العبارات كمخرجات.

N-gram - سلسلة من العناصر n. من الناحية العملية، غالبًا ما يتم العثور على N-gram كسلسلة من الكلمات. غالبًا ما يُطلق على تسلسل مكون من عنصرين متتاليين بيجرام، يتم استدعاء تسلسل من ثلاثة عناصر ثلاثي الأبعاد. يتم تحديد ما لا يقل عن أربعة عناصر أو أكثر على أنها N-gram، ويتم استبدال N بعدد العناصر المتتالية.

دعونا نلقي نظرة على هذه التقنية خطوة بخطوة:

- نقوم بتفريغ عنوان (وصف) المنافسين. يمكن القيام بذلك باستخدام برنامج Screaming Frog SEO.

— في محرر النصوص، نقوم بتنظيف القائمة الناتجة من أجزاء الكلام المساعدة وعلامات الترقيم وغيرها من القمامة. أستخدم وظيفة البحث والاستبدال في محرر النصوص سامية ( مفتاح الاختصار ctrl+H)، باستخدام التعبيرات العادية:

- حدد n-gram المطلوب واضبط التردد على واحد على الأقل. الخيار الأفضل هو trigrams و 4 جرام:

- نحصل على النتيجة التالية:

عمودعدديظهر عدد التكراراتن-جرام، عمودتكرار -تكرارن-جرام.

بعد أن تلقينا قائمة من العبارات، نحتاج إلى تحليلها واختيار الكلمات الرئيسية المناسبة لتوسيع جوهر الدلالات. يمكنك معرفة المزيد في القسم المقابل من مدونتنا.

طلبات التجميع

من المهم جدًا أن نفهم كيفية تجميع الجوهر الدلالي للمنافسين، لأنه وهذا يساعد على توزيع العبارات الرئيسية بشكل صحيح على صفحات الموقع.

للقيام بذلك، بعد أن شكلنا القائمة الكاملةالاستعلامات، نحتاج إلى الحصول على الصفحات ومواقع المنافسين ذات الصلة (يمكنك استخدام خدمة seolib.ru)، ثم المقارنة مع مجموعتك. إذا كان من الواضح أن أحد المنافسين يشغل مركزًا جيدًا وفي نفس الوقت يختلف مجموعته عن مجموعتنا (على سبيل المثال، يتم توزيع طلبات المنافس عبر صفحات مختلفة، ولدينا نفس الطلبات على أحد)، عليك الانتباه إلى ذلك ومراجعة الصفحات المقصودة على موقع الويب الخاص بك.

دعونا نلقي نظرة على مثال صغير لمقارنة تجميع الموقع الشرطي ومنافسه.

كما يتبين من الجدول، تم تحديد صفحة مقصودة واحدة لجميع الكلمات الرئيسية على موقع الويب site.ru. يقوم المنافس بترتيب صفحات مختلفة لنفس الاستعلامات ويأخذ المواضع الأعلى أو القريبة من الأعلى. بناء على ذلك، يمكننا أن نستنتج أن التجميع على site.ru يحتاج إلى مراجعة، على وجه الخصوص، من الضروري إنشاء صفحة منفصلة للعبارات الرئيسية بكلمة "الواجهة".

جودة النصوص

أول وأهم شيء يجب أن تنتبه إليه عند تحليل نصوص المنافسين ليس المكون الكمي (عدد التكرارات، حجم النص، وما إلى ذلك)، بل العنصر النوعي أو الدلالي - ما مدى فائدة المعلومات، وما هو المنافس العروض وكيف يفعل ذلك.

دعونا نلقي نظرة على بعض الأمثلة.

لنفترض أنك تقوم بتوصيل الزهور و الصفحة الرئيسيةفي النص تضمن نضارتها. على سبيل المثال، مثل هذا:

خدمة توصيل الزهورموقع. رويضمن سلامة الباقات حتى في موسم البرد.

إليك مثال من أحد منافسينا:

من المفيد أن تطلب منا تركيبات عطرية، لأننا نضمن استرداد الأموال بنسبة 100% في حالة وجود شك في نضارة الزهور.

إن ضمان المنافس مدعوم بالمال، وهو أكثر أهمية من الضمان المجرد.

دعونا نلقي نظرة على مثال آخر - النص الموجود على صفحة فئة "بلاط السيراميك" لمتجر عبر الإنترنت:

ولا يحمل هذا النص أي حمل دلالي مفيد، فهو ماء نقي. على الأرجح، الشخص الذي يأتي إلى الموقع ويتخذ قرار الشراء يريد معرفة فوائد المنتج والتكوينات الممكنة، ولكنه بدلاً من ذلك يتلقى مجموعة لا معنى لها من الأحرف.

الآن دعونا نلقي نظرة على نص المنافس:

هذا النص أكثر فائدة لأنه... ينقل بإيجاز الاختلافات بين المربعات ويساعدك على فهم كيفية اختيار المربع المناسب.

وبالتالي، من خلال مقارنة نصوص المنافسين بنصوصك، يمكنك الحصول على الكثير من المعلومات المفيدة التي ستساعد مؤلفي النصوص عند وضع المواصفات الفنية.

أهمية النصوص

استمرارًا لموضوع جودة النص، لا يسعنا إلا أن نتطرق إلى أهميتها. اليوم، لكي يكون النص ذا صلة، لا يكفي مجرد تضمين الكلمات الرئيسية. لزيادة أهمية الصفحة دون جعل النص غير مرغوب فيه، تحتاج إلى استخدام الكلمات ذات الصلة بالموضوع.

عند تقييم مدى صلة النص بالاستعلام، لا يقوم محرك البحث بتحليل وجود الكلمات الرئيسية فحسب، بل يحلل أيضًا الكلمات الإضافية، وبالتالي تحديد معنى النص. على سبيل المثال، إذا كنا نكتب نصًا عن فيل، فيمكن اعتبار الكلمات ذات الصلة: "الجذع"، "الأنياب"، "الطبيعة"، "حديقة الحيوان". إذا كان النص عن قطعة الشطرنج "أسقف"، فإن هذه الكلمات ستكون: "قطعة"، "شيك"، "ملكة"، إلخ.

يمكنك الحصول على قائمة الكلمات الأكثر ملائمة لاستفساراتك في نصوص المنافسين. للقيام بذلك عليك اتخاذ الخطوات التالية:

- نقوم بنسخ جميع النصوص من TOP-10 وفقًا لطلب HF المطلوب إلى ملفات نصية مختلفة.

— نقوم بإزالة الأجزاء الرسمية من الكلام وعلامات الترقيم والأرقام من النصوص (تمت مناقشتها سابقًا).

- ترتيب الكلمات في سطر - استخدم وظيفة "البحث والاستبدال" مع التعبيرات العادية. استبدل المسافة بـ \n.

- بعد ذلك، من الضروري إحضار جميع أشكال الكلمات إلى شكل القاموس العادي (leme). للقيام بذلك، يمكنك استخدام الخدمة https://tools.k50project.ru/lemma/. في الحقل، تحتاج إلى إدخال قائمة الكلمات من كل ملف على حدة والنقر فوق الزر "Lemmetize and Output as a csv table". يجب أن تكون النتيجة 10 ملفات تحتوي على كلمات محدودة.

- نقوم بإزالة الكلمات المكررة في كل ملف.

- نقوم بدمج الكلمات من الملفات في قائمة واحدة.

— الآن نحن بحاجة إلى إنشاء قاموس التردد. للقيام بذلك، قم بإضافة القائمة الناتجة إلى الخدمة https://tools.k50project.ru/lemma/ وانقر على "إنشاء قاموس التردد كملف CSV".

- قائمة الكلمات لدينا جاهزة:

إذا كان التردد 10، فقد تم استخدام هذه الكلمة في جميع المواقع العشرة، وإذا كان 8، ففي 8 فقط، وما إلى ذلك. نوصي باستخدام الكلمات الأكثر شيوعًا، ولكن يمكن أيضًا العثور على حلول مثيرة للاهتمام بين الكلمات النادرة.

مثله بطريقة بسيطةيمكنك الحصول على قائمة بالكلمات الموضوعية لتجميع المواصفات الفنية لمؤلفي النصوص.

كما ترون، يعد المنافسون مصدرًا مهمًا جدًا للمعلومات التي يمكن أن تساعدك على تحسين مواقعك بشكل أفضل. في هذه المقالة لم أغطي كافة الجوانب، وفي المستقبل سأستمر في الكتابة عما هو مفيد وكيف يمكنك التعلم من منافسيك.

اشترك في النشرة الإخبارية لديناتم تصميم هذه الخوارزميات للبحث في نص غير معروف مسبقًا، ويمكن استخدامها، على سبيل المثال، في محرري النصوصأو عارضي المستندات أو متصفحات الويب للبحث في الصفحة. وهي لا تتطلب معالجة مسبقة للنص ويمكنها العمل مع دفق مستمر من البيانات.

البحث الخطي

تطبيق تسلسلي بسيط لمقياس معين (على سبيل المثال، مقياس Levenshtein) على الكلمات من النص المُدخل. عند استخدام مقياس مقيد، تسمح هذه الطريقة بالأداء الأمثل. ولكن، في الوقت نفسه، أكثر ككلما زاد وقت التشغيل. تقدير الوقت المقارب - يا (كن).

Bitap (المعروف أيضًا باسم Shift-Or أو Baeza-Yates-Gonnet، وتم تعديله بواسطة Wu-Manber)

خوارزمية بيتابوغالبًا ما تُستخدم تعديلاته المختلفة للبحث الغامض بدون فهرسة. يتم استخدام شكل مختلف منه، على سبيل المثال، في الأداة المساعدة Unix agrep، التي تؤدي وظائف مشابهة لـ grep القياسي، ولكن مع دعم الأخطاء في استعلام البحث وتوفر أيضًا إمكانيات محدودة لاستخدام التعبيرات العادية.

تم اقتراح فكرة هذه الخوارزمية لأول مرة من قبل المواطنين ريكاردو بايزا ييتسو جاستون جونيت، نشر مقالاً ذا صلة في عام 1992.
يتعامل الإصدار الأصلي من الخوارزمية فقط مع بدائل الأحرف، وفي الواقع، يحسب المسافة هدب. ولكن بعد ذلك بقليل صن ووو أودي مانبراقترح تعديل هذه الخوارزمية لحساب المسافة ليفنشتاين، أي. قدم دعمًا لعمليات الإدراج والحذف، وقام بتطوير الإصدار الأول من الأداة المساعدة agrep بناءً عليه.






القيمة الناتجة

أين ك- عدد الأخطاء، ي- فهرس الرمز، ق x - قناع الحرف (في القناع، توجد بتات الوحدة في مواضع تتوافق مع مواضع هذا الحرف في الطلب).
يتم تحديد ما إذا كان الطلب مطابقًا أم لا من خلال الجزء الأخير من المتجه الناتج R.

يتم ضمان السرعة العالية لهذه الخوارزمية من خلال توازي البتات في الحسابات - في عملية واحدة، من الممكن إجراء حسابات على 32 بت أو أكثر في وقت واحد.
وفي الوقت نفسه، يدعم التنفيذ التافه البحث عن كلمات لا يزيد طولها عن 32. ويتم تحديد هذا القيد من خلال عرض النوع القياسي كثافة العمليات(على أبنية 32 بت). يمكن أيضًا استخدام أنواع ذات أبعاد أكبر، لكن هذا قد يؤدي إلى إبطاء الخوارزمية إلى حد ما.

على الرغم من أن وقت التشغيل المقارب لهذه الخوارزمية يا (كن)يتزامن مع الطريقة الخطية، فهو أسرع بكثير مع الاستعلامات الطويلة وعدد الأخطاء كأكثر من 2.

اختبار

تم إجراء الاختبار على نص مكون من 3.2 مليون كلمة، وكان متوسط ​​طول الكلمة 10.
البحث الدقيق
وقت البحث: 3562 مللي ثانية
ابحث باستخدام مقياس Levenshtein
وقت البحث في ك = 2: 5728 مللي ثانية
وقت البحث في ك=5: 8385 مللي ثانية
البحث باستخدام خوارزمية Bitap مع تعديلات Wu-Manber
وقت البحث في ك = 2: 5499 مللي ثانية
وقت البحث في ك=5: 5928 مللي ثانية

من الواضح أن البحث البسيط باستخدام المقاييس، على عكس خوارزمية Bitap، يعتمد بشكل كبير على عدد الأخطاء ك.

ومع ذلك، عندما يتعلق الأمر بالبحث عن نصوص كبيرة وغير متغيرة، يمكن تقليل وقت البحث بشكل كبير عن طريق المعالجة المسبقة لهذا النص، والتي تسمى أيضًا الفهرسة.

خوارزميات البحث الغامضة مع الفهرسة (غير متصل)

من مميزات جميع خوارزميات البحث الغامضة مع الفهرسة أن الفهرس يتم إنشاؤه باستخدام قاموس تم تجميعه من النص المصدر أو قائمة السجلات في قاعدة البيانات.

تستخدم هذه الخوارزميات أساليب مختلفة لحل المشكلة - يستخدم بعضها الاختزال للبحث الدقيق، والبعض الآخر يستخدم خصائص المقياس لإنشاء هياكل مكانية مختلفة، وما إلى ذلك.

أولًا، في الخطوة الأولى، يتم إنشاء قاموس من النص المصدر، يحتوي على الكلمات ومواقعها في النص. يمكنك أيضًا حساب تكرارات الكلمات والعبارات لتحسين جودة نتائج البحث.

من المفترض أن يتم تحميل الفهرس، مثل القاموس، بالكامل في الذاكرة.

الخصائص التكتيكية والفنية للقاموس:

  • النص المصدر - 8.2 غيغابايت من المواد من مكتبة موشكوف (lib.ru)، 680 مليون كلمة؛
  • حجم القاموس - 65 ميغابايت؛
  • عدد الكلمات - 3.2 مليون؛
  • متوسط ​​طول الكلمة هو 9.5 حرفًا؛
  • متوسط ​​طول الكلمة المربعة (يمكن أن يكون مفيدًا عند تقييم بعض الخوارزميات) - 10.0 أحرف؛
  • الأبجدية - العواصم الحروف من الألف إلى الياء، بدون E (لتبسيط بعض العمليات). لا يتم تضمين الكلمات التي تحتوي على أحرف غير أبجدية في القاموس.
إن اعتماد حجم القاموس على حجم النص ليس خطيًا تمامًا - فحتى حجم معين، يتم تشكيل إطار أساسي للكلمات، يتراوح من 15% لكل 500 ألف كلمة إلى 5% لكل 5 ملايين، ومن ثم يقترب الاعتماد بشكل خطي، ويتناقص ببطء ويصل إلى 0.5% لكل 680 مليون كلمة يتم ضمان الحفاظ على النمو لاحقًا في الغالب من خلال الكلمات النادرة.

خوارزمية توسيع أخذ العينات

تُستخدم هذه الخوارزمية غالبًا في أنظمة التدقيق الإملائي (أي المدققين الإملائيين)، حيث يكون حجم القاموس صغيرًا، أو عندما لا تكون السرعة هي المعيار الرئيسي.
يعتمد على تقليل مشكلة البحث الغامض إلى مشكلة البحث الدقيقة.

من الاستعلام الأصلي، يتم إنشاء مجموعة من الكلمات "الخاطئة"، ويتم بعد ذلك إجراء بحث دقيق لكل منها في القاموس.

يعتمد وقت تشغيله بقوة على عدد الأخطاء k وعلى حجم الأبجدية A، وفي حالة استخدام البحث في القاموس الثنائي فهو:

على سبيل المثال، متى ك = 1والكلمات التي يبلغ طولها 7 (على سبيل المثال، "التمساح") في الأبجدية الروسية، سيكون حجم العديد من الكلمات الخاطئة حوالي 450، أي أنه سيكون من الضروري إجراء 450 استعلامًا في القاموس، وهو أمر مقبول تمامًا.
ولكن بالفعل في ك = 2سيكون حجم هذه المجموعة أكثر من 115 ألف خيار، وهو ما يتوافق مع البحث الكامل لقاموس صغير، أو 1/27 في حالتنا، وبالتالي فإن وقت العمل سيكون طويلاً جدًا. في الوقت نفسه، يجب ألا ننسى أنه لكل كلمة من هذه الكلمات، من الضروري إجراء بحث عن التطابق التام في القاموس.

الخصائص:
يمكن تعديل الخوارزمية بسهولة لإنشاء خيارات "خاطئة" وفقًا لقواعد تعسفية، علاوة على ذلك، لا تتطلب أي معالجة أولية للقاموس، وبالتالي ذاكرة إضافية.
التحسينات المحتملة:
لا يمكن إنشاء مجموعة كاملة من الكلمات "الخاطئة"، ولكن فقط تلك التي من المرجح أن تحدث في موقف حقيقي، على سبيل المثال، الكلمات التي تأخذ في الاعتبار الأخطاء الإملائية الشائعة أو أخطاء الكتابة.

تم اختراع هذه الطريقة منذ وقت طويل، وهي الأكثر استخدامًا على نطاق واسع، نظرًا لأن تنفيذها بسيط للغاية ويوفر أداءً جيدًا إلى حد ما. تعتمد الخوارزمية على المبدأ:
"إذا كانت الكلمة A تتطابق مع الكلمة B، مع الأخذ في الاعتبار العديد من الأخطاء، فمع وجود درجة عالية من الاحتمال، سيكون لديهم سلسلة فرعية مشتركة واحدة على الأقل بطول N."
تسمى هذه السلاسل الفرعية ذات الطول N-grams.
أثناء الفهرسة، يتم تقسيم الكلمة إلى N-grams، ثم يتم تضمين الكلمة في قوائم كل من N-grams. أثناء البحث، يتم تقسيم الاستعلام أيضًا إلى N-grams، ولكل منها قائمة بالكلمات التي تحتوي على مثل هذه السلسلة الفرعية يتم البحث عنها بالتتابع.

الأكثر استخدامًا في الممارسة العملية هي الأشكال الثلاثية - سلاسل فرعية بطول 3. يؤدي اختيار قيمة أكبر لـ N إلى تقييد الحد الأدنى لطول الكلمة الذي يمكن من خلاله اكتشاف الأخطاء بالفعل.

الخصائص:
لا تعثر خوارزمية N-gram على جميع الكلمات التي بها أخطاء إملائية محتملة. إذا أخذنا، على سبيل المثال، كلمة VOTKA، وقمنا بتحليلها إلى أشكال ثلاثية: VO تكا → فو تعن تل ت KA - يمكنك ملاحظة أن جميعها تحتوي على الخطأ T. وبالتالي، لن يتم العثور على كلمة "VODKA"، لأنها لا تحتوي على أي من هذه الأشكال الثلاثية، ولن يتم تضمينها في القوائم المقابلة. وبالتالي، كلما كان طول الكلمة أقصر وزاد عدد الأخطاء التي تحتوي عليها، زادت فرصة عدم إدراجها في القوائم المقابلة لـ N-grams الخاصة بالاستعلام، ولن تكون موجودة في النتيجة.

وفي الوقت نفسه، تترك طريقة N-gram نطاقًا كاملاً لاستخدام المقاييس الخاصة بك ذات الخصائص التعسفية والتعقيد، ولكن عليك أن تدفع ثمنها - عند استخدامها، لا تزال بحاجة إلى البحث بالتسلسل في حوالي 15٪ من القاموس، وهو أمر لا بأس به. الكثير للقواميس الكبيرة.

التحسينات المحتملة:
يمكنك تقسيم جداول تجزئة N-gram حسب طول الكلمة وموضع N-gram في الكلمة (التعديل 1). كيف لا يمكن أن يختلف طول كلمة البحث والاستعلام بأكثر من ك، ولا يمكن أن تختلف مواضع N-gram في الكلمة بما لا يزيد عن k. وبالتالي، سيكون من الضروري التحقق فقط من الجدول المقابل لموضع N-gram في الكلمة، بالإضافة إلى جداول k على اليسار وجداول k على اليمين، أي. المجموع 2 كيلو+1الجداول المجاورة.

يمكنك أيضًا تقليل حجم المجموعة المطلوبة للعرض عن طريق تقسيم الجداول حسب طول الكلمة، وبالمثل عرض المجموعات المجاورة فقط 2 كيلو+1الجداول (تعديل 2).

تم وصف هذه الخوارزمية في مقالة L. M. Boytsov. "التجزئة عن طريق التوقيع." يعتمد على تمثيل واضح إلى حد ما لـ "بنية" الكلمة في شكل بتات، تُستخدم كعلامة تجزئة (توقيع) في جدول التجزئة.

أثناء الفهرسة، يتم حساب هذه التجزئة لكل كلمة، ويتم إدخال مراسلات قائمة كلمات القاموس مع هذا التجزئة في الجدول. ثم، أثناء البحث، يتم حساب التجزئة للطلب ويتم البحث في جميع التجزئة المجاورة التي تختلف عن التجزئة الأصلية بما لا يزيد عن k بت. لكل من هذه التجزئة، يتم البحث في قائمة الكلمات المقابلة لها.

عملية حساب التجزئة - يرتبط كل جزء من التجزئة بمجموعة من الأحرف من الأبجدية. بت 1 في الموضع أنافي التجزئة يعني أن الكلمة المصدر تحتوي على حرف من ط-المجموعات الأبجدية. ترتيب الحروف في الكلمة ليس له أي معنى على الإطلاق.

لن تؤدي إزالة حرف واحد إلى تغيير قيمة التجزئة (إذا كان لا يزال هناك أحرف من نفس المجموعة الأبجدية في الكلمة)، أو أن البت المقابل لهذه المجموعة سيتغير إلى 0. عند الإدراج، بنفس الطريقة، سيتم تغيير أي بت واحد انتقل إلى 1، أو لن يكون هناك أي تغييرات. عند استبدال الأحرف، يكون كل شيء أكثر تعقيدًا بعض الشيء - يمكن أن تظل التجزئة دون تغيير على الإطلاق، أو تتغير في موضع واحد أو موضعين. أثناء التباديل، لا تحدث أي تغييرات على الإطلاق، لأنه لا يؤخذ في الاعتبار ترتيب الرموز عند إنشاء التجزئة، كما ذكرنا سابقًا. وبالتالي، لتغطية أخطاء k بالكامل، تحتاج إلى التغيير على الأقل 2 كيلوقليلا في التجزئة.

وقت التشغيل، في المتوسط، مع وجود أخطاء "غير مكتملة" (عمليات الإدراج والحذف والتحويل، بالإضافة إلى جزء صغير من عمليات الاستبدال):

الخصائص:
نظرًا لحقيقة أنه عند استبدال حرف واحد، يمكن تغيير بتتين في وقت واحد، فإن الخوارزمية التي تنفذ، على سبيل المثال، تشوهات لا تزيد عن 2 بت في وقت واحد لن تنتج في الواقع الحجم الكامل للنتائج بسبب عدم وجود عدد كبير (اعتمادًا على على نسبة حجم التجزئة إلى الأبجدية) جزء من الكلمات مع استبدالين (وكلما زاد حجم التجزئة، كلما أدى استبدال الحرف في كثير من الأحيان إلى تشويه بتتين في وقت واحد، وكلما كانت النتيجة أقل اكتمالا ). بالإضافة إلى ذلك، لا تسمح هذه الخوارزمية بالبحث عن البادئات.

أشجار BK

الأشجار بوركهارد كيلرهي أشجار مترية، وتعتمد خوارزميات إنشاء مثل هذه الأشجار على خاصية القياس لتلبية عدم المساواة المثلثية:

تسمح هذه الخاصية للمقاييس بتكوين مسافات مترية ذات أبعاد عشوائية. هذه المساحات المترية ليست بالضرورة الإقليدية، على سبيل المثال، المقاييس ليفنشتاينو داميرو-ليفنشتايناستمارة غير الإقليديةفضاء. بناءً على هذه الخصائص، من الممكن بناء بنية بيانات تبحث في مثل هذا الفضاء المتري، وهي أشجار باركارد كيلر.

التحسينات:
يمكنك استخدام قدرة بعض المقاييس لحساب المسافة مع القيد، ووضع حد أعلى يساوي مجموع المسافة القصوى لأبناء الرأس والمسافة الناتجة، مما سيؤدي إلى تسريع العملية قليلاً:

اختبار

تم إجراء الاختبار على جهاز كمبيوتر محمول به إنتل كور Duo T2500 (2 جيجا هرتز/667 ميجا هرتز FSB/2 ميجا بايت)، ذاكرة الوصول العشوائي 2 جيجا بايت، نظام التشغيل - Ubuntu 10.10 Desktop i686، JRE - OpenJDK 6 Update 20.

تم إجراء الاختبار باستخدام مسافة Damerau-Levenshtein وعدد الأخطاء ك = 2. حجم الفهرس موضح مع القاموس (65 ​​ميجابايت).

حجم الفهرس: 65 ميجابايت
وقت البحث: 320 مللي ثانية/330 مللي ثانية
اكتمال النتائج: 100%

N-جرام (الأصلي)
حجم الفهرس: 170 ميجابايت
وقت إنشاء الفهرس: 32 ثانية
وقت البحث: 71 مللي ثانية/110 مللي ثانية
اكتمال النتائج: 65%
N-جرام (التعديل 1)
حجم الفهرس: 170 ميجابايت
وقت إنشاء الفهرس: 32 ثانية
وقت البحث: 39 مللي ثانية/46 مللي ثانية
اكتمال النتائج: 63%
N-جرام (التعديل 2)
حجم الفهرس: 170 ميجابايت
وقت إنشاء الفهرس: 32 ثانية
وقت البحث: 37 مللي ثانية/45 مللي ثانية
اكتمال النتائج: 62%

حجم الفهرس: 85 ميجابايت
وقت إنشاء الفهرس: 0.6 ثانية
وقت البحث: 55 مللي ثانية
اكتمال النتائج: 56.5%

أشجار BK
حجم الفهرس: 150 ميجابايت
وقت إنشاء الفهرس: 120 ثانية
وقت البحث: 540 مللي ثانية
اكتمال النتائج: 63%

المجموع

معظم خوارزميات البحث الغامضة المفهرسة ليست خطية فرعية حقًا (أي، لها وقت تشغيل مقارب يا(سجل ن)أو أقل)، وعادةً ما تعتمد سرعة عملها بشكل مباشر على ذلك ن. ومع ذلك، فإن التحسينات والتعديلات المتعددة تجعل من الممكن تحقيق وقت تشغيل قصير بدرجة كافية حتى مع وجود كميات كبيرة جدًا من القواميس.

هناك أيضًا العديد من الأساليب المتنوعة وغير الفعالة التي تعتمد، من بين أمور أخرى، على تكييف التقنيات والتقنيات المختلفة المستخدمة بالفعل في أماكن أخرى مع مجال موضوعي معين. ومن هذه الأساليب تكييف الأشجار البادئة (Trie) مع مشاكل البحث المبهمة، والتي تجاهلتها بسبب انخفاض كفاءتها. ولكن هناك أيضًا خوارزميات تعتمد على الأساليب الأصلية، على سبيل المثال، الخوارزمية ماسا نواك، والتي، على الرغم من أنها تحتوي على وقت تشغيل مقارب تحت خطي، إلا أنها غير فعالة للغاية بسبب الثوابت الضخمة المخفية وراء مثل هذا التقدير الزمني، والتي تتجلى في شكل حجم فهرس ضخم.

الاستخدام العملي لخوارزميات البحث الغامضة في الواقع محركات البحثيرتبط ارتباطًا وثيقًا بالخوارزميات الصوتية، والخوارزميات الجذعية المعجمية - عزل الجزء الأساسي من أشكال الكلمات المختلفة لنفس الكلمة (على سبيل المثال، يوفر Snowball وYandex mystem هذه الوظيفة)، بالإضافة إلى التصنيف بناءً على المعلومات الإحصائية، أو استخدام مقاييس معقدة ومعقدة. .

  • مسافة Levenshtein (مع خيار القطع والبادئة)؛
  • مسافة Damerau-Levenshtein (مع خيار القطع والبادئة)؛
  • خوارزمية Bitap (Shift-OR / Shift-AND مع تعديلات Wu-Manber)؛
  • خوارزمية توسيع أخذ العينات؛
  • طريقة N-gram (الأصلية ومع التعديلات)؛
  • طريقة تجزئة التوقيع؛
  • أشجار BK.
أردت أن أجعل الكود سهل الفهم، وفي نفس الوقت فعال بما فيه الكفاية التطبيق العملي. لم تكن مهمتي هي إخراج آخر عصير من JVM. يتمتع.

ومن الجدير بالذكر أنه أثناء دراسة هذا الموضوع توصلت إلى بعض التطورات الخاصة بي التي تتيح لي تقليل وقت البحث بمقدار أمر كبير بسبب الزيادة المعتدلة في حجم الفهرس وبعض القيود على حرية اختر المقاييس. لكن هذه قصة مختلفة تمامًا.

باستخدام N-جرام

الاستخدام العام لـ N-gram

  • استخراج البيانات لتجميع سلسلة من صور الأقمار الصناعية للأرض من الفضاء ثم تحديد الأجزاء المحددة من الأرض الموجودة في الصورة،
  • البحث عن التسلسل الجيني,
  • في مجال علم الوراثة يتم استخدامها لتحديد أنواع معينة من الحيوانات التي يتم جمع عينات الحمض النووي منها،
  • في ضغط الكمبيوتر
  • باستخدام N-gram، تتم عادةً فهرسة البيانات المتعلقة بالصوت.

تُستخدم N-grams أيضًا على نطاق واسع في معالجة اللغة الطبيعية.

استخدام N-Grams لتلبية احتياجات معالجة اللغة الطبيعية

في مجال معالجة اللغة الطبيعية، تُستخدم N-grams بشكل أساسي للتنبؤ بناءً على النماذج الاحتمالية. يحسب نموذج N-gram احتمالية الكلمة الأخيرة من N-gram إذا كانت جميع الكلمات السابقة معروفة. عند استخدام هذا الأسلوب في اللغة النموذجية، يفترض أن حدوث كل كلمة يعتمد فقط على الكلمات السابقة لها.

تطبيق آخر لـ N-gram هو اكتشاف الانتحال. إذا قمت بتقسيم النص إلى عدة أجزاء صغيرة، ممثلة بـ n-grams، فيمكن مقارنتها بسهولة مع بعضها البعض، وبالتالي الحصول على درجة التشابه بين المستندات الخاضعة للرقابة. غالبًا ما يتم استخدام N-grams بنجاح لتصنيف النصوص واللغة. بالإضافة إلى ذلك، يمكن استخدامها لإنشاء وظائف تتيح لك اكتساب المعرفة من البيانات النصية. باستخدام N-grams، يمكنك العثور بكفاءة على مرشحين لاستبدال الكلمات التي بها أخطاء إملائية.

مشاريع جوجل البحثية

استخدمت مراكز أبحاث Google نماذج N-gram لمجموعة واسعة من الأبحاث والتطوير. وتشمل هذه المشاريع مثل الترجمة الإحصائية من لغة إلى أخرى، والتعرف على الكلام، وتصحيح الإملاء، واستخراج المعلومات، وأكثر من ذلك بكثير. ولأغراض هذه المشاريع، تم استخدام مجموعات نصية تحتوي على عدة تريليونات من الكلمات.

قررت جوجل إنشاء مبنى تعليمي خاص بها. يُطلق على المشروع اسم Google teracorpus ويحتوي على 1,024,908,267,229 كلمة تم جمعها من مواقع الويب العامة.

طرق استخراج ن جرام

نظرًا للاستخدام المتكرر لـ N-grams لحل المشكلات المختلفة، هناك حاجة إلى خوارزمية موثوقة وسريعة لاستخراجها من النص. يجب أن تكون أداة استخراج n-gram المناسبة قادرة على التعامل مع حجم نص غير محدود، وأن تكون سريعة، وأن تستخدم الموارد المتاحة بكفاءة. هناك عدة طرق لاستخراج N-gram من النص. تعتمد هذه الأساليب على مبادئ مختلفة:

ملحوظات

انظر أيضا


مؤسسة ويكيميديا.

  • 2010.
  • تلفزيون ن

ن-كادهيرين

    تعرف على معنى "N-gram" في القواميس الأخرى:غرام - (الجرام الفرنسي، من صفة النحو اليونانية). وحدة اللغة الفرنسية الوزن = وزن 1 سم مكعب من الماء المقطر = 22.5 روسي. أسهم قاموس الكلمات الأجنبية المدرجة في اللغة الروسية. Chudinov A.N.، 1910. وحدة قياس الوزن GRAM في فرنسا ...

    قاموس الكلمات الأجنبية للغة الروسيةغرام - جرام، الجنرال. رر. جرام ومقبول (في الكلام الشفهي بعد الأرقام) جرام. مائة جرام (جرام). في الدفاعشكل جديد جنس. حالة الجمع عدد الجرامات تحدث به خبير اللغة الروسية الكاتب ك. تشوكوفسكي. وهذا ما كتبه في كتاب "حيا كالحياة": ... ...

    تعرف على معنى "N-gram" في القواميس الأخرى:- غرام، غرام، زوج. (من علامة النحو اليونانية، حرف). الوحدة الأساسية للوزن في النظام المتري، وتساوي وزن 1 سم مكعب من الماء. ويزن الجرام حوالي 1/400 رطل. ❖ ذرة الجرام ( الفيزيائية ) عدد جرامات المادة يساوي وزنها الذري .... ... قاموس أوشاكوف التوضيحي

    غرام رونتجن- جرام رونتجن / ن، جرام رونتجن / نا، جين. رر. جرام رونتجن و جرام رونتجن ... معاً. بشكل منفصل. موصولة.

    قاموس الكلمات الأجنبية للغة الروسية- غرام، هذه الكلمة البسيطة لم يكن من الممكن أن تدخل في قاموس الأخطاء لولا حالتين؛ أولاً، إذا كنت تريد التباهي باللغة الصحيحة تمامًا، فعندما تأتي إلى المتجر، أذهل البائع باللغة الصحيحة: زنني مائتي جرام (ليس... ...) قاموس أخطاء اللغة الروسية

    جرام-ذرة- GRAM ATOM، كمية العنصر الذي كتلته بالجرام تساوي كتلته الذرية. تم استبداله بوحدة الخلد SI. على سبيل المثال، جرام واحد من ذرة الهيدروجين (H، الكتلة الذرية = 1) يساوي جرامًا واحدًا. ب> مكافئ الجرام، الوزن بالجرام من ذلك... ... القاموس الموسوعي العلمي والتقني

    تعرف على معنى "N-gram" في القواميس الأخرى:- جرام، آه، لطيف. رر. جرامًا وجرامًا يا زوجي. وحدة الكتلة في النظام العشري هي جزء من الألف من الكيلوجرام. ليس جرامًا (لا) من أي شيء (عامية) إطلاقًا، إطلاقًا. هذا الرجل (ليس لديه) ذرة ضمير. | صفة غرام اه اه ذكي... ... قاموس أوزيجوف التوضيحي

    قاموس الكلمات الأجنبية للغة الروسية- أ؛ رر. جنس. غرام وغرام. م [فرنسي] جرام] وحدة الكتلة في النظام المتري، جزء من الألف من الكيلوجرام. ◊ ليس (واحد) جرام. لا على الاطلاق، لا على الاطلاق. في من ل. لا ذرة من الباطل. لا أحد لديه ذرة من الضمير. * * * جرام (فرنسي... القاموس الموسوعي

    غرام زينوب تيوفيل- (جرام) (1826 ـ 1901) مهندس كهربائي. ولد في بلجيكا وعمل في فرنسا. حصل على براءة اختراع لمولد كهربائي قابل للاستخدام عمليًا مزود بحلقة حديدية (1869). أسس الإنتاج الصناعي للآلات الكهربائية. * * * غرام زينوب... ... القاموس الموسوعي

    ذرة جرام- كمية المادة بالجرام تساوي عدديا كتلتها الذرية. لا ينصح بهذا المصطلح للاستخدام. في SI، يتم التعبير عن كمية المادة بالشامات. * * * جرام ذرة جرام ذرة، كمية المادة بالجرام، تساوي عدديًا كتلتها الذرية (سم ... القاموس الموسوعي

    جزيء جرام- كمية المادة بالجرام تساوي عدديا وزنها الجزيئي. لا ينصح بهذا المصطلح للاستخدام. في SI، يتم التعبير عن كمية المادة بالشامات. * * * جزيء الجرام جزيء الجرام، كمية المادة بالجرام، تساوي عدديا... ... القاموس الموسوعي

,

يعتبر ن-الجرام كوسيلة لتثبيت الواقع اللغوي وبناء نموذجي. العلاقة بين النموذج ن-القواعد والنحو الشكلية. يتم لفت الانتباه إلى أوجه القصور والتناقضات المرتبطة باستخدام النماذج الاحتمالية.

مقدمة

لنبدأ بتعريف رسمي. دعونا نعطي بعض الأبجدية المحدودة VT={واي)، أين واي- رمز منفصل. مجموعة من السلاسل (السلاسل) ذات الطول المحدود المكونة من حروف أبجدية VT، تسمى لغة في الأبجدية VTويتم تعيينه ل(فاتو). سلسلة منفصلة من اللسان ل(فاتو)وسوف نسميها بيانا في هذه اللغة. بدوره، ن-جرام في الأبجدية VTيسمى طول السلسلة ن. ن-gram يمكن أن يتزامن مع بعض العبارة، أو يكون سلسلة فرعية منها، أو لا يتم تضمينه في العبارة على الإطلاق ل(فاتو).

وهنا بعض الأمثلة ن-غرام.

3. , ن-غرامات اللغة الروسية. // هذه المجموعة.

4. غلانز س.الإحصاءات الطبية والبيولوجية. لكل. من اللغة الإنجليزية تم تحريره بواسطة و. م، 1999.

5. اللغويات الوصفية. مقدمة لكتاب ج. جليسون "مقدمة في اللغويات الوصفية". م، 1959.

6. اللغويات النظرية والتطبيقية. م، 1968.

8. , التوقف أثناء تركيب الكلام التلقائي. // نظرية وممارسة أبحاث الكلام. م 1999.

9. مينسكي م.الطرافة ومنطق اللاوعي المعرفي. // الجديد في اللغويات الأجنبية. المجلد. الثالث والعشرون. م، 1988.

10. سلوبين د.، جرين ج.علم اللغة النفسي. م، 1976

11. نظرية الاحتمالية. م، 1972.

12. فو ك.الأساليب الهيكلية في التعرف على الأنماط. م، 1977.

13. هاريس تي.نظرية العمليات العشوائية المتفرعة. م، 1966.

14. بريل E. وآخرون.وَرَاءَ ن-grams: هل يمكن للتطور اللغوي تحسين نمذجة اللغة؟

15. بوث ت.احتمال تمثيل اللغات الرسمية. // IEEE السيمب السنوي. التبديل ونظرية الأتمتة. 1969.

16. جيلينك ف.نمذجة اللغة ذاتية التنظيم للتعرف على الكلام. // قراءات في التعرف على الكلام. 1989.

17. جيلينك ف.، لافيرتي ج.حساب احتمالية إنشاء سلسلة فرعية أولية بواسطة قواعد عشوائية خالية من السياق. // اللغويات الحاسوبية، المجلد.

18. هاريس ز.س.المنهج في اللغويات الهيكلية. شيكاغو، 1951.

19. لاشلي ك.مشكلة الترتيب التسلسلي في السلوك. // علم اللغة النفسي: كتاب قراءات، نيويورك 1961.

20. شليسنجر إي.بنية الجملة وعملية القراءة. موتون. 1968.

21. شيبر س.دليل ضد حرية سياق اللغة الطبيعية. // اللغويات والفلسفة، المجلد.

22. سولا بول I.الاتجاهات في تحليل المحتوى اليوم. // علم اللغة النفسي: كتاب قراءات، نيويورك 1961

23. ستولك أ.، سيجال ج.احتمالات n-gram دقيقة من القواعد النحوية العشوائية الخالية من السياق. // وقائع الاجتماع السنوي الثاني والثلاثين لـ ACL. 1994.