Հայերեն տեքստերում տառերի վիճակագրական բաշխվածությունը

Հայոց Այբուբեն, ըստ տառերի կիրառաման հաճախականության
Հայոց Այբուբեն, ըստ տառերի կիրառաման հաճախականության

Իմաստը և մեթոդը նկարագրված է վրացական տառերի վերաբերյալ հոդվածում։ Հայերենի համար մի քիչ այլ մոտեցում պահանջվեց “ու” տառի պատճառով։ Նաև հայերենում, ի տարբերություն, վրացերենի, առկա են մեծատառեր և փոքրատառեր։

Տեքստերի կորպուսը հավաքել եմ Հայերեն Վիքիպեդիայից, մի քանի լրատվականներից, Գրապահարանից, Գրանիշից, մոտ մի 5 տարբեր բլոգերից ու նաև այս բառարանից։ Ընդհանուր առմամբ ~10ՄԲ տեքստ։

Տեղադրում եմ վիճակագրական աղյուսակը։ Հայկական (նաև վրացական) տեքստեր մշակող սքրիփթները դրել եմ իմ գիթհաբ էջում։ Եթե ձեզ պետք է ավելի մեծ գիտական ճշգրտություն, կարող եք աշխատեցնել սքրիփթները ավելի մեծ տեքստերի կորպուսի համար։

Հետաքրքիր է, որ “օ”-ն և “ֆ”-ն ամենաքիչ օգտագործվողն են, այդպես էլ մնացել են վերջում, ու երևի առանց դրանց էլ կարող էինք «յոլա գնալ»  ։)

Հայերենի «վիճակագրական այբուբենը»

1 Ա ա [0.1651]
2 Ն ն [0.0952]
3 Ր ր [0.0802]
4 Ե ե [0.0681]
5 Ի ի [0.0585]
6 ՈՒ ու [0.0432]
7 Մ մ [0.0384]
8 Ո ո [0.0368]
9 Կ կ [0.0358]
10 Տ տ [0.0333]
11 Յ յ [0.0287]
12 Ս ս [0.027]
13 Վ վ [0.0267]
14 Լ լ [0.0261]
15 Ց ց [0.0201]
16 Հ հ [0.0183]
17 Թ թ [0.0166]
18 Դ դ [0.0154]
19 Գ գ [0.0149]
20 Ք ք [0.0144]
21 Ը ը [0.0133]
22 Ղ ղ [0.0129]
23 Պ պ [0.012]
24 Բ բ [0.011]
25 Ծ ծ [0.0102]
26 Շ շ [0.0094]
27 Խ խ [0.0087]
28 Ռ ռ [0.0082]
29 Է է [0.0082]
30 Զ զ [0.0072]
31 Չ չ [0.0071]
32 և և [0.0062]
33 Ջ ջ [0.006]
34 Ձ ձ [0.0041]
35 Փ փ [0.0041]
36 Ժ ժ [0.0031]
37 Ճ ճ [0.0031]
38 Օ օ [0.0015]
39 Ֆ ֆ [0.0009]
Հայոց Այբուբեն, ըստ տառերի կիրառաման հաճախականության, ավելի սիրուն ։)
Հայոց Այբուբեն, ըստ տառերի կիրառաման հաճախականության, ավելի սիրուն ։)

Դբա Լավը 😉



2 thoughts on “Հայերեն տեքստերում տառերի վիճակագրական բաշխվածությունը

  • Pingback: Ինչպես արագ սովորել վրացական տառերը, և թե ինչի համար է դա անհրաժեշտ : Անհանգիստ Բլոգ

  • Մայիս 28, 2014 at 2:14 pm
    Permalink

    Ֆեյսբուքի քննարկումներից

    Sev Black Ֆեյսբուքյան տեքստերի դեպքում “ա”-ից հետո երկրերդը “ճ”-ն ա…
    10 hrs · Like · 9

    Nare Ghukasyan իմ անվան տառերը առաջին 4 հորիզոնականում են
    2 hrs · Like · 2

    Nshan Abasyan Շատ մեծ նորություն չկա էստեղ: Բանասիրականի հենց առաջին կուրսում ծանոթացնում են էս վիճակագրությանը: Ուշագրավն այստեղ էն է, որ առաջին տասը հորիզոնականում սպառվում են բոլոր վեց ձայնավորները: Սա նշանակում է, որ մեր լեզուն բաղաձայների կուտակում ընդհանուր առմամբ չի ունենում, հետևաբար արտասանական տեսանկյունից պարզ ու բարեհունչ է: Իսկ ը-ն այս ցանկում սխալ տեղ է հայտնվել, քանի որ հաշվի չի առնվել գաղտնավանկի ը-ն:Իրականում սա ոչ թե տառերի, գրերի բաշխվածությունն է խոսքում, այլ հնչույթների:
    1 hr · Like

    Artak Kolyan Չէ, սա հենց տառերի բաշխվածությունն է տեքստերում, գաղտնավանկ ը-ն էլ եթե չկա տեքստում , ուրեմն չկա ։)
    1 hr · Like

    Nshan Abasyan Բայց կա, Արտակ ջան, պարզապես չի գԸրվում: Տառերի բաշխավծությունը լեզվաբանական կատեգորիա չէ: Տեքստը խոսքի պատկերն է ընդամենը, իսկ խոսքը ձայնային արտահայտություն ունի: Անգամ հիմա, երբ Դուք կարդում եք իմ տեքստը, մտովի «լսում» եք այն, այլապես իմ գրածն ընդամենը ինչ-որ անհասկանալի գծերի պատկեր կլիներ:
    See Translation
    1 hr · Like · 1

    Artak Kolyan էտքանը ես լավ հականում եմ, որ «կա բայց չի գրվում», ինչքան էլ վատ իմանանամ հայերենը։
    Բայց ստեղ լեզվաբանության հարց չի էլ դրվել, ուրիշ բան, որ կա սրա լեզվաբանորեն ճիշտ տարբերակը, որը ինչպես ասում ես անցնում են առաջին կուրսում, ու որում հաշվվում են հնչյու…See More
    55 mins · Like · 2

    Nshan Abasyan Հա, Արտակ ջան, շնորհակալ գործ է արվել:
    54 mins · Like

    Artak Kolyan Իրականում մեծ բան չի, բայց եթե կարող եք ձևակերպել թե որ դեպքերում է “ը”-ն լսվում բայց չգրվում, ու եթե դա հնարավոր լինի ծրագրավորել, երևի կարելի է դա էլ ներառել, ու լեզվաբանության տեսանկյունից էլ ճիշտ արդյունք ստանալ
    51 mins · Like · 2

    Nshan Abasyan Հա՜: Ծրագրի համար օրինաչափություն մշակելը բարդ կլինի: Թերևս պետք է հավաքագրել ու ծրագիր ներմուծել ահռելի քանակությամբ վանկեր, որոնցում վանկարարը չգրվող ը-ն է՝ գ(ը), բ(ը): Բայց էդ դեպքում էլ խափանումներ կլինեն:
    45 mins · Edited · Like

    Artak Kolyan բա ձեր էտ ցանկը, որ անցնում են 1 կուրսում, որտեղի՞ց է, ձեռքո՞վ են ու հաշվել
    44 mins · Like · 1

    Nshan Abasyan Հա, ձեռքով են հաշվել: Էն ժամանակ համակարգիչ էլ չի եղել:
    է՜, Արտակ ջան, լեզվաբաններ են եղել, որ ձեռքով մի քանի հարյուր հազար բառ կամ այլ լեզվական միավոր են հաշվել տասնյակ տարիներ:
    42 mins · Edited · Unlike · 1

    Nshan Abasyan Իսկ գաղտնավանկի ը-ն, պարզ է, լինում է երկու բաղաձայնի միջև, բայց բանն այն է, որ դա էլ բացարձակ օրինաչափություն չէ: Ասենք՝ «ստինք» բառում ս-ն և տ-ն համարյա իրար ձուլված են արտասանվում. նրանց միջև ոչ մի ը էլ չի լսվում:
    See Translation
    38 mins · Edited · Like

    Nshan Abasyan Բայց «ստախոս» բառում արդեն նույն այս ս-ի ու տ-ի միջև ը-ն արդեն լսվում է:
    See Translation
    39 mins · Like

    Դավիթ Գյուրջինյան Անհրաժեշտ աշխատանք է կատարվել: Նշան ջան, ինչ վերաբերում է խորհրդային տարիներին տասնամյակներով բառեր և լեզվական այլ միավորներ են հաշվել, ասեմ, որ շատ հաճախ եզրակացության էին հանգում պատահաբար ընրտված ընդամենը երկու էջի հիման վրա:
    34 mins · Like · 2

    Nshan Abasyan Հա, չեմ էլ կասկածում, որ նման դեպքեր էլ եղած կլինեն, պարո՛ն Գյուրջինյան: Բայց դա գրելիս մտքումս Աճառյանի աշխատանքն ունեի: Մեկ էլ վերջերս Բեդիրյանի հրատարակած դարձվածքների հսկա բառարանը:
    32 mins · Edited · Like

    Դավիթ Գյուրջինյան Աճառյանի և Բեդիրյանի դեպքերն այլ են. մարդիկ հսկայական նյութ են հավաքել, հրապարակել: Բայց, օրինակ, երբ փորձել էին պարզել, թե հայերեն տեքստում բնիկ հայերեն բառերը որքան են, արել են իմ ասած եղանակով: Երկու էջի հիման վրա: Այդպես էլ հնչույթները և այլն:
    30 mins · Like

    Nshan Abasyan Հա՜, շտապել են ընդհանրացումներ անել… Մեզ բնորոշ հատկանիշ է:
    See Translation
    28 mins · Like

    Դավիթ Գյուրջինյան Այնքան էլ չեն շտապել. ուղղակի կարող էին մի քիչ ավելի ընդարձակ տեքստ վերցնել: Չխորանանք, որովհետև պիտի ասենք նաև, որ տեքստերը պիտի բազմազան լինեն և այլն:
    26 mins · Like · 1

    Artak Kolyan իսկ երկու բաղաձայնի միջև լսվող “ը”-ի հետ կապված, արդյո՞ք այդքան շատ են բացառությունները, որ չենք կարող դրանք անտեսել, այսինքն հենց այդպես էլ հաշվել, որ միշտ երկու բաղաձայնի արանքում մի հատ էլ “ը” հաշվել
    12 mins · Edited · Like

    Nshan Abasyan Արտակ ջան, օրինակի համար արի հաշվենք՝ հենց քո այս վերջին գրածում քանի՞ գաղտնավանկի ը կա և քանի՞ դեպք, երբ երկու բաղաձայն իրար կողքի են:
    10 mins · Like

    Nshan Abasyan Իրար կողքի բաղաձայները շատ ավելին են, քան գաղտնավանկի ը-երը: Շատ ավելին:
    8 mins · Unlike · 2

    Artak Kolyan բա հիմա ո՞նց անենք, որ լեզվաբաններն էլ գոհ լինեն հաշվարկից ։)
    6 mins · Like

    Nshan Abasyan Չգիտեմ…
    6 mins · Like

    Դավիթ Գյուրջինյան Լեզվաբաններն այսքանից էլ գոհ պիտի լինեն:
    5 mins · Unlike · 2

    Nshan Abasyan Համաձայն եմ:
    See Translation
    5 mins · Like · 1

    Artak Kolyan եթե դեմ չեք, էս քննարկումը տանեմ գրառմանս տակ դնեմ, ստեղ ինձ համար կարևոր ինֆորմացիա կա, իսկ ֆեսբուքում հետո չեմ էլ գտնի
    3 mins · Like · 2

    Դավիթ Գյուրջինյան Անշուշտ ինչ-որ քայլեր կարելի է անել ը-ի գործածության իրական պատկերը պարզելու համար, բայց արդյունքը լիովին հավաստի դժվար թե լինի:

Comments are closed.

Բաժանորդագրվիր բլոգիս նորություններին

Ես սոցիալական ցանցերում

Subscribe via RSS Feed      Հետևել տեսանյութերիս

Մուտքագրիր էլ․փոստդ

Գրանցվիր

Բաժանորդագրվի՛ր
Տարածիր 
Աջակցիր ինձ՝ տարածելով այս նյութը
Տարածել