АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі
НазваАЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі
Дата канвертавання12.11.2012
Памер55.53 Kb.
ТыпДокументы
Варановіч В.В.

Беларускі дзяржаўны ўніверсітэт, Мінск


АЎТАМАТЫЗАЦЫЯ АДАПТАЦЫІ МАШЫННАГА СЛОЎНІКА БЕЛАРУСКАЙ МОВЫ ПАД НОВЫЯ ПРАВІЛЫ БЕЛАРУСКАЙ АРФАГРАФІІ


1 верасня 2010 года уступіў у дзеянне Закон Рэспублікі Беларусь «Аб правілах беларускай арфаграфіі і пунктуацыі», які зацвердзіў новую рэдакцыю Правілаў беларускай арфаграфіі і пунктуацыі. Артыкул распавядае пра методыку і цяжкасці адаптацыі пад новую рэдакцыю правіл машыннага марфалагічнага слоўніка.


У 1993 годзе ў Рэспубліцы Беларусь была створана Дзяржаўная камісія, якая разгледзела асноўныя праблемы беларускага правапісу. Вынікам работы экспертаў сталі высновы, апублікаваныя ў 1994 годзе, у якія канстатавалася, існуючы беларускі правапіс у цэлым забяспечвае патрэбнасці пісьмовай практыкі і не патрабуе карэннай рэформы. Але разам з тым эксперты рэкамендавалі падрыхтаваць новую рэдакцыю дзеючых правілаў арфаграфіі і пунктуацыі беларускай мовы і ўнесці тыя змяненні, якіх патрабуе сучасная моўная практыка.

Пасля публікацыі высноў пры Інстытуце мовазнаўства імя Якуба Коласа Нацыянальнай акадэміі навук Беларусі была створана рабочая група па падрыхтоўцы новай рэдакцыі Правілаў беларускай арфаграфіі і пунктуацыі. У 2003 годзе завершаны праект новых правілаў быў перададзены на разгляд у Адміністрацыю прэзідэнта і стаў асновай Закона Рэспублікі Беларусь «Аб правілах беларускай арфаграфіі і пунктуацыі», які быў прыняты 23 ліпеня 2008 года. Закон уступіў у дзеянне 1 верасня 2010 года, калі і адбыўся канчатковы пераход да новых правілаў.

Ніжэй пералічаны галоўныя адрозненні правілаў беларускай мовы 2008 года ад правілаў папярэдняй рэдакцыі 1959 года:

1) пашыраны прынцып перадачы акання ў словах іншамоўнага паходжання на канцы слова: трыа, адажыа, Токіа і інш. (раней трыо, адажыо, Токіо);

2) у словах іншамоўнага паходжання, акрамя імёнаў уласных, канцы асноў -эр, -эль замяняюцца на -ар, -аль: прынтар, камп’ютар, пэйджар і інш. (раней прынтэр, камп’ютэр, пэйджэр);

3) напісанне літары я замест е ў некаторых лічэбніках: дзявяты, дзясяты, сямнаццаць, васямнаццаць і інш. (да ўвядзення новых правілаў пісалася дзевяты, дзесяты, семнаццаць, васемнаццаць);

4) напісанне літары а замест о у складанаскарочаных словах тыпу прафкам, гаркам, абкам, селькар, газпрам (раней прафком, гарком, абком, селькор, газпром);

5) пашырана напісанне э замест е ў адпаведнасці з фанетычным прынцыпам: экзэмпляр, тунэль, макрамэ (раней экзэмпляр, тунель, макраме);

6) пашырана напісанне ў (у нескладовага) ў большасці слоў іншамоўнага паходжання: клоўн, раўнд, фаўна замест клоун, раунд, фауна;

7) уніфікавана напісанне прыметнікаў на -скі, утвораных ад імёнаў уласных – усе яны пішуцца без змякчэння асновы: чанчунскі, цяньшанскі, як і любанскі, астраханскі (раней чаньчуньскі, цяньшаньскі);

8) рэгламентавана выкарыстанне дзеясловаў, а таксама ўтвораных ад іх назоўнікаў і прыметнікаў іншамоўнага паходжання з суфіксамі -ава- (-ява-) і -ірава- (-ырава-), напрыклад, ліквідаваць, афіляванне, латунаваны (раней ліквідзіраваць, афіліраванне, латуніраваны).

Створаная ў Навукова-даследчай лабараторыі інтэлектуальных інфармацыйных сістэм БДУ лінгвістычная база ведаў (ЛБВ) скаладаецца з шэрагу праграмных прадуктаў і машынных слоўнікаў. Асноўны кампанент ЛБВ – універсальны марфалагічны слоўнік беларускай мовы [3], які і быў у першую чаргу адаптаваны пад новыя правілы. Дадзены слоўнік пабудаваны як слоўнік словаформаў, г.зн. “складаецца са спісу усіх слоўнікавых формаў натуральнай мовы; у слоўніку такога тыпу спрашчаецца марфалагічны аналіз” [4, с. 49] (пераклад мой – В.В.). Адаптацыя была праведзена з дапамогай праграмных сродкаў на мове праграмавання AWK, а таксама іншых прадуктаў пад кіраваннем аперацыйнай сістэмы LINUX.

Спачатку на аснове фармальных прыкмет былі адабраны словаформы, што патэнцыйна маглі б змяніць напісанне паводле новай рэдакцыі правіл. Напрыклад, была зроблена выбарка ўсіх дзеясловаў, якія маюць фіналь -іраваць, назоўнікаў са спалучэннем “галосны+о” на канцы і інш. Далей у аўтаматычным рэжыме былі праведзены неабходныя змены, пасля якіх абавязковым быў візуальны кантроль змененых словаформаў. У некаторых выпадках спатрэбіўся зварот да нарматыўнага слоўніка, паколькі правіла можа быць неадназначна трактавана, такія выпадкі апісаны ніжэй.

Выявілася, што адаптаванню падлягае даволі значная частка слоў беларускай мовы. Слоўнік налічвае каля 160 тысяч парадыгмаў (каля 1250 тысяч словаформаў), з іх назоўнікаў – 55 тысяч парадыгмаў, прыметнікаў – 42 тысячы парадыгмаў, дзеясловаў – 45 тысяч парадыгмаў.

Сярод назоўнікаў 372 парадыгмы (4464 словаформы) паводле новых правілаў сталі пісацца па-іншаму. Гэта складае каля 0,4% ад агульнай колькасці назоўнікаў у слоўніку. Сярод іх: 120 назоўнікаў мелі фіналь -эр, якая змянілася на -ар, у 10 парадыгмах фіналь -эль была зменена на -аль, 26 складанаскарочаных слоў і лексем іншамоўнага паходжання былі адаптаваны згодна тэндэнцыі пашырэння з’явы акання, у 60 назоўніках з’явілася літара ў (у нескладовае) на месцы звычайнага у; 136 аддзеяслоўных назоўнікаў змянілі суфікс -ірава- на суфікс -ава-.

Найбольш складаныя выпадкі – лексемы іншамоўнага паходжання, у якіх паводле правілаў 1959 года пасля цвёрдых па вымаўленню губных зычных і з, с, н пісалася ётаваная галосная е. Згодна новым правілам, на яе месцы павінна пісацца галосная э – паводле літаратурнага вымаўлення. Аднак выявілася, што нават новая рэдакцыя правілаў не дае выразнага адказу, на якую колькасць слоў і па якім прынцыпе дадзенае правіла распаўсюджваецца. Так, у “Беларускім арфаграфічным слоўніку” [1] падаецца напісанне экзэмпляр, мулінэ, але санет, навела. Такія лексемы адаптаваліся ўручную, з візуальным кантролем і праверкай па слоўніку.

Таксама пэўныя цяжкасці выклікала правіла пра правапіс дзеяслоўных суфіксаў, у прыватнасці пункт “Дзеяслоўны суфікс -ірава- (-ырава-) ужываецца калі дзеяслоў без -ір- (-ыр-) губляе сваю фармальную і семантычную акрэсленасць і калі дзеяслоў мае вузкатэрміналагічнае значэнне” [2, с.33]. Такія выпадкі разглядаліся асобна і вывяраліся па слоўніку. Колькасць адаптаваных дзеясловаў, у якіх суфіксы -ірава- (-ырава-) змяніліся на -ава- (-ява-) – 672 лексемы, або 40320 словаформаў (з улікам дзеепрыметнікаў і дзеепрыслоўяў). Гэта складае каля 1,5% ад агульнай колькасці дзеясловаў.

Сярод прыметнікаў змяненню падлягалі 132 лексемы, або 3168 словаформаў. Доля адаптаваных прыметнікаў – 0,3% ад агульнай колькасці слоў гэтай часціны мовы.

Такім чынам, агульная колькасць адаптаваных лексем – каля 1300, што складае 0,8% агульнага аб’ёму слоўніка. Адзначым, што у склад ЛБВ уваходзіць таксама анатаваны корпус тэкстаў на беларускай мове, які налічвае каля 3 млн словаформ. У корпусе таксама былі праведзены змены паводле новай рэдакцыі правіл арфаграфіі. Выявілася, што словы, якія падлягаюць зменам, маюць невялікую частотнасць, паколькі з трох мільёнаў словаформ было адаптавана каля 4 тысяч словаформ, што складае 0,1% усяго аб’ёму. Адаптацыя корпуса тэкстаў праводзілася цалкам у аўтаматычным рэжыме, шляхам параўнання корпуса з адаптаваным слоўнікам.


Літаратура


  1. Беларускі арфаграфічны слоўнік / уклад. Л.П. Кунцэвіч, І.У. Кандраценя; пад рэд. А.А. Лукашанца. – Мн.: Беларус. навука, 2009. – 695 с.

  2. Правілы беларускай арфаграфіі і пунктуацыі. – Мн.: Нац. цэнтр прававой інфарм. Рэсп. Беларусь, 2008. – 144 с.

  3. Разработка лингвистической базы знаний белорусского и русского языков для задач автоматической обработки текста: отчет о НИР/ Бел. гос. ун-т; рук. И.В. Совпель. – Мн., 2010. – 19 с. - № ГР 20103060.

  4. Совпель, И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста / И.В. Совпель. – Мн.: Вышэйшая школа, 1991. – 118 с.

Дадаць дакумент у свой блог ці на сайт

Падобныя:

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconАрфаграфічныя хвілінкі на ўроках мовы па новых "Правілах беларускай арфаграфіі І пунктуацыі"
Роля арфаграфічных хвілінак у засваенні новых “Правілаў беларускай арфаграфіі І пунктуацыі” на ўроках беларускай мовы

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗакон рэспублікi беларусь аб Правілах беларускай арфаграфіі І пунктуацыі
Артыкул Зацвердзіць Правілы беларускай арфаграфіі І пунктуацыі (прыкладаюцца)

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗакон Рэспублікі Беларусь
Артыкул у рэспубліцы Беларусь уводзяцца адзіныя Правілы беларускай арфаграфіі І пунктуацыі, якія ўстанаўліваюць аднастайнасць пісьмовай...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconПлан мерапрыемстваў сш №8 па папулярызацыі І пашырэнні сферы выкарыстання беларускай мовы ў жыцці грамадства на 2010- 2012 І далейшыя гады
Абнаўленне І афармленне ў класных кутках сш №8 інфармацыйных рубрык па пытаннях папулярызацыі беларускай мовы І новай рэдакцыі Правіл...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconВывучаем правілы беларускага правапісу
Прыняты 23 ліпеня 2008 г закон Рэспублікі Беларусь “Аб правілах беларускай арфаграфіі І пунктуацыі” з’яўляецца вынікам шматгадовай...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconДадатак да тэматычнай школьнай газеты "след"
Мы прапануем рубрыку "Вывучаем новыя правілы беларускага правапісу", мэта якой растлумачыць тыя змены І ўдакладненні, што ўводзяцца...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗмены ў новай рэдакцыі "Правіл беларускай арфаграфіі І пунктуацыі"
Закон Рэспублікі Беларусь “Аб правілах беларускай арфаграфіі І пунктуацыі”, які з’яўляецца вынікам шматгадовай працы вялікага калектыву...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗмены ў новай рэдакцыі «Правіл беларускай арфаграфіі І пунктуацыі»
Закон Рэспублікі Беларусь “Аб правілах беларускай арфаграфіі І пунктуацыі”, які з’яўляецца вынікам шматгадовай працы вялікага калектыву...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗмены ў новай рэдакцыі "Правіл беларускай арфаграфіі І пунктуацыі"
Закон Рэспублікі Беларусь “Аб правілах беларускай арфаграфіі І пунктуацыі”, які з’яўляецца вынікам шматгадовай працы вялікага калектыву...

АЎтаматызацыя адаптацыі машыннага слоўніка беларускай мовы пад новыя правілы беларускай арфаграфіі iconЗ мены ў новай рэдакцыі «Правіл беларускай арфаграфіі І пунктуацыі»
Закон Рэспублікі Беларусь “Аб правілах беларускай арфаграфіі І пунктуацыі”, які з’яўляецца вынікам шматгадовай працы вялікага калектыву...

Размесціце кнопку на сваім сайце:
be.convdocs.org


База данных защищена авторским правом ©be.convdocs.org 2012
звярнуцца да адміністрацыі
be.convdocs.org
Галоўная старонка