Что скрывается за забором?

В ком­мен­та­ри­ях к мо­ей за­мет­ке «Несло­вар­ные сло­ва» ме­ня при­зва­ли предъ­явить при­ме­ры наи­бо­лее ча­сто упо­треб­ля­е­мых слож­ных слов это­го ро­да в швед­ском язы­ке. На что я от­ве­тил, сре­ди про­че­го, что сде­лать это невоз­мож­но в прин­ци­пе: бу­дучи сло­ва­ми «на слу­чай», они по са­мой сво­ей при­ро­де не мо­гут стать пред­ме­том срав­ни­тель­ной ста­ти­сти­ки. Так как в сло­ва­рях их по опре­де­ле­нию нет, то ис­кать их в тек­сте мож­но толь­ко пу­тем руч­ной вы­бор­ки. Это еще ку­да ни шло, ес­ли текст не слиш­ком про­стран­ный, но и в этом слу­чае при­шлось бы по­тра­тить нема­ло вре­ме­ни, так как лю­бое сло­во, за­по­до­зрен­ное в несло­вар­но­сти, нуж­но бу­дет про­ве­рить по ака­де­ми­че­ско­му слов­ни­ку SAOL. Ин­ту­и­ция мо­жет об­ма­нуть, и это сло­во мо­жет там ока­зать­ся. Но для ста­ти­сти­ки нуж­ны пред­ста­ви­тель­ные кор­пу­сы тек­ста в мил­ли­о­ны и де­сят­ки мил­ли­о­нов слов1). Ни­же бу­дет вид­но, почему.

Од­на­ко де­ло да­же не в невоз­мож­но­сти или боль­шой тех­ни­че­ской труд­но­сти за­да­чи, а в том, что упо­тре­би­тель­ность сло­ва и «сло­вар­ность» ес­ли как-то и со­от­но­сят­ся, то весь­ма слож­ным и да­ле­ко еще не яс­ным об­ра­зом2). Су­ще­ству­ет мно­же­ство слов, вклю­ча­е­мых в сло­варь, – слов об­ще­го язы­ка, а не уз­ко­спе­ци­аль­ных тер­ми­нов, – встре­ча­ю­щих­ся ред­ко (ска­жем, skandalunge ‘на­рож­да­ю­щий­ся скан­дал’). В то же вре­мя, очень мно­гие несло­вар­ные сло­ва по­па­да­ют­ся на каж­дом ша­гу (ска­жем, skolskytt букв. ‘школь­ный стре­лок’– вде­ся­те­ро чаще).

Но здесь про дру­гое: эта за­мет­ка воз­ник­ла по смеж­но­му по­во­ду. В от­ве­тах на ком­мен­та­рии мне слу­чи­лось упо­тре­бить тер­мин ча­стот­ность, на что неза­мед­ли­тель­но по­сле­до­вал во­прос: а в чем, соб­ствен­но, его от­ли­чие от ча­сто­та? От­ве­тив спон­тан­но, что ча­стот­ность – это от­но­си­тель­ный по­ка­за­тель, а ча­сто­та – аб­со­лют­ный, я за­тем при­шел к вы­во­ду, что это­го от­ве­та недо­ста­точ­но. О па­ро­ни­мах у нас уже шла речь, при­ме­ни­тель­но к про­бле­ме пе­ре­во­да ка­лам­бу­ров (в част­но­сти, здесь.) Но эта па­ра – ча­сто­та vs. ча­стот­ность – ин­те­рес­на тем, что это имен­но па­ро­ни­мы, а не си­но­ни­мы, как лег­ко мо­жет по­ка­зать­ся на пер­вый взгляд. То есть это па­ра слов, вы­рос­ших от од­но­го кор­ня и близ­ких по зву­ча­нию, но раз­лич­ных по значению.

Но здесь про дру­гое: эта за­мет­ка воз­ник­ла по смеж­но­му по­во­ду. В от­ве­тах на ком­мен­та­рии мне слу­чи­лось упо­тре­бить тер­мин ча­стот­ность, на что неза­мед­ли­тель­но по­сле­до­вал во­прос: а в чем, соб­ствен­но, его от­ли­чие от ча­сто­та? От­ве­тив спон­тан­но, что ча­стот­ность – это от­но­си­тель­ный по­ка­за­тель, а ча­сто­та – аб­со­лют­ный, я за­тем при­шел к вы­во­ду, что это­го от­ве­та недо­ста­точ­но. О па­ро­ни­мах у нас уже шла речь, при­ме­ни­тель­но к про­бле­ме пе­ре­во­да ка­лам­бу­ров (в част­но­сти, здесь.) Но эта па­ра – ча­сто­та vs. ча­стот­ность – ин­те­рес­на тем, что это имен­но па­ро­ни­мы, а не си­но­ни­мы, как лег­ко мо­жет по­ка­зать­ся на пер­вый взгляд. То есть это па­ра слов, вы­рос­ших от од­но­го кор­ня и близ­ких по зву­ча­нию, но раз­лич­ных по значению.

Ис­ход­ным для обо­их яв­ля­ет­ся при­ла­га­тель­ное ча­стый, в том его из­на­чаль­ном зна­че­нии, ко­то­рое мы ви­дим в со­че­та­ни­ях ти­па ча­стый лес, ча­стые по­се­ще­ния и т.п. и ко­то­рое по­ро­ди­ло су­ще­стви­тель­ное ча­сто­кол, ну вот та­кой за­бор, как на кар­тин­ке. То есть ука­за­ние на плот­ное по­вто­ре­ние в про­стран­стве или во вре­ме­ни од­но­род­ных пред­ме­тов или со­бы­тий. Эту плот­ность мож­но из­ме­рить в ка­ких-то аб­со­лют­ных еди­ни­цах: на­при­мер чис­лом ко­лов на метр за­бо­ра. Ес­ли по­вто­ре­ния со­вер­ша­ют­ся че­рез рав­ные про­ме­жут­ки, то это ча­сто­та, в уз­ком смыс­ле – ча­сто­та ко­ле­ба­ний. На при­ве­ден­ной кар­тин­ке я как раз и хо­тел по­ка­зать род­ство за­бо­ра и си­ну­со­и­ды. А вот изоб­ра­зить ча­стот­ность нель­зя: это аб­стракт­ное по­ня­тие ( ≈ ‘встре­ча­е­мость’ ) не под­да­ет­ся визуализации

Мож­но ли ска­зать ча­сто­та упо­треб­ле­ния сло­ва Х? Да, мож­но, но это бу­дет озна­чать, что NN ре­гу­ляр­но, то и де­ло – ча­сто – упо­треб­ля­ет это сло­во, а не ме­ру его встре­ча­е­мо­сти в по­рож­да­е­мом им тек­сте. Та­кая ме­ра обо­зна­ча­ет­ся сло­вом ча­стот­ность, и оно яв­ля­ет­ся не сло­вом об­ще­го язы­ка, а су­гу­бо линг­ви­сти­че­ским тер­ми­ном, от­но­ся­щим­ся к ста­ти­сти­че­ской об­ра­бот­ке есте­ствен­но­го язы­ка. Стан­дар­том яв­ля­ет­ся под­счет встре­ча­е­мо­сти на мил­ли­он сло­во­упо­треб­ле­ний. Ни о ка­кой плот­но­сти упо­треб­ле­ния сло­ва, т.е. ин­тер­ва­ле меж­ду его упо­треб­ле­ни­я­ми в тек­сте, или тем бо­лее пе­ри­о­дич­но­сти, речь не идет. Ин­те­рес пред­став­ля­ет толь­ко об­щее чис­ло упо­треб­ле­ний в услов­но вы­бран­ном объ­е­ме тек­ста. При этом по­лу­чен­ная та­ким под­сче­том ве­ли­чи­на име­ет зна­че­ние не са­ма по се­бе, а толь­ко в срав­не­нии с ча­стот­но­стью дру­гих лек­си­че­ских еди­ниц. На­при­мер, ес­ли мы хо­те­ли бы срав­нить упо­тре­би­тель­ность слов ча­сто­та и ча­стот­ность, то по­лу­чи­ли бы ра­зи­тель­ный ре­зуль­тат: око­ло 20 раз на мил­ли­он слов для пер­во­го про­тив 1 ра­за на 10 мил­ли­о­нов для вто­ро­го!3)

Эти циф­ры не долж­ны вы­зы­вать недо­уме­ние. Ка­жет­ся, что опре­де­ле­ние встре­ча­е­мо­сти в рас­че­те на це­лый мил­ли­он слов – это че­рес­чур. Ни­чуть не бы­ва­ло. Возь­мем хо­тя бы сло­во drömjobb (что-то вро­де ’ра­бо­та, о ко­то­рой мож­но меч­тать; иде­аль­ная, же­лан­ная и т.п. ра­бо­та’). Оно сло­вар­ное, т.е. учте­но в SAOL’e, и ин­ту­и­тив­но ка­жет­ся, что оно со­всем не ред­кость: мы же на него то и де­ло на­ты­ка­ем­ся. Меж­ду тем, его встре­ча­е­мость, т.е. ча­стот­ность, все­го лишь 1,7 на мил­ли­он. И это­го бо­лее чем до­ста­точ­но, что­бы сло­варь не об­хо­дил его сто­ро­ной и при­зна­вал его лек­си­ко­гра­фи­че­скую цен­ность. Вот и го­во­ри по­сле это­го о так на­зы­ва­е­мых сло­вар­ных ми­ни­му­мах, зна­ние ко­то­рых яко­бы обес­пе­чи­ва­ет уча­ще­му­ся вла­де­ние язы­ком. Ха-ха!

___________________________

1)  Тех­ни­че­ское при­ме­ча­ние. Ме­то­ди­ки, поз­во­ля­ю­щей вы­брать из кор­пу­са все слож­ные сло­ва, «офи­ци­аль­но» не вхо­дя­щие в язык, по-ви­ди­мо­му, не су­ще­ству­ет. Во вся­ком слу­чае, мне она не из­вест­на, хо­тя ал­го­ритм мож­но се­бе пред­ста­вить: спер­ва про­грам­ма об­ра­ба­ты­ва­ет кор­пус на пред­мет вы­бор­ки всех во­об­ще слов, не вхо­дя­щих в SAOL, за­тем уда­ля­ет дуб­ли, лем­ма­ти­зи­ру­ет (т.е. при­во­дит все сло­во­фор­мы к сло­вар­но­му ви­ду), по­сле че­го вы­би­ра­ет из по­лу­чен­но­го спис­ка все слож­ные сло­ва. Как имен­но мож­но вы­пол­нить эту по­след­нюю опе­ра­цию, я по­ня­тия не имею. Но не ис­клю­чаю, что ком­пью­тер­ные линг­ви­сты мог­ли бы най­ти решение.

2)   Ого­во­рюсь за­од­но, что упо­треб­ляя вы­ра­же­ние «несло­вар­ные сло­ва», я рас­счи­ты­ваю боль­ше на при­ме­ры и на ин­ту­и­цию чи­та­те­лей мо­их за­ме­ток, чем на ка­кое-ли­бо без­уко­риз­нен­ное опре­де­ле­ние, ко­то­рое поз­во­ли­ло бы од­но­знач­но от­де­лять зер­на от пле­вел. Ни­ка­ко­го та­ко­го опре­де­ле­ния, кро­ме тав­то­ло­ги­че­ско­го (’сло­ва, ко­то­рые не вклю­че­ны в сло­варь’), не су­ще­ству­ет. Я пред­при­ни­маю от­ча­ян­ные по­пыт­ки най­ти при­ем­ле­мое оправ­да­ние это­му тер­ми­ну, и ес­ли это удаст­ся, то со­об­щу об этом с над­ле­жа­щим ба­ра­бан­ным бо­ем здесь на блоге.

3)   Этот под­счет сде­лан по дан­ным Нац. кор­пу­са рус­ско­го язы­ка, НКРЯ. Ко­неч­но, ес­ли бы это был кор­пус не «все­го» язы­ка, а толь­ко линг­ви­сти­че­ских тек­стов, то ре­зуль­тат для сло­ва ча­стот­ность был бы ме­нее устрашающим. 

Post Views: 20