Вопросы с тегом 'text-parsing'

Разбор текста - это вариант разбора, который относится к действию разбиения потока текста на разные компоненты и фиксации связи между этими компонентами.
15

Удалить строки в текстовом файле, который содержит определенную строку

Как использовать sed для удаления всех строк в текстовом файле, который содержит определенную строку?
23 мар. '11 в 19:46
23

Разделить строку, содержащую параметры командной строки, в строку [] в С#

У меня есть одна строка, содержащая параметры командной строки, которые должны быть переданы другому исполняемому файлу, и мне нужно извлечь строку [], содержащую отдельные параметры, таким же образом, что и С#, если бы команды были указаны в команде...
18 нояб. '08 в 14:10
43

Оценка строки простых математических выражений

Вызов Вот вызов (моего собственного изобретения, хотя я не удивлюсь, если он ранее появился в другом месте в Интернете). Напишите функцию, которая принимает один аргумент, который является строковое представление простого математическое выражение...
29 мая '09 в 23:43
4

Разница между разбором текстового файла в режиме r и rb

Что делает синтаксический анализ текстового файла в режиме "r" более удобным, чем разбор его в режиме "rb"? Особенно, если текстовый файл может содержать символы, отличные от ASCII.
10 мар. '12 в 5:13
1

Что такое формат данных CoNLL?

Я новичок в разработке текста. Я использую банку с открытым исходным кодом (Mate Parser), которая дает мне результат в формате CoNLL 2009 после анализа зависимостей. Я хочу использовать результаты анализа зависимостей для извлечения информации. Но я ...
11 дек. '14 в 5:45
9

PHP - разбор текстового файла

У меня есть .txt файл, который имеет следующие данные: ID^NAME^DESCRIPTION^IMAGES 123^test^Some text goes here^image_1.jpg,image_2.jpg 133^hello^some other test^image_3456.jpg,image_89.jpg Что бы я хотел сделать, проанализируйте это объявление, чт...
14 мар. '11 в 13:51
9

Разбиение блоков на Python

Каким будет лучший способ в Python проанализировать фрагменты текста, содержащиеся в соответствующих скобках? "{ { a } { b } { { { c } } } }" должен первоначально возвращаться: [ "{ a } { b } { { { c } } }" ] поместив это как возвращаемый вход:...
30 окт. '09 в 18:18
2

Создать большой парсер - Извлечь релевантный текст из HTML/Блоги

Я пытаюсь создать обобщенный синтаксический анализатор HTML, который хорошо работает в сообщениях в блогах. Я хочу указать свой синтаксический анализатор на конкретный URL-адрес entrie и получить чистый текст сообщения. Мой базовый подход (из python)...
18 июл. '09 в 7:27
6

Лучший способ получить все цифры из строки

Есть ли лучший способ получить строку типа "(123) 455-2344" и получить от нее "1234552344", чем сделать это: var matches = Regex.Matches(input, @"[0-9]+", RegexOptions.Compiled); return String.Join(string.Empty, matches.Cast<Match>() ...
14 апр. '10 в 3:36
13

Как определить, какой разделитель используется в текстовом файле?

Мне нужно проанализировать файлы CSV и TSV. Я не могу полагаться на пользователей, чтобы узнать разницу, поэтому я хотел бы не просить пользователя выбрать тип. Есть ли простой способ определить, какой разделитель используется? Один из способов - пр...
17 апр. '09 в 19:52
9

Элегантный синтаксический анализ текстового файла

Мне нужно разобрать транскрипцию чата. Моя первая мысль, увидев файл, заключалась в том, чтобы бросать регулярные выражения в проблему, но мне было интересно, какие другие подходы люди использовали. Я ставлю элегантный в названии, поскольку ранее я ...
21 окт. '08 в 23:00
11

Может ли awk работать с CSV файлом, содержащим запятую внутри поля с цитированием?

Я использую awk для вычисления суммы одного столбца в файле csv. Формат данных выглядит примерно так: id, name, value 1, foo, 17 2, bar, 76 3, "I am the, question", 99 Я использовал этот awk script для подсчета суммы: awk -F, '{sum+=$3} END {pri...
29 июн. '10 в 6:35
6

Как получить первый столбец каждой строки из файла CSV?

Как получить первый столбец каждой строки во входном CSV файле и вывести его в новый файл? Я думаю, используя awk, но не уверен, как это сделать.
26 июл. '12 в 11:47
2

Что означает NN VBD IN DT NNS RB в NLTK?

когда я фрагментирую текст, я получаю много кодов на выходе, таких как NN, VBD, IN, DT, NNS, RB. Есть ли какой-то список, где-то где-то, где говорится, что это значит? Я пробовал googling nltk chunk code nltk chunk grammar nltk chunk tokens. Но я н...
29 мар. '15 в 18:08
3

Сохранение nltk рисованного дерева разбора в файл изображения

Есть ли способ сохранить обратное изображение из файла tree.draw() в файл изображения программно? Я попытался просмотреть документацию, но ничего не нашел.
02 мая '14 в 13:16