Вопросы с тегом 'large-data'

Большие данные - это данные, которые трудно обрабатывать и управлять, поскольку их размер обычно выходит за рамки программного обеспечения, используемого для проведения анализа.
16

Рабочие потоки "больших данных" с использованием pandas

Я пытался много раз продумать ответ на этот вопрос, изучая pandas. Я использую SAS для повседневной работы, и это отлично подходит для его поддержки из-за ядра. Однако SAS является ужасным как часть программного обеспечения по многим другим причинам...
10 янв. '13 в 16:20
6

Что вызывает ошибку сегментации Python?

Я реализую алгоритм поиска графического алгоритма Kosaraju Strong Connected Component (SCC) в Python. Программа отлично работает на небольшом наборе данных, но когда я запускаю ее на супербольшой график (более 800 000 узлов), в нем говорится "Ошибк...
05 апр. '12 в 20:28
4

Parallel.ForEach может вызвать исключение "Out Of Memory", если вы работаете с перечислимым с большим объектом

Я пытаюсь перенести базу данных, в которой изображения хранятся в базе данных, в запись в базе данных, указывающую на файл на жестком диске. Я пытался использовать Parallel.ForEach чтобы ускорить процесс, используя этот метод для запроса данных. Од...
08 авг. '11 в 2:21
2

Общая память в многопроцессорной обработке

У меня есть три больших списка. Первый содержит битрейты (модуль bitarray 0.8.0), а два других содержат массивы целых чисел. l1=[bitarray 1, bitarray 2, ... ,bitarray n] l2=[array 1, array 2, ... , array n] l3=[array 1, array 2, ... , array n] Эти...
02 янв. '13 в 15:28
2

Как рисовать с помощью png в качестве фона?

Я сделал сюжет с 3 миллионами очков и сохранил его как PNG. Потребовалось несколько часов, и я хотел бы избежать повторного рисования всех очков. Как я могу создать новый график, который имеет этот PNG в качестве фона?
11 мар. '11 в 17:50
3

Как эффективно писать большие файлы на диск в фоновом потоке (Swift)

Обновление Я разрешил и удалил отвлекающую ошибку. Пожалуйста, прочитайте весь пост и не стесняйтесь оставлять комментарии, если остались какие-либо вопросы. Фон Я пытаюсь записать относительно большие файлы (видео) на диск на iOS, используя S...
12 авг. '15 в 12:41
3

Добавить строки в файл

Я новичок в R. Я пытаюсь добавить новые строки в файл с моими существующими данными в R. Проблема в том, что мои данные имеют около 30000 строк и 13000 col. Я уже пытаюсь добавить строку с функцией writeLines, но полученный файл содержит только добав...
12 окт. '11 в 14:22
2

Красное Черное дерево против дерева B

У меня есть проект, в котором я должен добиваться быстрого поиска, вставки и удаления операций с данными в диапазоне от мегабайт до терабайт. В последнее время я изучал структуры данных и анализировал их. Будучи конкретным, я хочу представить 3 случа...
19 июн. '11 в 6:47
3

Лучшие индексы индексирования данных для экстремально больших временных рядов

Я хотел бы рассказать коллегам SO'ers о своих мнениях о лучших структурах данных породы, которые будут использоваться для индексирования временных рядов (например, данных по столбцам, а также линейных). Существуют два основных типа временных рядов, ...
02 апр. '12 в 6:24
3

Возможность применения онлайн-алгоритмов в больших файлах данных с помощью sklearn?

Я бы хотел применить быстрые методы сокращения размерности онлайн, такие как (онлайн/мини-пакет). Словарь обучения на больших текстовых телах. Мои входные данные, естественно, не вписываются в память (именно поэтому я хочу использовать онлайн-алгорит...
17 сент. '12 в 13:18
3

Есть ли какой-нибудь просмотрщик JSON для открытия больших json файлов (окон)?

У меня очень большой JSON файл, который имеет несколько ГБ. Я ищу любого эффективного просмотра JSON. В котором мы также можем просматривать JSON в древовидном формате. Я понимаю, что такой огромный файл нельзя загружать за один раз. Интересно, ест...
02 нояб. '15 в 7:03
5

Повторить массив NumPy без репликации данных?

Я хотел бы создать массив 1D NumPy, который будет состоять из 1000 повторных повторений другого 1D-массива без повторения данных 1000 раз. Возможно ли это? Если это помогает, я намерен рассматривать оба массива как неизменные.
06 апр. '11 в 9:20
5

C Программирование чтения/написания файлов

Я впервые создаю программу с чтением и записью файлов. На самом деле мне интересно, что это лучший способ сделать это. Потому что, когда я сравнивал свою работу с моим одноклассником, наша логика сильно отличается друг от друга. Видите ли, наш учите...
04 дек. '10 в 14:26
5

Как читать только строки, которые удовлетворяют условию из CSV в R?

Я пытаюсь прочитать большой CSV файл в R. Я хочу читать и работать только с некоторыми строками, которые удовлетворяют определенному условию (например, Variable2 >= 3). Это гораздо меньший набор данных. Я хочу прочитать эти строки непосредственн...
21 апр. '14 в 11:38
4

Как я могу анализировать ~ 13 ГБ данных?

У меня есть ~ 300 текстовых файлов, содержащих данные о трекерах, торрентах и ​​сверстниках. Каждый файл организован следующим образом: tracker.txt time torrent time peer time peer ... time torrent ... У меня есть несколько файлов н...
12 июл. '12 в 10:32