R

Язык и среда R

Статистическое программное обеспечение

Дуальные числа в R
светлое будущее
potan
Есть ли в R библиотека для дуальных чисел или возможность переопределять все операции с обычными числами, что бы реалиловать свой тип чисел?
Есть большой код, включающий в себя в том числе решение линейной системы с сильно разряженной матрицей. Требуется оценить влияние изменений некоторых параметров на результаты. Проще всего это было бы сделать, проделав вычисления в дуальных числах (или их обобщении с несколькими "мнимыми" единицами).

Помогите с перекодировкой данных из CSV в R
elli_kuz
Доброе утро!

Есть файл csv, который дальше нужно обрабатывать в R.
Если его открыть как csv то кодировка кривая.
Если открыть эксель и подгрузить через "Данные из текста" -> csv + кодировкой UTF-8, то русский шрифт в норме.

Помогите, пожалуйста, с переоределением кодировки в R:

Вариант 1.

df.raw <- read.csv('shop_hive.csv', header=TRUE, stringsAsFactors = F, sep="\t", fileEncoding= "utf-8", quote = "") читает только первые 7 строк .

Вариант 2.

df.raw <- read.csv('shop_hive.csv', header=TRUE, stringsAsFactors = F, sep="\t", Encoding= "utf-8", quote = "") не читается совсем, выдает ошибку

"Error in read.table(file = file, header = header, sep = sep, quote = quote, : unused argument (Encoding = "utf-8")"

Вариант 3.

df.raw <- read.csv('shop_hive.csv', header=TRUE, stringsAsFactors = F, sep="\t", quote = "") читает весь файл в битой кодировке

Проверка локале показала что

"LC_COLLATE=Russian_Russia.1251;LC_CTYPE=Russian_Russia.1251;LC_MONETARY=Russian_Russia.1251;LC_NUMERIC=C;LC_TIME=Russian_Russia.1251"

Что ж я делаю не так? Подскажите, пожалуйста, что нужно поменять исправить?

Спасибо!!

нужна помощь
Тейлор
archi_of_real
Дорогие любители R у меня к вам вопрос:
Есть файл с табличкой вида:
ID клиента, наименование продукта, сумма.

Для каждого клиента таких записей 10-20.
Я хочу сделать кластерный анализ, только не могу сообразить как сделать матрицу с показателями для каждого клиента. По идее нужно сделать что то типа сводной таблицы для что бы строка это id клиента а столбцы это услуги с суммами либо нулями.
И да, на компьютере установлена R-studio и видимо только базовый набор пакетов, без возможности скачать пакеты из репозитория. ( нет интернета ибо суровая СБ блюдет инфобезопастность)

Экосистема R
аватар
p2004r
Безусловно, что столь мощное и выразительное средство анализа данных, каковым является среда вычислений и визуализации R просто провоцирует "делать все не выходя за пределы R". Но надо не поддаваться соблазну такого "солипсизма" и "помнить о окружающем мире".

Для бесшовного (и бескровного :) взаимодействия с внешним окружением важна экосистема образованная сопутствующими продуктами и приложениями. Вот небольшой, но полный крайне зрелых высокоуровневых продуктов образующих такую экосистему, поддерживающую применение R на всех этапах работы.

https://www.openanalytics.eu/products/
Метки:

Доступен library(keras) от rstudio
аватар
p2004r
keras библиотека ставшая практически стандартом при использовании нейронных сетей в машинном обучении.

Теперь что бы воспользоваться ей (и заодно лежащим в её основе TensorFlow от google) достаточно выполнить:

devtools::install_github("rstudio/keras")

дальнейшие инструкции по ссылке https://rstudio.github.io/keras/

Tufte in R (примеры для всех вариантов графических подсистем R)
аватар
p2004r
Классическая книга о отображении количественных данных в графическом виде получила сборник открытых примеров реализации рецептов отображения информации на языке R.

Книга (надо покупать)
https://www.edwardtufte.com/tufte/books_vdqi

Рецепты по реализации графика из книги (открытый доступ)
http://motioninsocial.com/tufte/?utm_content=bufferc1618&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer#.WEEZgXbqiFM.google_plusone_share

разбор статьи Incremental criterion prediction of personality facets over factors
alexwin1961
Освоение современных методов анализа является необходимым условием для достижения амбициозной цели - занять подобающее нам место в мировой психологической науке. Одним из важных инструментов такого освоения мог бы стать подробный разбор научных публикаций, прежде всего ведущих западных авторов. В отличие от примеров, которые рассматриваются в учебниках, статьи содержат гораздо больше полезной информации для достижения указанной выше цели - современный содержательный и методический контекст, целостную систему методов, а также перспективу дальнейших исследований. Современная практика публикации данных и аналитических процедур на языке R с целью обеспечения воспроизводимости научных исследований открывает перед нами отсутствовавшие ранее возможности.
Мне очень хочется, чтобы такой путь оказался плодотворным, хотя я прекрасно понимаю, что существует масса причин, которые делают подобное начинание малореалистичным в отечественных условиях. Тем не менее, давайте все-таки попробуем приступить к такой совместной работе. Предлагаю начать со статьи Джероми Англима и Шерон Грант Incremental criterion prediction of personality facets over factors: Obtaining unbiased estimates and confidence intervals, опубликованной в Journal of Research in Personality 53 (2014) 148–157.
Мне кажется, эта статья представляет для отечественных психологов интерес по многим причинам. Во-первых, Джероми известен как знаток соврменных статистических методов и R, он ведет собственный блог, активно консультирует других психологов. Во-вторых, статья посвящена важной проблеме доказательства инкрементной валидности одного набора предикторов (в данном случае, факторов Большой Пятерки) по сравнению с другим (фасеты Большой Пятерки)

mxnet -- гибкая и мощная среда реализующая алгоритмы Deep Learning и имеющая интеграцию с R
аватар
p2004r
mxnet позволяет максимально эффективно задействовать как аппаратные средства (она работает и на CPU, и на GPU, на одной рабочей станции и их кластере, может работать на мобильных платформах), так и накопленное программное обеспечение в области Deep Learning и средств обработки Big Data (плугины к sframe, torch, caffe, opencv, warp-ctc).

Пакет mxnet доступен в прекомпилированном виде пользователей MS Windows и Macintosh. Пользователи Linux систем должны будут самостоятельно собрать пакет следуя инструкции.

R занимает 5 место в рейтинге журнала IEEE Spectrum
аватар
p2004r
Основная ссылка на рейтинг



Поясняют такой рост (на 1 место с прошлогоднего рейтинга) "востребованностью данного языка в системах обработки больших объёмов данных, существенным ростом числа вопросов на Stack Overflow, появлением 62 тысяч новых репозиториев на GitHub, всплеском вакансий на сайтах найма персонала и активным упоминанием в различных исследовательских публикациях (за год число статей про R в IEEE Xplore увеличилось с 39 до 244)" http://spectrum.ieee.org/computing/software/top-programming-languages-trends-the-rise-of-big-data

Как всегда всплывает тема языка общего назначения Python и его "соперничества" с R. http://www.kdnuggets.com/2015/05/r-vs-python-data-science.html :)

Похоже единственный оставшийся аргумент в этом споре -- "легче начать писать на питоне" + "питон ближе практикам индустриального программирования".

Вообще успех R это такой "ИмперияScheme наносит обратный удар" :)

Читая новости о вымирании динозавров можно самому проверить как они вымирали :)
аватар
p2004r
В СМИ прошла волна публикаций про динозавров о том, что "они умерли сами и метеорит не увиноват" :)



https://lenta.ru/news/2016/04/19/dinos/

Но всё можно проверить самим и попутно освоить популярный анализ байесовский метод оценки распределений параметров моделей.

Доступен только реферат статьи http://www.pnas.org/content/early/2016/04/13/1521478113

Вот полное описание процедуры анализа данных в R самими авторами:
http://www.pnas.org/content/suppl/2016/04/14/1521478113.DCSupplemental/pnas.201521478SI.pdf

Дополнительные материалы берут здесь:
http://www.pnas.org/content/early/2016/04/13/1521478113/suppl/DCSupplemental

?

Log in

No account? Create an account